SNA与MSA在揭示知识结构中的比较研究,本文主要内容关键词为:知识结构论文,SNA论文,MSA论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔分类号〕G350
1 知识结构的揭示及其方法
分析某主题、学科的知识结构对科学发展具有重要意义。比如借此揭示整个科学大系统的学科构架和学科关系;考察学科或主题之间的相互融合、渗透、支撑;描绘学科前沿、热点,预测学科发展方向;突显学科沿革中发挥重要作用的文献、人物、机构、刊物;提供知识检索的途径与线索等。由此,对各种揭示知识结构理论、方法和工具的研究成为科学学、图书情报学甚至科技哲学的重要研究内容。当前,多元统计分析方法受到了广泛应用和认可,社会网络分析法也成为科学计量学中研究的新热点。本文就此两种分析方法在揭示知识结构中的作用进行比较研究。
1.1 多元统计方法
通常,用于分析知识结构的多元统计方法有3种:①因子分析,其目标是用尽可能少的因子代替所有变量去分析问题,根据因子得分值,在因子所构成的空间中把研究对象的变量点画出来,从而客观地达到分类目的;②聚类分析,它采用各种聚类算法将所有变量分别聚合到不同类中,把整个分类系统绘成一张谱系图,以展示所有变量间的亲疏关系;③多维尺度分析,它从客体间的相似性或相异性数据出发,通过非线性变换,把高维空间几何图形转化成低维空间图形,用低维空间中的点结构来表示客体,从而揭示数据潜在结构。
1.2 社会网络分析法
社会网络分析(Social Network Analysis,SNA)以行动者及其相互间的关系作为研究内容,通过描述行动者之间的关系模型,分析其所蕴含的结构及对行动者和整个群体的影响。1984年,Gattrell就从社会网络分析的角度对文献同被引网络进行了解释[1]。1999年Chaomei Chen把寻径网络(Pathfinder Network)技术引入作者同被引分析[2]。2003年Howard D White[3]采用该技术分析了情报学专业作者同被引情况,得出了比1998年[4]运用多元统计方法更符合情报科学认知结构的分析结果。Leydesdorff2007年利用社会网络分析软件Pajek,以图谱形式展现了三种期刊在引文环境中与其他期刊之间的引用关系[5]。简单来说,社会网络分析法对网络密度、节点距离、途径等的测度可以描述知识网络的整体结构特征;中心性分析可以衡量个体在网络中起到的核心或中介作用;凝聚子群分析则揭示知识网络中的派系分布、交流情况。本文所涉及的社会网络分析算法将在实证部分逐一给出。
2 以图书馆学、情报学为例的实证研究
本文的实证研究将揭示2006年图书馆学、情报学研究热点及构成情况。数据源选取中文社会科学引文索引(CSSCI)数据库2006~2007年图书馆学、情报学的16种来源期刊,分析工具是社会统计软件SPSS和社会网络分析软件Ucinet。
2.1 建立同被引矩阵
16种图书情报学期刊2006年共刊载参考文献39294篇,从中选出被引次数不少于7的论文69篇(不计著作及外文文献),构成69×69同被引矩阵,然后删去矩阵中每行(或列)非零项少于7的行(或列)所对应的论文,最后得到23篇参考文献构成的同被引矩阵。分析对象及此矩阵片断如表1、表2所示:
2.2 聚类分析和多维尺度分析
经多次试验比较,本文进行多元统计分析时采用邱均平、马瑞敏提出的对以往同被引分析方法的改进方案[6]。需要说明的是:①同被引矩阵对角线取该作者和其他作者同被引强度的最大值加1;②在聚类分析和多维尺度分析时均采用欧几里德距离的平方作为将原始矩阵转化为临近矩阵的方法,采用z分数标准化矩阵;③在多维尺度分析时将矩阵数据作为序数数值类型(ordinal)。聚类和多维尺度分析结果如图1、图2所示:
观察表1可以把2006年研究热点归结为“图书馆精神”,这与实际情况相符:2006年正是图情界从技术向人文回归的一年。从图1又可发现学者们从不同角度对该主题进行了研究,归纳各类研究内容如下:第一类文献讨论图书馆权力和基层图书馆制度建设,包括N6、N14、N22、N17、N23、N16、N10、N18、N15;第二类文献从图书馆史的角度谈图书馆精神和新图书馆运动,包括N11、N21、N7、N2、N12、N20、N5;第三类文献旨在通过解析图书馆精神找出解决图书馆当前面临的问题的途径,包括N8、N9、N3、N19、N13;第四类文献研究图书馆职能和信息公平,包括N1、N4。
图2将各文献间的相异程度以二维平面上的距离展现出来,可以看到其大体情况和聚类结果是一致的,但更直观、细致。第一类文献汇集了最多点,距离最紧密,由此可以看出这方面的研究最多,形成了致密的文献群。第二类文献中值得注意的是N2、N12和N5,它们都处于接近坐标原点的位置,说明这三篇文献是整个学术研究文献群的核心,与其它文献有广泛、密切的联系,对图书馆的历史和现状,图书馆精神和权力都有涉及。第三类文献中N3和N8比较接近,都重点谈了图书馆人才的培养。第四类两篇文献与主要研究图书馆精神的第三类和第二类文献都有紧密联系,但由于更侧重信息公平与图书馆职能的研究,因此单独列类。另外,通过分析图2与各篇文献主题的关系发现:图中纵轴可作为时间轴,横轴以上侧重历史研究,横轴以下是对现实问题的关注;图中横轴可视为从研究图书馆制度与权力向讨论图书馆精神与职能的过渡。但坐标轴本身并不是严格的分界线。
2.3 社会网络分析
二值矩阵在分析某些网络结构特征时更适用,因此通过以下过程得到同被引矩阵的二值矩阵:同被引矩阵共发生同被引次,排除次数为0的单元格后,有同被引次数单元格335个,平均同被引次数为1.97。取同被引次数大于该值时为1,小于该值时为0。这个新矩阵体现出来的是具有强连结关系的文献[7],以下计算均用该矩阵。
首先,对同被引网络进行成分分析,它可以告诉我们一个网络的连通情况。成分(component)即“最大关联的子图”[8]。在一个成分中,所有点通过各种途径相连,其中任何线都不指向该成分以外的任何点。利用Ucinet对矩阵绘图(Visualize→NetDraw),如图3所示:
图3 2006年图书情报学高被引论文同被引网络
网络被分为两个成分:文献N16和其它文献。这说明作为孤立点的N16与其它文献发生同被引关系的次数低于平均值,而其它文献之间均有较强联系。
其次,排除N16,计算其他任意两篇文献之间的平均距离。在图论中距离指两点之间的最短途径,要计算的距离实际上是计算出任意两点之间的距离,并对所有成员之间的距离之和取平均,这样就可以得到整体网络成员之间的平均距离[7]。经计算(Network→Cohesion→Distance),平均距离为1.723,也就是说,任意两篇文献平均只要不到两步就可到达。另外,同时计算出来的还有建立在“距离”基础上的凝聚力指数(compactness),该指数在0~1之间,数值越大表明该整体网络越具有凝聚力,该指数为0.667,是一个凝聚力很强,很紧凑的网络。
再次,寻找网络中的核心文献集团。这里要用到k-核分析。k-核是建立在点的度数基础上的概念。一个点的度数就是对其邻点多少的测量,也就是与该点相连的线的条数。k-核指一个子图中的点都至少与该子图中的k个其他点邻接[9]。通过改变k值,会得到不同子图。随着k值增加,k-核成员会逐渐减少,而成员之间的关系会愈加紧密。在本文的同被引网络中,k-核最高级数为6。也就是说,6-核中的文献是整个同被引网络中连接最强,关系最紧密的核心文献集团,其中每篇文献都至少和同一核中的6篇文献发生同被引强度大于1的关系。此6-核有14篇文献:N1、N2、N4、N5、N6、N7、N12、N14、N15、N17、N20、N21、N22、N23。核心集团的庞大也再次证明了2006年图书情报学研究热点的主题非常集中。
最后,分析同被引网络的凝聚子群。对于较大成分内部结构的把握需要更深入的分析。凝聚子群分析的方法很多,例如基于子群成员之间的接近性或可达性的n-派系n-宗派分析,基于子群内部成员之间关系频次的k-丛分析等。它们都重点关注子群内部关系,但是,既然一个凝聚子群是内部关系相对比较紧密的群体,就不应该仅仅关注子群内部关系的性质,还应该分析子群内外关系的特点。因此,本文选取Factions程序进行派别分析,该方法通过比较子群内部成员之间的关系强度相对于子群内、外部成员之间的关系强度来区分派别。操作步骤如下:Network→Subgroups→Factions(见图4)。
派别分析将文献同被引网络分为6个子群:①N3、N8;②N1、N2、N4、N5、N7、N9、N11、N19、N20、N21;③N16;④N6、N12、N14、N15、N17、N22、N23;⑤N13;⑥N10、N18。将这6组与聚类分析和多维尺度分析的结果相比较,可以看出其明显区别:凝聚子群分析强调了文献N16、N13与其它文献之间的松散连结关系以及N3与N8,N10与N18两组文献内在的紧密关联。
观察原始矩阵,N16与其它22篇文献中的12篇都有同被引关系,强度均为1。阅读文献,N16主要论述的是资源整合和服务平台建设,它与其它研究图书馆精神、权力、制度、运动的文献存在普遍联系,但由于其主题与其它文献有一定距离,因此同被引强度达不到平均水平,被孤立于主成分之外。由原始矩阵和图5的密度矩阵可知,文献N13仅与第二组的文献N1有较强同被引关系,同其它文献的关联强度都很弱,因此也被分离出来,独立成组。文献N3与N8分别是程焕文在2003年和1992年发表的在内容上有承接关系的论文,而文献N1O和N18都是讨论基层图书馆生存现状及发展的文章。这两组文献在多维尺度图中的位置也非常接近,但在聚类分析中没有与其它文献群区分开来。凝聚子群②、④与聚类分析产生的主要文献群大体一致。
图4 派别分析的分组矩阵
图5 密度矩阵
2.4 分析方法比较
2.4.1 方法基础 MSA是以统计学为基础的,分析样本不能过少,关注分析对象的自身特性。SNA的数学基础是图论,随着计算机技术的发展,既可以研究小群体的关系也可以利用复杂网络理论分析超大规模的网络结构,关注分析对象之间的联系。
2.4.2 研究结果 通过多维尺度分析能够绘制出直观的知识地图,再借助聚类分析或因子分析的结果确定每一类的数目和边界。但对于网络的整体属性和节点间直接或间接的连结状况不予反映,容易忽视比较特殊的节点和小群落。SNA则可以揭示某一网络的整体结构特征,通过网络图直观展示各个节点间的联系,找出网络核心部分,将相对独立的节点、小群落挑选出来,根据对关系的不同算法进行网络分群。可见,SNA算法丰富,操作灵活,但不如MSA简便,包含更多的人为干预和主观判断。对于某一具体分析对象而言,往往需要运用不同算法,采取不同阈值和参数进行多次试验才能得到比较理想的结果。
2.4.3 应用局限 目前使用较多的社会网络分析软件Ucinet善于分析二值矩阵,在将赋值矩阵转换为二值矩阵时会丢失有用信息。例如在本文中,同被引强度为3、4或更大数值的节点就被忽视了,都被看做与强度为2的值等效。Pajek可以较好弥补这一缺陷,用连线的粗细表现联系的强弱。但是,对于赋值图的分析还没有比较完善的算法,这也是今后的研究方向。
3 结语
社会网络分析法推动了科学研究范式的转变,为我们提供了一种以关系为基本分析单位的新视角。从方法论角度来说,网络方法补充了个体主义方法。后者是把个体视为独立单位,按照个体内在属性和规范特征来解释个体行动的一种研究范式,从而将个体从其所嵌入的网络中相分离。而网络分析则从关系而非范畴的角度界定总体和样本,从相互联系而非孤立的视角描述和分析资料[10]。但是,基于实体论的个体主义方法也同样重要。本文的实证研究在一定程度上证明了这一点:社会网络分析法和多元统计方法在分析结果上可以互为印证和补充。仅仅从社会网络角度,或仅仅从个体属性角度给出的解释都是不充分的。因此将两种不同视角的分析方法结合起来研究知识结构能够更好地理解知识网络现象。
收稿日期:2008-09-20 修回日期:2008-10-31 本文起止页码:106-109,121
标签:矩阵论文; 图书馆论文; 文献分析法论文; 社会网络论文; 情报学论文; 文献论文; sna论文; 外文文献论文;