作者文献耦合分析与作者关键词耦合分析的比较研究:科学计量学实证分析_因子分析论文

作者文献耦合分析与作者关键词耦合分析比较研究:Scientometrics实证分析,本文主要内容关键词为:作者论文,实证论文,文献论文,关键词论文,Scientometrics论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 G350

1 引言

1973年,美国情报学家Small[1]首次提出了文献共被引(Co-citation)的概念,作为测度文献间关系程度的一种研究方法。与Small在同一时间提出该理念的还有苏联情报学家Marshakova[2]。1981年,White与Griffith[3]将文献共被引拓展至作者层面,形成了作者共被引分析(Author Co-citation Analysis,ACA)的研究方法。随后,众多学者对ACA进行系统而全面的研究。这些研究中不仅包含对该方法本身的改进,如第一作者共被引、全部作者共被引[4-6],矩阵对角线如何设定、矩阵是否需要转化、如何转化[7-8],共被引强度计算方法[9]等;还包含将ACA应用于某一科学进行领域探测的研究,如Pamela[10]将ACA应用于社会生态学领域、White[11]应用于情报科学领域、Chen[12]应用于数字图书馆等。这一系列的研究成果丰富了共被引的理论与方法,促进该学科的发展,并使得ACA作为一种分析方法日渐成熟。

与文献共被引的发展态势相比,文献耦合(Bibliographic Coupling,BC)作为与文献共被引形成对称关系的研究方法,其发展却相形见绌。而实际上,文献耦合的提出比文献共被引早了整整10年的时间。1963年,美国麻省理工学院教授Kessler在对《物理评论》期刊进行引文分析研究时发现,越是学科、专业内容相近的论文,其参考文献中相同文献的数量就越多。他把引证同一篇论文的两篇或多篇论文称为耦合论文(coupled papers),并把它们之间的这种关系称为文献耦合[13]。BC同样是测度文献间关系程度的一种研究方法,却并未像共被引一样获得长足的发展。直到2008年,Zhao[14]等人将BC拓展至作者文献耦合分析(Author Bibliographic Coupling Analysis,ABCA),以情报学领域为例来进行实证研究,并将ABCA与ACA进行充分对比,以探析二者之间的异同点。但之后的几年,Zhao等人并没有继续进行ABCA的研究。又转而进行ACA的研究。

根据耦合的原理,既然两篇或多篇文献可以引用同样一篇参考文献而发生相互关联,从而体现文献之间的某种隐含关系;那么,同样作为分析单元的文献关键词若被不同文章共用,也可以将不同作者的文章关联起来。通过关键词耦合起来的文献之间,以及这些文献的作者之间会隐含着一种什么样的关系?这两种关系之间又会有什么异同呢?本文试图予以探讨。本文研究主要有两个目的:①作者关键词耦合分析(Author Keyword-coupling Analysis,AKCA)是否是一种有效的耦合分析方法?它与另一种耦合分析方法ABCA在揭示学科领域的知识结构方面有哪些异同点?②在1991—2000年与2001—2010年这两个时间段,科学计量学呈现一种什么样的知识结构,以及科学计量学在这20年间是如何演进的?

2 方法论

2.1 数据采集与数据清洗

本研究有两个假设:①ABCA是一种可信的、有效的研究学科领域知识结构的方法;②科学计量学领域高活力作者的文献基本可以显示科学计量学的研究状况。为说明此研究,我们引入AKCA,将它运用于科学计量学领域,并将其结果与ABCA的结果进行对比分析。

本文的数据源为Web of Science,从该网络数据库分别检索并下载Scientometrics所刊载的1991—2000年间以及2001—2010年间的数据,精炼结果仅保留Article与Proceedings,分别得到科学计量学在1991—2000年间的790篇论文数据以及在2001—2000年间的1255篇论文数据,数据包含题名(TI)、作者(AU)、摘要(AB)、关键词(ID)、参考文献(CR)等信息。将经过采集、清洗完毕的数据分作两个数据集存储,即1991—2000的数据集与2001—2010的数据集,以便于运用AKCA与ABCA研究科学计量学的知识结构及其在这20年间的演进状况。我们开发了耦合系统软件来处理该数据集,并引导该软件运行生成便于进一步进行因子分析的数据结构形式。

2.2 方法与相关研究

2.2.1 耦合分析

在经典的作者共被引分析(ACA)中,选择多少位作者并没有严格的限制[15]。同ACA一样,作者耦合分析也没有约定俗成的做法,而且,由于这方面的研究较少,其分歧甚至比ACA更大。本文认为,在进行作者耦合分析时,对结果影响最大的就是作者耦合频次的计算以及选择所要研究科学领域的代表性作者。

2.2.1.1 计算思路

关于作者文献耦合的计算方法有两个不同的视角,颇具代表性的是Leydesdorff和Zhao的算法。Leydesdorff将其耦合分析软件挂接在个人学术网站上[16],马瑞敏推算其算法思想为:两个作者(分别为A和B)的耦合首先是两个文献的耦合,即文献的耦合是基础,先求出两篇文献的耦合次数,再求出这两篇文献的作者之间的耦合次数,然后累加。Zhao[14]提供的两个作者文献耦合的计算方法是:将某个作者(只考虑第一作者)所有论文的参考文献作为—个集合,然后和另一个作者所有论文的参考文献进行比较,找出共同的参考文献次数即为这两个作者之间的文献耦合次数。由于一篇文献在某个作者的参考文献中出现的次数不止一次,比如在A作者的参考文献中出现N次,同时在B作者的参考文献中出现M次,则这篇文献要赋以权值,具体为Min(N,M)。Leydesdorff的方法是每增加一篇文献便要和目标作者的所有文章的参考文献进行匹配,因此效率比较低,而且Leydesdorff仅仅提供了该软件,并未用它进行任何的实证研究。本文更加倾向于Zhao的处理方法,并且将这种方法推广至AKCA,每一个关键词相当于ABCA中的一篇引文。

2.2.1.2 代表作者选择

具体选择思路是:首先统计数据集中的高发文作者,提取发文大于两篇的作者;接着计算这些高产作者之间的耦合频次,计算每位作者的平均耦合频次(计算方法:作者与其他作者的耦合频次总和除以高产作者数目,再减去1);根据平均耦合频次对作者进行排名,抽取排名前100的作者,作为代表作者进行耦合矩阵的构建。至于选择多少位作者作为代表作者,也没有约定俗成的做法[15]。White与McCain[11]在进行作者共被引分析时选择了120位作者,当时由于数据库功能的限制,他们直接从DIALOG中检索获得作者的共被引数据。Zhao等人效仿White,同时也是为了与White的研究结果进行比较,也选择了120位代表作者进行作者共被引分析和作者文献耦合分析,他们的数据量是4422篇论文。在Zhao的一系列相关研究中,都是沿用120位作者的做法,其数据样本量一般也都比本文的大,如Scopus收录的情报学领域的3824篇论文[17],Web of science收录的“XML”领域的2,475篇论文[18]。而本文的数据样本量仅有2045篇论文,因此本文选取1130位作者作为代表作者。两个时间段、两种不同方法筛选出四组不同的作者集(都由100位作者组成)所发表的论文数量之和占我们数据样本量的比例如下:ABCA1991—2000为46%,AKCA1991—2000为44%,ABCA2001—2010为35%,AKCA2001—2010为36%。这几个数值都远远高于Zhao[14]等人统计的25%的比值。因此,我们选取的作者比Zhao等人的更有代表性,这100位作者完全可以反映出科学计量学在这两个时间段的研究状况。

2.2.2 因子分析

分别构造出100位作者的作者文献耦合矩阵和作者关键词耦合矩阵,得到四个不同的矩阵。矩阵的对角线值为作者的平均耦合频次减去1(消除自耦合)。矩阵导入SPSS进行因子分析,因子萃取选择主成分分析(Principal Component Analysis,PCA)。因子数量是通过检查方差的总解释度、公共因子和相关残差确定[19]。因子分析模型采取直接斜交转轴法。从理论上讲,一个学科尤其是一个二级学科的各个研究主题(因子)之间不可能是孤立的,而是存在一定相关关系的。因此,直接斜交转轴法可以更好地反映现实状况。

2.2.3 可视化

很早就有学者选择因子分析结果中载荷值超过某一自行设定阈值的载荷作者进行分析[3,20]。早期的学者在因子结构可视化方面一般选择表格形式或者多维尺度图谱(MDS maps)[11,15],这种可视化展示形式虽然展示的信息量够大,但是占用的空间也很大,且不够形象直观。Zhao[21]等人在借鉴前人的基础上,引入了一种新的可视化方法,以更加浓缩的社会网络图谱形式呈现各因子及其高载荷作者。该网络图谱的绘制是通过Pajek执行的Kamada-Kawai图谱分布算法(Kamada-Kawai graph layout algorithm)实现的,这是一种以发明者名字命名的可视化算法。本文的研究借鉴Zhao等人的可视化展示形式,但区别于Zhao的是,本文所绘制的图谱是通过执行UCINET中集成的NETDRAW软件实现的。该图谱依然可以以较小的空间呈现尽可能多的信息,且展示效果直观明了。

在本文的图谱中,作者以方形节点表示,因子以圆形节点表示。方形节点与圆形节点之间连接,表示作者在该因子上承载一定的荷值,载荷值越大,连线就会越粗;连线的色度也表明载荷值的大小,浅灰色的连线表示载荷值较小,黑色的连线表示载荷值较大。需要说明的是,只有作者在因子上的载荷值大于0.3才会被选入图谱并与因子建立连接。

图谱中节点的大小也表示不同的含义,是通过计算载荷数值而得出的结果。作者节点(方形)的大小与作者所承载在因子上的载荷值成正比;因子节点(圆形)的大小与连接在该因子上的载荷数值大于0.3的作者的载荷值之和成正比。图谱中节点的色度表示它们之间互相连接的次数,即网络中节点的点度(degree)。网络节点之间的距离远近可以近似地表示它们之间的亲密程度。如果两个因子之间距离较近,则这两个研究主题之间很可能有较强的相关性。

3 结果和讨论

3.1 作者排名

无论是作者文献耦合还是作者关键词耦合,作者能够与其他作者建立较高的耦合关系就表示该作者具有较高的研究活力。根据作者跟其他作者的平均耦合频次对作者进行排名,然后对排名结果进行相关分析,可以建立四对相关分析,如表1所示。对1991—2000年的136位作者分别进行ABCA和AKCA分析,并根据排名各自选取100位代表作者,在这100位代表作者中有79位相同作者,对这79位作者在AKCA与ABCA中的排名进行相关分析;同理,可以从2001—2010年的203位作者中提取68位相同作者进行AKCA与ABCA排名的相关分析。如此,分别得到相关系数0.396和0.398。另外,还可以分别对两个时间段的所有作者的AKCA与ABCA排名进行相关分析,得到相关系数0.407和0.520。结果显示,作者文献耦合与作者关键词耦合之间并不是没有关系,而是呈现一种弱正相关性,并且随着样本数据量的增大,这种相关性也在变强。

在作者文献耦合与作者关键词耦合的100位代表作者中有很高的重合率(1991—2000年79%的重合,2001—2010年68%重合),即在作者文献耦合中的高耦合频次作者依然是作者关键词耦合的高耦合频次作者,这进一步论证了ABCA与AKCA存在着相关性。至于1991—2000年与2001—2010年的科学计量学耦合情况的比较,虽然是79%>68%,却不足以说明这种相关性在减弱,因为针对1991—2000年的统计,是从136位作者中选取100位代表作者;而针对2001—2010年的统计,是从203位作者中选取100位代表作者。事实上,ABCA与AKCA的这种相关性在2001—2010年略有增强,因为,在分析过程中我们若如1991—2000年的一样,同样仅选定前136位作者作为分析基础,结果显示有80位共有作者,即80%的重合率,略大于79%。

3.2 因子模型拟合分析

将我们构建的ABCA与AKCA的作者耦合矩阵进行相似矩阵的转化,导入SPSS进行因子分析。因子模型的拟合结果如表2所示。从整体结果上看,耦合分析模型拟合优度非常理想,例如,1991—2000年的ABCA中,16个因子可以解释93.76%的总方差;只有47个数值的观察值和预测值的相关差异大于0.05,几乎100%的残差都小于0.05;公因子变动的数值最小为0.76,最大为0.99,小于0.7的公因子为0(或0%),小于0.8的公因子为1(或1%),小于0.9的公因子也只有18(或18%)。

两个时间段都显示,作者关键词耦合比作者文献耦合拟合结果更为理想,这表示作者关键词耦合的结果比作者文献耦合的结果更易于解释。1991—2000年的AKCA分析结果显示,作者耦合分析仅用8个因子就可以解释高达97.17%的总方差,比ABCA用16个因子解释93.76%好很多;最小公因子数值为0.86,远远大于0.76;98%的公因子数值都大于0.9,而ABCA大于0.9的公因子数仅占88%。2001—2010年的数据仍然显示AKCA好于ABCA,AKCA的10个因子可以解释94.55%的总方差,几乎100%的残差绝对值都是小于0.05;ABCA则是11个因子揭示93.86%的总方差,99%的残差绝对值小于0.05;AKCA的公因子最小值0.81大于ABCA的0.76;ABCA小于0.8的公因子数占2%,小于0.9的公因子数占15%,而AKCA没有小于0.8的公因子,小于0.9的公因子也仅占8%。

3.3 科学计量学(1991—2000)

针对科学计量学在1991—2000年间的数据构建的作者文献耦合矩阵与作者关键词耦合矩阵,分别进行因子分析,以主成份方法萃取因子,并进行直接斜交旋转,然后可视化其结构矩阵。

3.3.1 科学计量学(1991—2000)知识结构

文献耦合在揭示学科领域知识结构方面已经受到越来越多学者的认同,并得到实证分析。因此,我们以作者文献耦合分析方法来呈现科学计量学的知识结构。经过因子分析,我们探测到科学计量学(1991—2000)共16个因子(见表3)。载荷数表示研究主题(因子)在学科内的活跃度,载荷数是因子上载荷大于0.3的代表作者数,其计算方法不仅计算首要载荷作者数,同时计算次要载荷作者数,我们认为次要作者也可以表示研究主题的活跃性,忽略次要载荷作者数的做法不太合理[21-22]。各因子上最高载荷表示它所代表的各因子(研究主题)在学科内的显著度。因子标签的标注是一项比较困难的工作,为此我们充分考虑耦合的原理,即耦合的发生是作者共同引用了一篇文献或者一个关键词。我们检查各因子中高载荷作者以及高耦合强度作者的共同研究主题,其中ABCA主要检查源数据集中高耦合强度作者的耦合文献以及它们的题名;AKCA主要检查源数据集中高耦合强度作者的耦合关键词。我们发现,各因子中高载荷作者跟高耦合强度作者往往保持一致,而且各因子中与最高载荷作者发生最高耦合强度的作者往往也是因子中第二、三的高载荷作者,如ABCA引文分析Luukkonen,T(1)与Wouters,P(3)、学科领域计量Jain,A(1)与Karki,M M S(2)、专利分析Tijssen,RJ W(1)与Meyer,M(3);AKCA科学计量指标SANCHO,R(1)与WHITNEY,G(2)、期刊计量指标PICHAPPAN,P(1)与Egghe,L(2)、医学计量Breimer,L H(1)与Zhang,H Q(2)等。这使得因子的标注工作变得相对容易很多,只需要检查这些高载荷与高耦合强度作者的共同研究主题,即可确定因子标签。因子的确定主要是根据模式矩阵,因为模式矩阵中的作者体现了作者对因子的独特贡献。如果模式矩阵的载荷作者过少,无法进行标注时再借助结构矩阵。通过以上方法就可以确定16个因子的标签,其中有3个因子无论是在模式矩阵还是结构矩阵中都无法找到高载荷作者,因此无法准确地确定其因子标签,我们以“未查明”来表示。

结构矩阵中的作者载荷体现了作者之间以及因子之间的相关性,也就是说这些载荷不仅承载了作者与因子之间的相关性,也包含了各因子之间的相互作用[19]。因此,我们认为结构矩阵可以更充分地体现学科领域的结构特性,因子分析结果的16个因子的结构矩阵可视化结果如图1所示。如果在图谱中央划一根虚线,则科学计量学(1991—2000)研究被分为两个研究区域,左侧的区域明显表现为科学计量学的文献研究,右侧的区域则表现为科学计量学的政策研究。文献研究是对科学计量学基本的、传统的问题、方法以及规律的研究,主要包含:期刊影响因子、引文分析、期刊引证、期刊评价、共词分析、文献计量基础规律研究等。政策研究是科学计量学与科学学的实践问题、方法以及规律的应用等,主要包含:国际合作、科学合作、科学创新、文献计量应用研究、学科领域计量、专利分析等。科学知识图谱,由引文分析衍生而来,似乎正在成为连接文献研究与政策研究的一个领域。在科学计量学(1991—2000)中,科学知识图谱还是—个规模较小的研究主题。但下文的研究显示,在科学计量学(2001—2010)中,该研究已经发展为一个主流研究主题,而且与引文分析研究变得更加紧密相关。

3.3.2 ABCA与AKCA对比分析

3.3.2.1 主题探测

对科学计量学(1991—2000)的数据进行文献关键词耦合分析所探测到的因子及其载荷如表4所示,AKCA的因子分析结构矩阵的可视化结果如图2所示。分别比较表3与表4、图1与图2,我们可以发现:

图1 ABCA结果(科学计量学1991—2000)

图2 AKCA结果(科学计量学1991—2000)

(1)ABCA可以探寻到比AKCA更多的研究主题。针对科学计量学1991—2000年的数据,ABCA探寻出了16个研究主题,而AKCA仅探寻到8个研究主题。其原因有:①耦合的基础数据项(引文、关键词等)数量不同。ABCA在计算耦合频次时比AKCA依赖更多的数据项。统计136位作者的引文数量,它们的引文数量总和为5576,平均每位作者的引文数量为41;而统计136位作者的关键词数量,其数值远远小于引文数量,关键词数量总和为935,平均每位作者的关键词为6.88。统计科学计量学2001—2010年间的数据,依然是这种现象,293位作者的引文数量总和与关键词数量总和分别为16737和2982;平均每位作者的引文数量与关键词分别为82.45和14.69。不可否认的是,数据项越多,发生耦合的可能性就越大,但也更易产生大的变数。②耦合发生的学科差异。ABCA所依赖的引文数据不仅包含本学科的文献还依赖其它众多学科的文献,而AKCA依赖的关键词一般都是反映文章实质内容的本学科领域范围内的分类主题词。③年代追溯性的差异。文献耦合关系一旦确立,这两篇文献的耦合频次便不会随时间发生变化,这一点不仅适用于ABCA,也同样适用于AKCA。但是作者文献耦合发生的追溯性更强,可以跨越数个年代。也就是说,虽然文献耦合发生是在文献出版的时间,但致使耦合发生是可以追溯到数个年代之前的文献。AKCA则在这些方面表现得很弱。因此,我们认为,以上三点原因使得ABCA增加了耦合发生的多变性和不稳定性,当文献耦合上升到作者耦合时就会增加作者耦合的多变,致使作者呈现多样性,因而降低了因子对总方差的解释度,使得ABCA的模型拟合不及AKCA理想,要充分解释其总方差就比AKCA需要更多的因子。

(2)在研究热点主题发现上,ABCA与AKCA的探测结果基本是一致的。以科学计量学(1990—2000)为例,ABCA探测到的第一与第二的研究主题是“国际合作”与“科学合作”,这与AKCA中探测到的排名第二与第三的研究主题“科学合作与分布”与“科研合作”基本是对应的,虽然在表述或者合作方式上有所差异,实质上都是关于合作的研究主题。ABCA中排名第三的“期刊影响因子”与AKCA中排名第一的“科学计量指标”、第四的“期刊计量指标”有对应关系。期刊影响因子应属于期刊计量指标的研究范畴,而二者又是科学计量指标的—个方面,因此,三者之间具有一定的隶属关系。由此看来,针对科学计量学1991—2000年间的数据,ABCA探测到的前三位的研究主题与AKCA探测到的前四位的研究主题基本一致。这也进一步说明,ABCA与AKCA存在着一定的相关性,在ABCA中建立高耦合关系的作者,在AKCA中也极易建立高的耦合关系。

(3)AKCA同样具有一定的预测性。AKCA的这种特性我们会在下文结合科学计量学(2001—2010)的数据加以说明。

3.3.2.2 耦合矩阵余弦相似度比较

前文已经比较ABCA与AKCA中作者的排名存在弱相关性,并论证ABCA与AKCA具有一定的相关性。这种相关性还可以通过比较ABCA与AKCA中两个耦合矩阵的余弦相似度得到进一步论证。将本文构建的科学计量学(1991—2000)的100*100耦合原始矩阵导入SPSS,计算得出ABCA与AKCA的余弦相似度为0.398。筛选出二者共同拥有的79位作者重新构建79*79矩阵,计算得出二者的余弦相似度为0.504。以同样方法计算科学计量学(2001—2010)的耦合矩阵,得出ABCA与AKCA的余弦相似度为0.526,二者共同拥有的68位作者构建的68*68耦合矩阵的余弦相似度为0.704。

从这四个数值上看,ABCA与AKCA具有一定的相似度,实际上更具有统计意义的是ABCA与AKCA过程中共有作者耦合矩阵的相似度。由于作者耦合方式(文献、关键词)的不同必然导致不同的作者被选入代表作者,从而进入我们的耦合矩阵。因此,只有两种耦合矩阵中共有作者的耦合频次在多大程度上相似,才能更好地说明两种耦合矩阵以及ABCA与AKCA这两种耦合方式的相似度有多大。结果表明,两个时间段共有代表作者矩阵的余弦相似度分别为0.504和0.704,这说明ABCA与AKCA这两种不同耦合方式下产生的不同结果具有很大的相似性,也同时表明这种相似性在科学计量学(2001—2010)中比在科学计量学(1991—2000)中体现得更为明显。而且,这个结论也与前文中的研究结论保持高度一致,前文中根据作者跟其他作者的平均耦合频次对作者进行排名,然后对排名结果进行相关分析,无论是AKCA与ABCA的共有作者还是所有作者,都表明科学计量学第二个时间段中的ABCA与AKCA的相关性比第一个时间段更强。

3.4 科学计量学(2001—2010)

采用同样的方法对科学计量学(2001—2010)作者文献耦合矩阵与作者关键词耦合矩阵分别进行因子分析,然后可视化其结构矩阵。

3.4.1 科学计量学(2001—2010)知识结构

经过因子分析,我们探测到科学计量学(2001—2010)共11个因子(见表5)。检查高载荷与高耦合强度作者的共同研究主题,确定因子标签。该阶段二者依然保持高度的一致。

如H指数的Ye,F Y(1)与Liu,Y X(2),科学知识图谱的Porter,A L(1)与Rafols,I(2),区域合作的Boshoff,N(1)与Sooryamoorthy,R(2),科学与技术的Van Looy,B(1)与Verbeek,A(2),期刊影响因子的Campanario,J M(1)与Sombatsompop,N(2),科研生产力的Lariviere,V(1)与Archambault,E(3)等。该阶段科学计量学最活跃的研究主题是“H指数”。最小的因子“网络计量”因其载荷数为0,是检查结构矩阵作者载荷确定的因子标签。

因子分析结果的11个因子的结构矩阵可视化结果如图3所示。同样在图谱的中央划一根虚线,科学计量学(2001—2010)的研究较为明显地分为四个研究领域:①科学与技术指标,包含“期刊影响因子”和“H指数”两个研究因子。②科学合作研究,包含“区域合作”、“学科合作”和“科研生产力”三个研究因子。③科学与技术交融研究,包含“科学与技术”和“学科交互融合”两个研究因子。④引文分析与可视化研究,包含“科学知识图谱”、“社会网络分析”和“引文分析与可视化”三个研究因子。我们可以发现,研究领域①与研究领域②交织在一起,没有明显的界线。实际上,研究领域①与研究领域②分别属于科学计量学1991—2000年间所论述的文献研究与政策研究范畴,这说明该时期科学计量学的发展不再像前10年所表现出的文献研究与政策研究、理论问题与实践问题相分离,而是更加注重二者之间的融合,呈现一种良性的发展态势。在科学计量学1991—2000年间,科学知识图谱源自引文分析,且并未形成一定规模。在2001—2010年间,科学知识图谱与可视化研究俨然已成为科学计量学的两个独立的研究热点领域,更重要的是,该领域各个研究主题之间的联系更加紧密,相互作用与影响在扩大。“网络计量”就是由该领域衍生出来的一个较新的研究主题,检查该因子下的作者及其共同研究的主题发现,该主题主要集中在“网络链接分析”的研究,我们认为网络链接分析属于网络计量的研究内容。

图3 ABCA结果(科学计量学2001—2010)

经过比较可以看出,经过一段时间的发展,科学计量学(2001—2010)的结构比科学计量学(1991—2000)的结构更加清晰明朗,各个研究主题之间不再孤立,而是更加融合贯通。

3.4.2 ABCA与AKCA综合对比

科学计量学(2001—2010)进行文献关键词耦合分析所探测到的因子及其载荷如表6所示。AKCA的因子分析结构矩阵的可视化结果如图4所示。

图4 AKCA结果(科学计量学2001—2010)

前文中我们阐明了ABCA可以比AKCA探测到更多的研究主题,并对其原因进行了详细分析。在该阶段,该论断可以得到进一步的论证,ABCA探测到11个因子,AKCA则探测到10个因子。在研究主题发现上,该阶段的研究结果与前文中论述的研究结论也保持—致。比较表6、图4与表5、图3,可以看到,在研究热点主题发现上AKCA的研究热点主题依次是:“影响因子”、“科学与技术”、“期刊指标”,ABCA的研究热点主题依次是:“H指数”、“科学与技术”、“学科合作”、“期刊影响因子”。除了“学科合作”外,其它研究主题基本—致。

Kuusi与Meyer[23]研究发现,文献耦合分析很适合用于预测,例如运用于预测技术突破。另外一些学者也论证了耦合分析可以显示微弱的信号来进行研究前沿的探测,这是由于耦合分析并不像共被引分析选取过去的高被引文献,而是选取最近发表不久的有影响的文献作为分析基础[24-25]。Strotmann与Zhao[14]等人坚持将作者共被引分析(ACA)与作者文献耦合(ABCA)分析结合起来预测学科发展,他们认为ACA未探测到而ABCA探测到的研究主题很有可能成为学科未来发展的趋势。比较表3、图1,表4、图2,表5、图3,本文认为,AKCA也同样对研究领域的发展有一定的预测性,而且这种预测性并不会比ABCA弱。本研究的过程是,分别以ABCA方法揭示科学计量学(1991—2000)与科学计量学(2001—2010)的知识结构及其演进过程,并以该领域的数据为样本展示ABCA与AKCA这两种分析方法的异同。在研究过程中发现,与科学计量学(2001—2010)的知识结构(表5、图3)更为接近的是AKCA揭示的科学计量学(1991—2000)的知识结构(表4、图2)。在AKCA结果(科学计量学1991—2000)中探测到的研究主题在ABCA结果(科学计量学2001—2010)中基本都可以找到相同或者相关的研究主题。例如,对比表4和表3,AKCA中的“科学计量指标”、“期刊计量指标”与ABCA中“H指数”、“期刊影响因子”相对应;“科学与技术”与ABCA中“科学与技术”一致;“科研合作”、“科学合作与分布”对应于ABCA中的“学科合作”、“区域合作”;“区域计量”对应于ABCA中“区域合作”;只有“医学计量”未找到与之相对应的主题。因此可以认为,科学计量学(2001—2010)的知识结构在科学计量学(1991—2000)的AKCA中早已有所体现,换言之,科学计量学(1991—2000)经过作者关键词耦合分析可以在某种程度上预示科学计量学(2001—2010)的某些结构特性。因此,AKCA是有一定预测性的,它可以预测学科在下一阶段的发展趋势。

另外,我们认为,ABCA与AKCA结合起来会是一种探寻学科知识结构及其发展的研究方法。在研究过程中,我们发现在ABCA结果(科学计量学1991—2000)与AKCA结果(科学计量学1991—2000)中都出现的研究领域在科学计量学(2001—2010)中也有出现,而仅仅在ABCA结果(科学计量学1991—2000)或者AKCA结果(科学计量学1991—2000)中出现的研究领域在科学计量学(2001—2010)中出现的可能性较小。科学合作研究与科学技术指标这两大研究领域在第一个时间段的ABCA结果(表3、图1)与AKCA结果(表4、图2)中都有出现,并在第二个时间段成为科学计量学的两个主流研究领域;而仅仅在ABCA结果中出现的“科学创新”、“共词分析”、“学科领域计量”、“专利分析”、“文献计量应用研究”、“文献基础规律研究”以及在AKCA中出现的“医学计量”都未在科学计量学(2001—2010)的主题探测中被发现。而仅仅在ABCA中出现的“引文分析”与“科学知识图谱”相互作用形成了科学计量学在2001—2010时间段的主流研究领域,仅仅在AKCA中出现的“科学与技术”也逐渐演变为科学计量学在2001—2010时间段的另一主流研究领域,这并不影响我们的结论。

毫无疑问,在2001—2010年间,“科学与技术”已经成为科学计量学的一个重要的研究领域,因为它不仅在ABCA结果中出现,也出现在AKCA的分析结果中。该领域的重要性在AKCA结果(科学计量学1991—2000)中就已有所体现,在AKCA结果中它位于图谱的中央,成为了联系科学合作与分布研究、科学计量指标、期刊计量指标的一个关键节点因子(图2)。我们分析,该因子的重要性主要跟International Conference on Science and Technology Indicators(科学与技术指标国际会议)的密集召开有很大关系。在1991—2000年间,《科学计量学》收录了两届该会议的论文(第4、5届),而在2001—2010年间《科学计量学》连续收录了五届该会议的论文(第6、7、8、9、10届)。这一方面说明国际会议对于推动学科发展甚至仅仅是学科某一方向发展的重要作用;也从另一方面论证了我们的因子探析结果与实际情况基本吻合,我们的研究结论是可信的。

4 结语

本文引入作者关键词耦合分析,结合作者文献耦合分析来揭示科学计量学1991—2010年间的研究状况。以10年为限,将这20年分为两个时间段,分别揭示这两个时间段的知识结构及其演进,并以这20年间的数据为样本分析比较ABCA与AKCA这两种分析方法的异同。

研究发现,在1991—2000年间,科学计量学的研究可以划分为文献研究与政策研究,而这两个研究领域以及研究主题之间的相互作用较弱。科学计量学在2001—2010年间的发展中,其知识结构变得更加清晰明朗,其研究主题之间变得更加亲密,相互作用力也明显加强。该阶段有四个较为明显的研究区域:科学与技术指标、科学合作研究、科学与技术交融研究、引文分析与可视化研究。

本文对ABCA与AKCA这两种分析方法,从作者排名相关分析、研究主题探测、余弦相似度计算、研究主题变迁等角度,以实证的方式,论证ABCA与AKCA间存在高度相关性。对作者的平均耦合频次排名进行相关分析发现ABCA与AKCA是相关的,这种相关性会随着样本的增大有变强的趋势;在研究热点主题探测上,ABCA与AKCA的结果基本是一致的;计算ABCA与AKCA构建的耦合矩阵的余弦相似度,尤其是提取二者共有作者构造新的耦合矩阵并进行余弦相似度的计算,表明这两种矩阵具有很强的相关性;两个时间段、两种分析方法的研究主题迁移状况表明,AKCA与ABCA一样具有一定的学科发展的预测性。本文在论证ABCA与AKCA存在着众多相同或者相似之处的同时,也发现二者之间有些许不同。在因子分析时,对二者进行相同的参数设置,并完全采取相同的分析过程,结果却显示AKCA比ABCA具有更为理想的因子分析模型拟合结果。在研究主题探测方面,ABCA可以探寻到比AKCA更多的研究主题,我们将其原因归纳为三点:耦合的数据基础的数量不同;耦合发生的学科差异;年代追溯性的差异。

本文认为,ABCA与AKCA二者不可以完全互为取代。虽然ABCA的实证文献较少,但这种方法很早便被提出,其基本原理和思想也深受广大学者的认同;而本文的研究显示,AKCA似乎能比ABCA显示更多的信号来反映学科的技术突破以及研究前沿的发展。因此,ABCA与AKCA结合起来会是探寻学科知识结构及其发展的一种理想研究方法。

(收稿日期:2013-03-28;修回日期:2013-06-20)

标签:;  ;  ;  ;  ;  ;  ;  

作者文献耦合分析与作者关键词耦合分析的比较研究:科学计量学实证分析_因子分析论文
下载Doc文档

猜你喜欢