科学叠加图及其应用研究_科学论文

科学叠加图谱及其应用研究,本文主要内容关键词为:图谱论文,及其应用论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1 引言

      科学图谱是在二维或三维空间中呈现科学研究领域,用图谱上的元素来表征学科概念或研究主题;元素在图谱上的位置布局依据其所表征的学科或主题之间的相似度来确定,相似度高的元素彼此临近、相似度低的元素则彼此远离[1];与较多元素都有关联的元素一般位于靠近中心的位置,而与其他元素较少关联的元素则一般处于图谱的边缘[2]。

      通过科学图谱,我们可以鸟瞰科学全景、识别学科结构[3]。通过图谱上元素的位置、颜色、大小及彼此之间的连线,我们可以从中识别出它们所表征的学科或主题之间的关联与结构。

      20世纪70、80年代,在科学图谱研究工作的早期,受种种条件的限制,研究人员一般只能使用少量数据来制作科学图谱,这使得所制作的科学图谱局限于表达有限学科领域的研究内容。由于具体学科领域内专业概念对科研管理人员而言不易解读,这就极大限制了科学图谱在科研管理层面的应用,因为管理人员一般需要简易且直观的表达[4]。

      近十几年来,伴随着计算能力的极大提升、可供分析的数据源不断丰富以及在信息可视化技术的发展推动下,科学图谱制作的理论、方法与技术得到长足发展,不仅可以更加清晰地揭示出某个学科内部的组成结构与动态演变,而且一系列覆盖所有学科领域的全域科学图谱被制作出来,这些学科层面的图谱不仅揭示了学科之间的关联,而且本身还可作为科学叠加图谱的基础图谱,用以展示机构的科研优势与竞争力或是用于寻找合作伙伴,在科研管理活动中日益受到重视[2,5]。

      2 局域科学图谱的优缺点分析

      迄今为止,大部分科学图谱是基于部分研究领域文献数据而制作,致力于描绘有限个研究领域内的主题结构,这些图谱也因此可被称之为局域科学图谱。局域科学图谱对于理解某一研究领域内的主题结构及动态演化非常有用,如White和Mccain[6]以1972~1995年间信息科学领域12种核心期刊中被引次数最高的120位作者为分析对象,使用作者共被引分析方法对信息科学领域进行专业划分,结果发现,信息科学领域主要由两大专业构成:信息检索和引文分析。Besselaar和Leydesdorff[7]以期刊为分析单元,使用多维尺度分析法和因子分析法对人工智能领域进行分析,通过研究发现,自1988年之后,人工智能已经成为一门学科,但该学科不等同于认知科学,其相关研究专业包括模式识别、专家系统等内容。Chen C M等[8]以超文本领域1989~1998年间367位科研人员为研究对象,使用作者共被引分析方法,结合主成分分析、寻径网络方法制作了超文本领域科学图谱,图谱中不仅详细显示出了该领域内39个研究方向,而且通过对节点所代表的作者进一步从专业角度进行着色,直观表达出作者的主要与次要研究领域。

      尽管局域科学图谱可以准确揭示具体学科领域内的主题结构,但由于它们仅仅涵盖整体科学研究领域的部分研究内容,所以,我们无法从中发现被研究的学科领域还与其他哪些学科领域有所关联。此外,由于在制作过程中选择了不同的分析单元、相似度测度方法、降维方法及可视化方法,因此,这些局域科学图谱彼此之间也无法进行比较。

      3 全域科学图谱概述

      与局域科学图谱相对照,我们把使用既涵盖自然科学也涵盖社会科学研究领域文献数据所制作的图谱称之为全域科学图谱。如果说局域科学图谱反映了科学研究的局部景观的话,那么全域科学图谱则为我们提供了一幅科学的全景视图,在这幅全景视图上,我们将能够辨识学科的组成与结构。

      科学计量学之父普赖斯(Price)[9]最早提出了引文数据库中蕴含着科学结构这一论断,构想了基于引文数据绘制科学知识图谱的宏伟蓝图。他指出,因为引证许多论文,也就形成了一个以某种复杂的方式把它们全部连接在一起的网络。借助这种网络模型,人们就可以用图论和矩阵的方法来加以研究,它似乎还向人们暗示,论文一定会聚集成团,而形成几乎能绘制成地图上的“陆地”和“国家”,并显示出拥有高地与不可逾越的沼泽。

      20世纪70年代,原美国ISI公司的Griffith B[10]等开始使用引文数据库制作全域科学图谱。受限于当时有限的计算能力以及高昂的计算成本,他们采取了提高论文被引频次阈值来限制待分析论文数量的策略,把被引频次阈值设置为10,如此高的阈值使得仅有1832篇论文被筛选出来作为绘制科学图谱的数据,最终生成了一幅高度中心化的全域科学图谱,如图1所示,图谱上的节点代表论文聚类,图中大部分节点都与3号节点及17号节点相连。

      

      采用高被引频次阈值对论文进行筛选带来的最大问题是产生了严重的学科偏差。我们知道,医学和化学这两个学科比起其他学科而言,一般会引用更多的参考文献,因此,满足较高被引阈值的论文大多属于这两个学科。这直接导致了最终生成的图谱呈现出生物医学(节点3)和化学(节点17)成为全科研领域中心学科的特征,但这显然与科研活动的现实是不相符合的。

      Small H[11]己也注意到了这个问题,在随后的研究中,他注重扩大分析数据的样本容量,尽量使数据所覆盖的学科更为全面。1999年,他使用1981~1995年被SCI、SSCI收录的36 720篇论文绘制全域科学图谱,最后生成了35个聚类,表征科学研究的35个学科领域。如图2所示,图中从左至右,最大的节点代表物质科学,接下来第二大节点代表生物科学,第三大节点代表医学,图中右下角的一些节点代表社会科学。这幅图谱中,虽然表征物质科学的节点面积最大,但从该节点与其他节点的连线数量来看,该节点并不是与最多节点都有关联,从这个角度而言,该节点不能称之为中心节点。

      从两幅图的对比中可以看出,由于使用了更大的论文样本容量,第2幅图谱在克服学科偏差问题上已经有了很大改善。事实上,一些科学图谱研究人员,如Klavans与Boyack[12]后来已经通过研究证实,通过极大增加论文样本数量,可以有效克服学科偏差问题。

      除了以论文为分析单元来制作全域科学图谱之外,一些学者尝试以期刊为分析单元,根据期刊之间的引用数据来制作全域科学图谱,这其中最具代表性的图谱是

K等[13]以2001~2005年同时被SCI、SSCI、A&HCI以及Scopus数据库所收录的16 235种期刊为数据源制作的全域科学图谱。该图谱生成了554个期刊聚类,并展示了这些聚类所表征的学科之间是如何相互关联的。他们进一步以该图谱为基础图谱,将加州大学圣迭戈分校(University of California,San Diego,简称UCSD)的科研成果覆盖其上,展示了该校的研究优势和竞争力。

      

      以期刊为分析单元制作全域科学图谱仍然需要人工来为期刊的聚类添加学科名称,西班牙学者Moya-Anegón F等[14-15]提出了直接以学科为分析单元制作全域科学图谱的方法,并分别于2004年、2007年发布了两幅使用不同粒度学科作为分析单元、采用不同空间布局算法绘制的可读性更强的全域科学图谱。受此启发,荷兰学者Rofol Rafol I等[16-17]同样以Thomson Reuters公司使用的期刊分类体系中的学科为分析单元,根据JCR提供的期刊间的引用数据累计计算学科间引用数据,基于这些数据制作全域科学图谱,该图谱呈现出学科之间环形互联的结构。环形的学科结构表明,没有哪个学科可以被视为科学研究的中心,所有学科之间彼此平等。本文将后面详细介绍该图谱。

      4 全域科学图谱中一致性的学科及其关联

      不同的数据源、分析单元、相似度测度方法以及可视化算法都会影响全域科学图谱的最终呈现方式,如有的图谱中会出现占据统计性地位的中心性节点[10],而有的图谱中却表明没有哪个学科能够占据科学研究的中心[16];再比如,有的图谱中会显示出社会科学与计算机科学之间的关联[18],而有的图谱则缺失这两个学科之间的关联[15]。

      尽管如上所述,不同研究人员使用不同数据源、采用不同算法最终制作出的科学全域图谱在外观呈现上各有不同,然而,学者Klavans和Boyack[12]在研究了20幅不同研究人员独立制作的全域科学图谱之后,却从中发现,这些图谱在所揭示出的学科领域以及各学科领域之间的关联上,却存在着明显的一致性。表1列出这些学科的英文简称、英文全称,图3中是两个学科之间的连线根据至少在上述一半以上图谱中都出现的两学科间的关联绘制而成。

      

      

      从图3中我们可以看到,所有学科顺次连接,形成一个圆环,在环形的学科结构图谱中,不存在所谓的中心学科。从数学开始,顺时针方向,依次连接了物理学、化学、生物化学、医学、神经科学、心理学、社会科学、计算机科学,最后又连接回数学。在这幅环形学科结构图中,我们还可以发现一些分支,为两个学科之间的关联提供了第二条通路,如物理学除了通过物理化学、化学而与生物化学建立关联之外,还可以依次通过工程学、地球科学、生物学而与生物化学建立起关联。

      这些从全域科学图谱中抽取出来的学科之间的关联具有两方面的意义,一方面,对学科间关联的一致性认知表明,基于文献数据库来挖掘学科间的关联是可行的,这种方法比仅仅依赖专家分析更为可靠,因为在学科门类如此庞大的今天,没有哪个专家能够掌握所有学科知识并准确判断出它们之间的各种关联。另一方面,多幅全域科学图谱中所呈现出来的学科间的一致性关联说明,全域科学图谱作为科学叠加图谱的基础图谱是可行的。

      5 科学叠加图谱的制作方法

      本文以荷兰学者Leydesdorff等人制作的全域科学图谱为基础图谱,使用他们开发的软件工具制作科学叠加图谱。

      5.1 基础图谱概述

      制作科学叠加图谱之前,Leydesdorff L等[17,19]首先制作出作为基础图谱的全域科学图谱。该全域科学图谱以Thomson Reuters公司使用的期刊分类体系中的学科为分析单元,使用JCR中的期刊引用数据累计生成学科之间的引用数据,采用Salton's余弦系数计算学科之间的相似度,使用Pajek软件进行图谱布局,使用SPSS软件进行因子分析,将224个学科划分为19个学科大类。该全域科学图谱如图4所示,图谱上的节点表征这224个学科,节点的颜色对应于19个学科大类的默认颜色,其名称位于图谱中长方形文字框中(以学科的英文简称表征学科,可参见上表1,其他简称:A表示Agriculture、BM表示Biomedicine、BU表示Business、CP表示Clinical Psychology、Ecol表示Ecology、Envi表示Environment、EP表示Economics & Policy、Mate表示Material。学科简称后括号之中的数字是笔者根据这19个学科英文简称升序排列编制的编号,同时将之填入对应的分支学科节点之中。

      观察该图可以发现,物理学与生物医学通过材料科学和化学建立起关联,此外,沿着更长的一条路径,物理学还可以通过材料科学、环境科学、地球科学、生态科学、农业科学到达生物医学领域。在该图谱的左半部分,我们观察到,一方面,生物医学可以通过心理学与社会科学建立起关联,另一方面,生物医学还通过卫生与健康研究领域与社会科学连接起来。图谱的下半部分,商业管理、经济与政策等社会科学研究领域通过计算机科学、数学而最终与物质科学研究领域建立起关联。

      把这幅全域科学图谱作为基础图谱,其作用就类似于提供了一个学科坐标系一样,每个学科都在坐标系里有固定的位置,学科之间的相似度可以通过其距离表征。把机构科研成果的学科分布数据叠加到全域科学图谱上,就类似于把这些数据投影到一个学科坐标系一样,由于坐标系的稳定性,对不同机构的科研成果进行对比就具有了可行性。

      5.2 科学叠加图谱制作方法

      为了方便没有图谱制作技术基础的研究人员制作科学叠加图谱,Leydesdorff L等[19-20]开发了专门的软件,极大地降低了制作科学叠加图谱的技术难度。按照这种方法,分析人员只需登录Web of Science网站,检索待分析机构的科研成果,然后利用网站自带的“分析检索结果”功能,对检索结果按照“Web of Science类目”进行分析,将生成的结果文件利用专用程序转换并导入Pajek软件后,即可方便地生成科学叠加图谱。

      

      6 科学叠加图谱的应用研究

      本文使用上面介绍的方法来制作科学叠加图谱,在此基础上展示它们的部分应用。

      6.1 机构之间的横向对比

      只需观察科学叠加图谱中节点的颜色、大小、位置等可视化信息,我们就可以获得关于某机构科研活动所涉及的学科领域、哪些学科成果丰富、哪些学科有待发展等丰富的信息。

      笔者采集教育部部属6所师范高校2007~2014年被SCI、SSCI收录的科研成果,制作了6幅科学叠加图谱,结果如图5所示。观察这些科学叠加图谱,我们发现,6所师范院校中,国际论文产出涉及学科面最广的学校是北京师范大学和华东师范大学。这一点我们可以通过图谱上不同颜色的节点数量以及节点的大小直观辨识出来的。在这2所学校的图谱中,图谱右半边的Mate节点(材料科学)、C节点(化学)、P节点(物理)、M节点(数学)、Envi节点(环境科学)、G节点(地球科学)、图谱中间BM节点(生物医学)以及图谱中上部的Ecol节点(生态科学)数目较多、面积也较大,表明其所对应学科的科研成果数量较多。同时,从这2所高校图谱的对比中我们可以发现,北京师范大学心理学学科论文比华东师范大学的数量更多,这是因为北京师范大学图谱中的左半部分表征临床心理学(CP)研究的节点以及表征心理学(PS)研究的节点其数目与面积更为突出一些。

      相比之下,东北师范大学、华中师范大学、西南大学和陕西师范大学的科研产出涉及的学科领域要少一些。从这4所高校的图谱中,我们可以发现,它们的科研产出首先主要集中于Mate节点(材料科学)、C节点(化学)、Pm节点(物理)、M节点(数学),其次是图中心比较突出的BM节点(生物医学),这表明4所高校在此领域内都有所涉及,而西南大学的BM节点面积更大,表明该校在生物医学领域产出了较多的科研成果;进一步仔细观察,在华中师范大学的图谱中,最右端的3个P节点(物理)非常引人注目,它们分别表示物理学领域的3个分支学科——天体物理、核物理与粒子物理(限于印刷文献的分辨率,图谱中没有标注分支学科名称),显示出该校在此3个领域内的研究优势。类似的,我们还可以通过西南大学图谱上部面积较大的A节点(农业科学)发现该校在此领域内的比较优势。

      

      6.2 捕捉动态变化

      除了可以通过观察科学叠加图谱一目了然地对机构的科研成果进行横向对比之外,还可以使用科学叠加图谱展示机构科研活动随时间发展的演变态势。

      笔者以自身所在机构——陕西师范大学为例,首先统计了本校2007~2010年、2011~2014年两个相同时间段内被SCI、SSCI收录的科研成果数量,然后计算第二个时间段里每个学科中包含的论文数量比第一个时间段内论文数量的增加值,最终得到根据每个学科论文成果增加数量所制作的科学叠加图谱,用以反映本校学科发展的演变态势,如图6所示。

      

      从图6中(a)(b)两幅图的对比中我们可以清晰地看出,本校传统优势学科Mate(材料科学)在保持优势的同时,一些新兴学科开始得到发展,如A(农业科学)、BM(生物医学)、PS(心理学)、G(地球科学)、CS(计算机科学)。我们还看到,尽管有些学科在蓬勃发展,但是也有一些学科没有表现出明显的增长态势,如在图(a)中M表征数学与应用数学的两个节点面积不算小,但这两个节点在图(b)中却小到几乎无法发现,这种情况表明,数学学科没有在第2个时间段内比第1个时间段内产出更多的国际论文。在全校各学科普遍以较快速度发展的大背景下,数学学科的这种情况也许值得引起科研管理人员的重视,需要进一步探究其背后的原因。

      6.3 探索交流合作

      通过对比不同机构的科学叠加图谱可以直观发现机构的优势或特色学科,这也为进一步探索机构之间的交流与合作提供了便利。

      一些关于寻找科研合作伙伴的研究表明,成功的合作来自于彼此知识结构间的适当差异。这是因为如果彼此之间知识结构相差过远,那么相互理解都很困难,再谈成功合作就显得不太现实。另一方面,如果双方知识结构过于相似的话,合作所带来的收益未必更大,而此时双方的竞争则可能会比较激烈,这种合作也不易成功[21]。在寻求科研合作伙伴的时候,可以根据自己需要发展的学科方向,选择那些已在该领域内积累了一定科研优势的机构作为目标对象,以便取长补短,带动本机构相关学科的发展。

      仍以笔者所在机构为例,通过上一节对本机构学科发展动态的分析,发现了一些具有较强增长潜力的学科,如生物医学、农业科学、心理学、计算机科学、地球科学等,想要进一步推动这些学科发展的话,选择合适的合作伙伴是一条可行路径。

      

      如果我们首先在省内高校来寻找合作对象的话,图7展示了陕西省6所具有较强科研实力高校的科学叠加图谱。这些图谱是根据这些高校2007~2014年被SCI、SSCI收录的科研成果数据制作而成。从这些高校的科研产出图谱中我们可以发现,第四军医大学、西北农林科技大学以及西安交通大学在生物医学学科有较多科研成果,西北农林科技大学在农业科学领域位于本省前列,而西安电子科技大学、西北工业大学以及西安交通大学在计算机学科都有较强优势,第四军医大学与西安交通大学在心理学方面有较多科研产出,西北大学、西安交通大学以及西安电子科技大学在地球科学方面也都表现不俗。因此,这些高校都可以作为本校科研合作的目标对象。

      7 结语

      多幅全域科学图谱中呈现出来的学科之间一致性的关联关系表明,通过大型综合文献数据库挖掘学科间结构是可靠的,因此以全域科学图谱作为科学叠加图谱的基础图谱是可行的,其作用就类似于提供了一个学科坐标系一样,使不同机构科研成果叠加其上所生成的科学叠加图谱具有了可比性。

      相比于细粒度主题层面的局域科学图谱,全域科学图谱属于粗粒度学科层面的图谱。由于现代社会大多数教育或科研机构都是围绕学科组建其分支机构,因此,学科层面的图谱对于这些机构的科研管理人员非常适宜,便于他们从自身所熟悉的学科角度去观察与评价科研活动。

      近年来,许多高校图书馆面向科研管理层面推出文献计量服务,在呈现机构学科成果时,多以各种表格、饼图、条形图为主[22-23]。尽管这些传统的图表可以清晰地表明计量结果,但与科学叠加图谱相比,它们无法揭示出各个学科之间的关联。与之相反,科学叠加图谱可以直观表达出机构科研成果的学科覆盖面,便于科研管理人员从相应节点的颜色、大小、位置等可视化信息中发现优势与特色学科,从而为机构间横向对比或寻找未来合作伙伴提供依据。除了静态对比之外,科学叠加图谱也适用于发现机构内科研活动随时间推移的演变态势,可以帮助科研管理人员及时发现潜力学科或学科发展中存在的某些问题。

      本文仅以笔者所在机构为例探讨了科学叠加图谱的部分应用,实际上,对此感兴趣的人们还可以继续探索基于横向对比的机构标杆管理、基于纵向对比的研究主题跨学科扩散分析等更多应用,使这种清晰明了展现学科成果的新型科学图谱得到更广泛传播与发展。

标签:;  ;  ;  

科学叠加图及其应用研究_科学论文
下载Doc文档

猜你喜欢