科研团队视觉识别与评价方法研究&以科研领域为例_可视化论文

学术研究团队的可视化识别及评估方法研究:以科学学研究领域为例,本文主要内容关键词为:科学学论文,学术研究论文,为例论文,研究领域论文,团队论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着科学研究朝着微分化和积分化的方向发展,科学合作日益普及,由此也引发了科研管理部门和学术界对学术研究团队的高度关注。目前国内的研究主要集中在:学术研究合作的缘由[1]、学术研究团队的形成和管理机制[2~6]、学术团队带头人的培养[7]、创新研究群体科学基金的资助与管理工作[8]、学术团队内如何促进知识共享[9]、大学等组织如何建设有效的学术团队[10]等方面。但从管理、评估、学术跟踪的角度看,对学术研究团队的识别和评估也越来越重要。比如,对于一个学科(或学术领域)来说,究竟有哪些主要的研究机构?它们的实力、特点如何?最主要的学者以及他们的团队成员有哪些?他们各自关心的研究主题又有哪些?等等,显然,对这些问题的回答都十分重要。

然而,由于各种条件的限制,这些问题在以前一般都只能由专家作出以定性为主的判断,这样的方法不仅费时费力,而且也很难做到全面、客观、及时。现在随着国内外各种科技文献数据库的日益齐备和计算机数据挖掘技术、信息可视化技术的发展,这就为我们有可能通过对科技文献数据库的数据挖掘来解决这些问题。基于上述思考,笔者借鉴数据挖掘的思想,对科技文献库中的论文作者利用共现分析、社会网络分析等技术与方法开发了一套简单、高效的可视化识别和评估模型,并以国内科学学研究领域为例说明了此种方法的可行性和有效性,以便为学术研究团队的分析和研究拓展出新的方法和空间。

1 研究设计

1.1 研究假设

本研究建立在如下的假设基础之上:即任何科学研究和科技进步最终都会以文字的形式反映出来,因此通过对科技文献的分析,我们可以在一定程度上反映出科学研究的历史、现状乃至未来发展趋势,比如研究的热点,科技文献产出的模式,机构或学者以及期刊的学术影响力等。

由于科技论文都具备篇名、作者、机构、摘要、关键词等基本要素,而且由于科学合作的结果一般也都会以合作研究者共同署名在学术期刊上发表论文的形式体现出来,因此通过对论文作者、机构等基本要素的统计分析,我们可以获知该领域主要有哪些学者、哪些机构,及其合作情况,并通过关联分析,进一步分析出他们的各种特点。

1.2 研究过程中的关键技术

通过科技文献来对学术研究团队进行识别、评估和监测,需要通过数据收集、数据分析、可视化等步骤,其中最关键的一个技术是要将学术期刊上的作者合作情况以可视化的形式呈现出来。本文借助社会网络分析(social network analysis)技术来实现这个目标。

社会网络分析是一种研究社会实体间关系的方法技术,目前已被广泛应用于社会行为科学以及经济学,营销学和工业工程之中。如可以应用它来研究群体成员间的沟通、公司间的经济交易等。将其应用于文献计量学研究,则可以通过社会网络分析中的K核、中心性和中介性等概念,找寻出具有重要地位的论著、作者或者是关键词之间的关系和交互,发现它们的结构、特征等[11,12]。社会网络分析的可视化软件有多种,以netdraw的使用为最多。

为容易理解起见,下面以学术论文合作网为例来说明社会网络分析的方法和相关概念。

比如,假设某领域有7位作者发表了论文,其中作者A和B合作发表了3篇论文,B和C合作发表了1篇论文,B和D合作发表了5篇论文,A、E、F合作发表了1篇论文,G单独发表了3篇论文。根据上述数据,应用社会网络分析方法就可以得到他们合作情况的可视化图形,见图1。

图1 论文作者合作关系图

图1中,顶点代表作者,顶点之间的连线说明这两个作者合作发表过论文,其中线条的粗细说明了合作的强度,线越粗,说明合作次数越多。图中的孤立点G,说明该作者和其他作者没有合作经历。

显然,图1是一个非常简单的图,可以想象,当论文数、作者数达到成百上千甚至上万时,相应的图一般就会变得非常复杂,通过观察图的整体或局部的结构、点与点的连接情况以及线条的粗细等,我们就可以从中得到大量的结论,不用说,这时候社会网络分析方法就会更显出它的威力。

1.3 研究视角

学术研究团队一般有两层意思,一是建立在固定机构之上的团队,简称“机构团队”,即一般意义上的所在单位,比如,北京大学团队、浙江大学团队等;二是实际的由科研人员合作形成的团队,比如由某一个学术带头人组织形成的团队,简称“学者团队”,在这种情况下,其成员可能来自多个不同的单位。基于此,本研究的视角将同时关注“机构团队”和“学者团队”。

区分一个团队和另一个团队的异同显然也有多种指标,对于学术研究团队来说,本研究将着重进行以下几个方面的区分:主要的团队带头人及其特征;团队成员的规模;团队产出的大小;团队成员之间的相互关系;各主要团队的相关研究主题;团队的发展潜力和趋势分析等。

1.4 研究流程

按照数据挖掘的基本思想,本研究流程主要有以下几个步骤,见图2。

图2 学术研究团队的可视化识别和评估的流程

(1)数据收集。即在明确研究目标的基础上,选取最合适的数据库获得数据。

(2)数据预处理。主要工作是将收集到的数据进行规范化整理,以便于下一步统计分析。如进行数据格式的转换,剔除多余或不合格的数据等。

(3)数据计算。核心是围绕研究目标,对数据进行排序、求和、聚类、共现等计算。

(4)绘制图谱。将获得的计算结果整理为可以用来可视化表达的数据,并且运用合适的可视化工具绘制成图形,以有利于研究者和用户的理解和分析需要。

(5)研究报告形成。根据研究目的,在对数据计算的结果和可视化图形的分析基础上形成研究报告。

2 案例:以国内科学学研究领域为例

2.1 数据来源

本文研究数据来源于国内科学学研究领域2001-2007年度最主要的六种期刊所发表的论文,这六种期刊是《科学学研究》、《科研管理》、《科学学与科学技术管理》、《中国软科学》、《研究与发展管理》和《科学管理研究》。经过数据预处理后,共得到8909篇论文的详细信息,包括论文题名、作者、机构、关键词、发表期刊和发表的时间等。统计发现,这8909篇论文中,共出现8945个作者,总署名次数为17038次。其中由单个作者独立完成的论文有3399篇,由2个作者共同完成的有2461篇,由3个作者共同完成的有1715篇,由4个作者共同完成的有298篇,由5个及以上作者共同完成的有86篇。

2.2 高产作者合作网

通过对论文作者出现频次的统计,可以得到每一个作者的发表论文篇数(含非第一作者身份发表的论文),发表论文较多的作者见表1。

为了进一步反映作者之间的合作情况,下面我们用共现分析、社会网络分析等方法对这些作者的合作情况进一步进行分析并进行可视化识别。具体做法是:先选择频次不少于10次的作者,即认为在这7年时间里至少在这些期刊上发表了10篇论文的作者,才认为这个作者是比较重要的,这样共得到161位作者。然后计算他们中任意两个作者在所有论文中同时出现的次数,并将共现计算得到的结果用社会网络分析中常用的netdraw软件将其可视化,这样就得到了图3。图3中的每个顶点代表一个作者,顶点的大小和该作者发表论文篇数的多少成正比,顶点之间的连线代表这2个作者有共同合作发表论文的情况,线条粗重的说明它们共同合作发表论文的次数多,反之则共同合作发表论文的次数少或是没有合作。

由图3可以发现:

图3 科学学研究高产作者合作网

(1)发表论文较多的学者有:陈劲、许庆瑞、吴贵生、吴晓波、李垣、魏江、刘则渊、曾德明、黄鲁成等,他们大都是某知名大学的博士生导师、教授。

(2)161个高产作者中,有96位作者在不同程度上有过相互合作发表论文的情况,其余65位作者则没有和其他高产作者合作过(显然,这不排除他们和除这161位高产作者以外的作者合作过)。在图3中,这65位作者属单点型子网。

(3)较典型的两人合作型子网有:谭清美和王子龙,周立和何建坤,程如烟和罗晖等。

(4)较典型的3人合作型子网有:武书连、吕嘉和郭石林,曾德明、张运生和张利飞,李纲、张玉臣和陈德棉等。

(5)人数较多的合作网络有浙江大学和大连理工大学,其中浙江大学子网中的主要成员有陈劲、许庆瑞等,大连理工大学子网中的主要成员有刘则渊、姜照华等。

(6)图3中有少数作者同时和两个以上子网有联系,他们在某种程度上起到了一种桥梁作用。比较典型的,如郑钢联系了浙江大学和大连理工大学。处于这两个子网中间的桥梁型作者,一般是人才流动或开展学术交流的结果,比如,一个作者从A大学硕士毕业,接着又到B大学读博士;或是一个在A大学工作的作者,到B大学在职攻读学位或是做访问学者等,这样就形成了这两个子网之间相连的情况。

2.3 主要研究机构的作者合作网

图3描绘了国内科学学研究领域高产作者的合作网总图,下面我们再进一步对主要研究机构的作者合作网情况进行分析。具体研究步骤是:先对论文第一作者所在的机构进行统计,这样就得到了科学学研究领域各主要研究机构的产出情况,见表2,由此可知,浙江大学、西安交通大学、清华大学等是我国科学学研究的主要机构。

对这三个单位所发表的论文,参照前面的程序,可以分别画出这三个单位作者的合作网图,所不同的只是,在画这三个图时,将作者入选的频次门槛降为3,这样就得到了图4至图6。其中图4反映的是浙江大学640篇论文(含非第一作者属于浙江大学的论文)的作者合作网,该网中共有发表论文在3篇及以上的作者108人(含非浙江大学的合作者),图5反映的是西安交通大学519篇论文的作者合作网(3篇及以上作者105人),图6反映的是清华大学467篇论文的作者合作网(3篇及以上作者89人)。

观察图4、图5和图6,可以直观地发现如下一些结果:

(1)浙江大学网络的中心型学者主要有:陈劲、许庆瑞、吴晓波、魏江等,西安交通大学网络的中心型学者主要有:李桓、黄瑞华、孙林岩等,清华大学网络的中心型学者主要有:吴贵生、曾国屏、苏竣、姜彦福等。

(2)从整体结构看,相比之下,浙江大学、西安交通大学的网络比较大、比较广,子网之间大都有或多或少的联系,而清华大学的子网之间则区分得很清晰,界限比较分明。为什么会出现这种情况,其原因还需要进一步分析。一种可能的原因会否是由于清华大学研究方向上存在较大的区别?或者也可能和其教师的来源比较广泛有关?

如果对这三个机构的论文关键词进行进一步的统计,则还可以发现,这几年来他们的研究主题主要是“技术创新”和“知识管理”,但也有一些区别,如浙江大学比较关注“竞争优势、核心能力、产业集群、复杂产品系统”等问题,西安交通大学比较关注“组织学习、人力资本、合作创新、突变创新”等,而清华大学则比较关注“基础研究、战略”等。

图4 浙江大学作者合作网

图5 西安交通大学作者合作网

图6 清华大学作者合作网

图7 陈劲团队合作网

2.4 主要学者的合作网

在主要机构团队网络图中,如果单独将某个学者的合作网取出来,则可得到某个主要学者的合作网,即“学者团队网”。图7就是从图4中取出来的一个子图——陈劲团队合作网。

从图7可知,和陈劲有过合作发表论文的作者数量众多,共有23人,其中的主要合作者有:童亮、景劲松、陈钰芬、刘景江、葛朝阳等,他们大都是陈劲的博士生,而且团队成员之间也有不少合作。

3 结束语

学术研究团队的识别、监测和评估具有多方面的意义。比如,对于科研管理部门来说,可以发现并将资金投入到结构合理、产出较高的研究团队;对于学术同行来说,可以及时跟踪同行团队的人员结构组成情况和他们关心的主题;在国家层面,则可以制订相应的政策,培育强有力的学术研究团队等。但对于在宏观层面,能自动、高效、及时地跟踪并监测学术研究团队的有关理论、方法和技术,国内却一直鲜有系统的研究,基于此,本研究将数据挖掘、共词分析、社会网络分析等技术引入到对科技文献作者的分析中来,初步建立了基于科技文献数据库数据挖掘和社会网络分析技术的学术研究团队的可视化识别及评估方法,该系统可以比较有效地解决以下一些问题,如最主要的研究机构和学者的识别;机构团队、学者团队内部成员的合作关系;主要团队的实力评估;学术领域内学者之间的流动、交流、合作情况;各主要研究团队的研究主题等。

本研究的局限在于:本研究结果完全来自于对所选择文献的数据挖掘,显然这样的研究结果会随着所选择期刊以及统计时间等的不同而产生一些变化,而且在本文的案例分析中也没有进一步对作者署名次序的不同以及文献质量的不同进行区分。显然,如果能将这些数据挖掘的结果和可视化图形进一步同专家对上述这些问题的分析判断结合起来,就可以取得更好的效果。

标签:;  ;  ;  ;  ;  ;  ;  ;  

科研团队视觉识别与评价方法研究&以科研领域为例_可视化论文
下载Doc文档

猜你喜欢