学术论文引文网络的无标度特征及成因分析,本文主要内容关键词为:标度论文,引文论文,成因论文,学术论文论文,特征论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 无标度网络及其基本特征
无标度网络(Scale Free Networks)的研究始于Albert-László Barabási和Bonabeau对因特网和昆虫群落等一系列复杂系统的行为和特性的研究,实证研究表明:大多数复杂网络不符合随机网络的特征[1]。无标度网络的提出突破了Erds和Rényi将复杂网络视为随机网络的局限[2],极大地促进了复杂网络的研究,并迅速从物理学领域向其他领域扩散,在众多研究领域均发现了无标度现象,如因特网、电信网络、代谢网络、社会关系网络、交通网络等,开创了复杂网络研究的新时代[3~5]。
对无标度网络的研究发现,在现实社会中,存在着这样一种网络架构:节点与节点之间的链接数量符合幂律分布,即少数节点(集散节点)拥有较大的链接数量,而大多数节点(非集散节点)拥有相对很少的链接数量,符合幂律分布的图形在双对数坐标系下表现为一条斜率向下的直线。
与随机网络相比,无标度网络具有以下基本特征:
(1)网络的成长性
伴随新节点的不断加入,网络呈现出日趋复杂的特性,不断加入的新节点使网络的成长和优化成为可能。
(2)节点的优先链接性
并非所有的节点都是平等的。以互联网为例,在将网络连结到何处时,人们会从很多网络中进行选择,然而大部分人只会熟悉因特网的一小部分,这一小部分往往包含有较多连结的节点,更为人们所知,人们在连结这些节点的同时,也加强了对这些节点的偏好。
(3)网络的进化机制
无标度网络所表现出的优化特征来自于网络节点的自由选择性,通过网络连接的通断实现网络拓扑结构的进化,更有价值的节点会在此机制下成长,同时劣化的集散节点也会被淘汰。
(4)鲁棒且脆弱
无标度网络针对随机的意外故障有较高的承受能力,随机去除节点不会影响到系统的整体结构,但是当面对针对集散节点的蓄意攻击时,如果网络中的几个集散节点同时失效,整个网络将面临毁灭性的打击。
2 基于关键词搜索的引文网络实证研究
学术论文间的相互引用关系形成了一个复杂的引文网络,参考文献是构成引文网络的重要联系。自从Lotka1926年和Shockley1957年所做的早期工作以来,引文统计研究已经成为了一个重要的研究课题[6,7]。不同的论文都讨论了引文分布的统计属性。S.Redner[8]在1998年分别就美国科学信息所(Institute for Scientific Information,ISI)和Physical Review D(PRD)所出版的文章进行调查,研究表明,ISI和PRD所出版文章的被引次数均符合幂律分布,由科学论文之间引用关系所连结的网络,遵循幂次定律,属于无尺度网络。我国学者方爱丽[9]等通过利用严格统计假设检验的方法研究了引文网络,证明了论文的被引用次数符合幂律分布。
当前对学术论文引文网络的研究从定性分析进入到了定量化阶段,对引文网络的数学或图形描述更加有助于对学科领域内研究者关系的分析。ISI以及SCI指数的创始人Eugene Garfield开发了一个名叫HistCite的软件,通过这一软件可以清晰的描绘出所检索的文献在引文网络中的关系图[10]。耿志杰,王文鼐对引文网络的幂律分布特征的原因进行了分析[11],提出引文网络中的“局域世界”现象和“适应度”现象均不会改变引文网络的幂律分布性质。姜春林等从期刊角度对CSSCI管理学来源期刊引文的网络进行了结构分析[12],分析了期刊的入度、出度以及中心度等指标,利用Netdraw做出期刊引用网络图,得出科学类的期刊之间形成了相对紧密的关系,利用Ucinet进行凝聚子群分析,将34种管理学期刊划分为四个群体,并对期刊的高频关键词进行了分析。以上的研究为学术论文网络的形成、演化提出了重要的研究方法和工具,关于引文网络的研究刚刚处于开始起步阶段,尚有大量问题未得到解决。
本文利用大型学术论文数据库CNKI,采用随机抽样的方法,对不同学术研究领域内的关键词进行检索,将检索得到的结果按照引用次数进行排序,并将数据进行拟合,得到不同领域内的关键词检索结果的引用拟合函数及其判定系数。实证调查研究发现:在不同科学研究领域内,科研论文的引用关系均符合幂律分布规律,科研论文引用呈现一种强者愈强、弱者愈弱的“马太效应”。
以关键词“无标度”为例,在CNKI中得到文献202篇(搜索结果截至2009年2月16日),至少被引用一次的文献篇数为286,平均引用率为1.42,最大引用次数为68,引文分布如图1所示。由图1可以明显看出,极少数文献被大量引用,而绝大多数文献极少被引用或根本没有被引用。绘制其双对数坐标图如图2所示,数据拟合后的模型为
同样,以其他学科的不同关键词进行搜索,例如“自主创新”、“网络安全”、“供应链”等(表1),均发现了引文数据的幂律分布规律,抽样结果表明:引文网络属于无标度网络。
3 引文网络无标度特征的形成机理
对学术研究者而言,查阅他人的研究成果是开展研究的必要条件,也是开展学术研究的基本功之一。数据库和网络技术的发展,使资料的收集变得更加容易,利用Google、Baidu、CNKI、VIP、EBSCO、Elsevier等数字在线资源,可以迅速地找到与自己研究领域相关的文献资料。同时,所搜索的资料来源更加广泛,时间跨度更长,与传统资料查阅方式相比,具有较强的先进性。但问题随之而来,如何在海量数据中寻找到最为相关的研究成果?研究者常用的策略包括:
(1)搜索关键词并且按照时间倒序排列的查找结果筛选。例如CNKI数据库自动默认按照文献的倒序排列搜索结果。
(2)搜索相关领域内的核心及权威期刊。
(3)根据Best Seller原则筛选(即根据文章的被引用次数、下载次数、阅读次数等文献使用情况等指标评价文献的价值)。
引用他人的研究成果需要依照学术道德规范和知识产权保护的要求,在其研究成果中相应地标注引文来源。期刊界普遍认为被引用次数越多的文献,其学术价值越大,并以相应的指标来衡量学术期刊的价值。那么,在某一个研究领域内的相关研究者的行为如何构成了引文的无标度特征?本文拟从以下角度进行探索。
3.1 原创文献的优先链接
在搜集了大量的资料以后,研究者经过自己的分析和观察,得到新的研究成果,为了使研究成果具有可信性和可追溯性,标注参考文献为一个基本的学术规范。但是对研究者而言,在引文标注过程中存在着引用心理的主观性判断。
为了查找领域内的最新研究成果,研究者倾向于搜索最近发表的论文,而且很多数据库提供商也是默认按照论文发表的逆序排列检索结果。由于搜索得到的检索结果其节点分布是无标度的,存在着大量的非集散节点和少数集散节点,对于文献检索者而言,接触到的大多数文献为非集散节点文献。研究者在阅读文献的过程中,同样会关注该文献所引用的参考文献,并对感兴趣的参考文献进行再次搜索,如果该文献引用了其他文献的原文,研究者会去直接引用“原文”“原话”最初发表的文章,而取消和该文献的引用关系。因此,基础性工作、开创性成果的论文被引用的概率加大,并且网络的便捷性确保了具有开创性成果的历史文献更加容易被找到。抑或,研究者最初接触到的文献对知识加工的有效性不足,价值量不大,研究者更倾向于寻找原文,以获取更确切的知识和信息。经过多次阅读之后,纵然研究者接触到的大多数文献为非集散节点,但最终会发现这些多数非集散节点所引用的集散节点文献。基于这个逆向搜索的过程,研究者跳过一级级的非集散节点,找寻到了该研究领域中的集散节点——原创文献,实现了和原创文献的优先链接。被引用较多的科学文献,会吸引更多的研究者去阅读和引用,也就是说,新节点加入网络的选择存在偏好性,集散节点和临近节点具有较大连接可能性,呈现“强者愈强”的马太效应。
3.2 期刊的品牌影响力
越是核心的、重要的期刊,其社会效益越好,就会吸引更多的研究者去关注。参考文献也是评价文章质量好坏的重要标准之一,对于研究者而言,倾向于选择更加知名的专家或者高级别杂志上发表的文章作为自身的参考,借以增加论文的权威性。因此,在参考文献的标注上会放弃和低级别期刊的链接,而选择权威期刊的论文作为引用链接。也有研究者会直接选择自身研究领域内的权威期刊搜索方式,在少数权威期刊范围内查找文献。这些权威期刊实质上就是期刊体系中的集散节点。现实中,我们会发现越是知名的期刊,其关注度越高,期刊的网络下载量、阅读量和引用频次都高于一般期刊,这正是期刊品牌影响力的具体体现。
3.3 论文的学术水平
科学发展是一个不断探索的渐进过程,论文是研究成果的外在表现形式。如果论文缺乏创新,或仅为他人研究成果的综合,通过阅读文献,研究者并不能发现有价值的知识,研究者更倾向于将参考文献的“参考文献”作为自己研究的参考,从而跳过了这一非集散节点,通过逆向搜索实现和集散节点的优先链接。但是,如果论文有自己独到的见解,哪怕只是原有成果上的一点点进步和创新,也会引起后续研究者的关注,成为别人的引用对象。因此,论文是否具备创新成果是论文能否被引用的关键。
3.4 其他原因
目前,在论文发表过程中,无论是作者还是编辑抑或是审稿人,更加重视的是文章的“内容”,参考文献的重要性往往被摆在一个相对次要的位置。某些期刊由于版面的限制,常常要求作者压缩文章的页码,第一个被精简掉的往往是参考文献。被精简掉的参考文献往往也是作者认为非权威期刊或者参考价值不大的文章,由此会存在参考文献漏标、不标的现象,由于学术评价中对于参考文献的漏标、不标的现象很难以做到有效的监控和制约,从而导致学术引文网络的人为“断链”。
综述性文章更加易于得到引用。进行科学研究的第一步就是如何高效的获取当前学科领域的发展动态和进展,基于此展开进一步的研究。通过阅读某领域内的综述文章,作者可以较快的了解当前学科的热点和研究方向。同时,也存在部分学者将综述性文章采取不加选择的拿来主义,而不是将综述文章作为一个研究的索引。这些因素导致了综述性文章有超乎寻常的被引用率。
4 结论
4.1 引文网络的鲁棒性和脆弱性
学术引文网络同样具有无标度网络的特征:鲁棒性和脆弱性。
4.1.1 鲁棒性
大量论文处于零引用或零下载的状态,随机的去除这些论文无关乎整个引文网络的安全,无关乎研究领域的安全。值得注意的是,这些低引用率或下载率的文献,其存在也是合理的,体现了引文网络这个复杂系统的开放性和科学发展的累积性。正是这些文献的存在,才能使越来越多的人开始关注此领域,并吸引更多的研究者加入。以此促进该领域的研究。集散节点文献和非集散节点文献相互依赖,集散节点文献维护网络的稳定性,非集散节点文献促进网络的开放性,这是符合科学发展规律的。
4.1.2 脆弱性
在引文网络中,那些具有很高链接度的集散节点是一些权威文献,被大量的文章所引用。但是,一旦权威的集散节点文献的观点遭到了质疑或者被证明是错误的,那么整个研究的体系将遭到毁灭性的打击。例如,在无标度网络概念提出之前,对于网络的特征研究是以Erds和Rényi提出的随机网络为基本假设的,许多研究者以此为基础,对互联网等大规模网络进行推论,得出网络的一些基本性质。但是,在20世纪末Albert-László Barabási和Bonabeau所提出的无标度网络动摇了这一存在了几十年的理论基础。Barabási提出,在当前所要研究的网络的关键问题是对大规模网络的拓扑结构和成长特征进行分析,找到其中的内在规律,而非对于一个静态网络的观察,对以随机网络为基础的网络图论的研究出现了危机,不少学者开始重新审视网络的特征,引起了一个新的学术热潮。
科学研究是一个不断探索、不断接近事物本质的过程。人们对事物的认识是渐进的,科学的发展也相应地表现为阶段性的突破与进展,在每一个发展科学发展阶段,都会有一些相对权威的观点占据主导地位,相继的研究围绕此观点展开,直到有新的、更加科学的观点取代之,科学研究也就进入另一个更高级别的研究层次,实现了科学发展的“能级跃迁”。因此,引文网络的脆弱性是符合科学发展规律的。
4.2 引文网络的“长尾”
通过实证研究表明,我国某些领域的引文网络符合幂指分布的无标度特征,但是存在着幂指数过低的现象,其表现为少数几篇文章的引用率非常高,但是大量的文章只有较少的引用或者零引用,好像一条长长的尾巴(图1)。国外的学者对引文网络也做过较为详细的实证研究,一般的幂指数高于我们实际研究得到的结果。尤其对于一些新出现的研究领域,其幂指数相对较高。究其原因,可能有以下几个方面:
(1)研究者对于文献引用的主观判断现象;
(2)大量研究处于低水平重复,缺少有效的创新,原创内容较少;
(3)大量非研究型人员因非学术目的(例如评职称、研究生毕业等等)而投稿发文,缺乏真正的学术兴趣,缺少在某一领域内的持续性研究。
与国外类似研究结果相比,我国科技期刊的幂指数普遍较低,表明我国科研论文整体水平偏低,原创成果较少,同时存在参考文献标注和引用不重视、不严谨等问题。建议我国科研人员和期刊出版人员应从提升科研水平和论文内在质量,避免学术研究水平重复,重视文献引用,鼓励原始创新,净化学术氛围以及完善学术评价体系等方面入手缩小与国外差距。
引文网络的“长尾”现象需要引起我们的关注,科学研究需要严谨、求实的作风,并且需要有一种为科学献身的精神。只有那些在科学的领域中孜孜以求,不懈努力的人才能有所发现,任何势利的、急功近利的思想都是开展科学研究的禁忌。在政策的导向上,应尊重科学发展规律,注重为科学研究人员提供一种宽松的研究氛围,给予科研人员更多的支持和关注,避免以一时的科研成果作为衡量科研人员职称晋升、事业发展的唯一标准。
4.3 期刊管理及评价
在引文网络中,被大量引用的文章为少数的原创文献,这为期刊界同仁提供了期刊管理的启示。
期刊质量的提升来自于原创文献,包括理论创新、原有理论在实践中的具体应用、开辟新的研究方法和思路、学科的交叉融合和创新等等。文章是作者思想的反映,是建立在作者对客观世界认识基础之上的,而人对世界的认知是无止境的,文章的优劣、错误与正确不能以静态的眼光去判断,只有那些具有新颖观点的文章才是期刊值得发表的。因此,文章允许有错误的假设,允许大胆的假设,甚至离经叛道,这是符合科学进步与发展的规律的。因此,期刊应倡导解放思想、百家争鸣的学术之风,编辑应充分尊重作者的劳动,尊重作者阐明观点的权利,在处理稿件时,对于那些矫揉造作、东拼西凑、缺乏思想的文章应拒绝,而对于那些原创的、稍微粗糙或缺憾的文章,则应发表。值得注意的是,原创文献毕竟是少数,因此,期刊不仅要发表内容有价值的文献,而且也要发表内容相对单一的文章(而且是多数)。这不是期刊的缺点,而是它的本性,是期刊作为科学的社会结构的组成因素,发挥作用的不可避免的条件。
在期刊的关系维护中,也要注意识别期刊的核心关系。那些具有创新精神的作者、研究领域的专家、学者等是期刊关系维护的重点对象,期刊要注重同他们保持联系、建立友好的关系,使之成为期刊的核心队伍。例如,可以根据作者论文的被引用情况、收录情况等,对作者队伍进行评价,并给予一定的奖励。以此来发现期刊的重要作者,实施科学的作者管理办法。
收稿日期:2009-10-23修回日期:2010-01-15