知识网络的演化(二)--增长老龄化与知识生成时间点的关系_网络节点论文

知识网络的演化(Ⅱ):增长老化与知识产生时点的关系,本文主要内容关键词为:知识论文,时点论文,化与论文,关系论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

doi:10.3772/j.issn.1000-0135.2011.09.004

1 引言

知识的增长和老化之间有何内在联系?而增长老化与知识产生时点之间是否又有关联?知识增长老化的形式多种多样,增长有指数增长[1]、logistic 增长[2]、线性增长[3]、阶跃函数增长[4],以及大量修正模型。老化从历时和共时角度提出的都是负指数模型[4],然而老化曲线却是各式各样。Avramescu总结了前人的观点,按照不同质量、不同种类文献的老化趋势,将文献的老化描述为四种典型特征的老化曲线[5],如图1所示。文献的老化与文献本身的质量、价值有关。对此作者在此系列论文的上一篇文章[6]中已经进行了较详尽的分析,这里不再赘述,单对以前的研究作一个简单的小结以引出下文:①此前对知识增长与老化的研究更多是描述性和实证性的,是对现象的描述和归纳,较少涉及分析形成相应现象的内在机理;②较少考虑增长和老化之间的内在联系,较少将增长和老化作为一个整体来进行考察;③知识产生的时点与知识的增长老化之间是否有关系?在学科发展的不同阶段产生的知识,其增长老化是否是一样的?这些问题之前也较少涉及。

图1 Avramescu的历时老化曲线

图1中,横轴表示时间,纵轴表示历时被引证次数;a描述才华横溢而到后来才被认识的论文,使用量逐渐增大,在相当长时间内不表现为老化;b描述文献被广泛接受,老化速度较慢;c描述一直不被重视,老化速度慢;d表示一经发表就受到重视,但后续很快老化。

鉴于logistic增长的良好综合性特征,可以很好地反映一个完整的知识生长阶段,本文沿用上篇文章知识网络演化模型,重点考察在此种增长模式下演化网络的拓扑结构和知识节点的历时老化特征,探讨增长老化之间以及它们与知识产生时点之间的关系。

2 方法与模型

2.1 方法与目标

以作者前篇文章[6]所构造的模型为基础,本文也从增长和连接两个过程进行分析,并且进一步考虑以下几个方面因素的影响:①节点的增长方式,采用logistic函数增长模式。在Price模型及BA模型中,均假设每时间步只增长一个节点,这样处理对于网络的拓扑结构的影响不大,但是对于分析增长老化行为是有很大影响的。而本文之所以采用logistic函数增长模式,是因为这种增长模式的认同度较高,具有很好的代表性,且阶跃式增长也是以它为基础的。②仅考虑入度对后续连接的影响。BA网络不区分出度和入度,而Price模型只考虑入度的驱动。本文采纳Price模型的原则,仅考虑入度对连接的驱动作用。这是因为论文大量的被引证会为其带来更多地被引(马太效应),具有群体性行为的一般特征,具有客观性;而出度代表的是文章的参考文献数量,它更多反映的是个体的偏好和行为。

目标主要是分析知识节点的增长老化之关系,以及增长老化与知识节点产生时点之关系。其中增长老化的关系主要是看不同的增长模式下,其老化情况是否一致。这个问题在上篇文章[6]中进行了分析,本文基于logistic增长的讨论,进一步深化这一认识;而增长老化与知识节点产生时点之间的关系则考虑在不同时点加入的知识节点,其历时被连接数是否有差别。

2.2 模型假设条件

假设条件与前一篇文章[6]一致,只是将增长环节设定为logistic增长。具体的函数采用文献[3]中的形式,作如下假设:

取近似值。按照节点的入度选择优先连接的节点,由对称性可知i时间步加入的节点具有相等的入度,则这些节点的连接概率均为:

其中γ=1+(m+1)/m。解析结果显示出单纯入度驱动,即所得增长网络是服从指数略大于2的无标度网络。根据多数统计分析发现,指数一般为2.5~3,这是因为还有其他的因素影响引文网络的度分布,如时间因素。对于这个问题作者在另外两篇文章中进行探讨。

3.2 增长与老化

节点的累积增长量服从logistic分布,增长率先单调上升,到达极值点后单调下降,最后增长率降为0,在增长率发生变化的拐点处有L"(t)=0,则:

求解,得到节点logistic增长放缓的拐点:

(2)对于在萎缩期产生的节点,其被引证次数一直随时间单调减少。

将此结论对照Avramescu的分析,可以发现,之前产生的节点可以呈现a、b、c几种形态;而之后产生的节点,则呈d所表现的一直衰减的形态。上升期产生的节点,其指数增长特征越明显,然而经历过上升达到峰值之后还是会衰减的。

4 仿真实验

4.1 目标

我们采集了数据展开实证分析,并且针对演化模型采用MATLAB编程进行仿真实验,把模拟结论与统计结果及当前已有的一些研究进行比较分析,以说明这一模型的有效性和结论的合理性。由于我们所掌握的数据有限,不能完全通过实际数据证实这些结论,所以本实验是实证、引证、模拟和论证相结合。实验目标主要有以下两点:

(1)验证节点入度分布。度分布是演化网络拓扑特征的一个最主要指标,通过模拟本文统计节点logistic增长和入度驱动连接下的网络度分布,并采用实际数据进行比较分析。

(2)验证知识的老化与知识产生时间的关系。这需要整个logistic生长周期的数据方可以进行确切的实证分析,由于我们所掌握的数据的限制,对这一部分目前还不能进行实证,只能通过对模型的仿真模拟观察结果。

4.2 数据分析

用关键词"Complex Networks"进行检索,采集了ISI上SCIE(1999年1月至2010年12月)和SSCI(1898年1月至2010年12月)两个库的21 992条数据。这些数据仅包含"Article"、"Proceedings Paper"和"Letter"三种文献类型,排除了"Editorial Material"、"Review"等类型。这是因为前三种类型能很好地体现知识的创新和继承关系,且文献在写作模式上具有很好的一致性;而"REVIEW"等属于总结、概括性的文献,与前述几种具有较大的差别,所以本文中没有对其进行考虑,而仅选择了前三种。

经过数据完整性、去重等处理,得到18 060条有效数据。为保持网络的单纯性和类型的一致性,对数据的参考文献也进行了过滤,排除图书、网页等非上述三种主要类别的其他文献类型的影响。得到以下关键数据:总记录数18 060,总参考文献数318 202,平均参考文献数量=17.6,时间跨度24年(1976-2010年),其中1999年1月至2010年12月的数据占总体数据的97.56%。

注意,图2不是文献的累积增长,其中X轴的1刻度对应1999.1,“+”表示每月发表的文献数。用最小二乘法拟合,得到指数增长曲线y(t)=θe[ηt],(θ=33,η=0.015)。即是说,文献数量是呈指数函数增长的,这说明复杂网络领域的研究还处于扩展期,故而,本数据集不能用来证实目标中的第(2)问题。

图2 ISI(1999.1-2010.12)中Complex Networks领域按月统计发表的文献数量

从图3可以看出,知识网络的入度分布满足指数为2.5的幂率函数,这与Price等的统计结果基本是一致的。

观察图4,发现演化模型满足幂率分布,与图3基本是一致的。幂率指数为1.9,与实际统计结果的2.5差别较大。关于这个问题,我们在后续研究中进行详细分析,认为是由于时间效应的影响,可以通过调节度优先连接的概率改善度分布指数,得到任意指数的幂率分布。此外,模拟结果与分析结果的γ=1+(m+1)/m≈2.05也存在差异,这是因为数理分析中采用均场方法所带来的不精确性,并且数理分析中舍弃了(2)式的无穷小项,都对数理分析造成了影响。这个问题在上篇文章[6]中已经进行了分析。这些可以通过主方程方法、马尔可夫链方法进行修正。不过此文只需以此证明演化模型可以生成与实际知识网络相同的度分布,证明在拓扑结构上具有一定的同质性,所以关于度分布的精确求解方法不在这里讨论。

2)历时连接数(历时老化)

相对历时被引次数,在这里历时连接即自节点产生之后逐年被连接的次数。由模型分析可知,节点的历时被连接次数与节点的产生时间是紧密相关的。以下取不同时刻加入的节点进行考察。选定四个时刻t=[0.2,0.25,0.75,1.1]=[100,125,376,550],依次分别取此四个时刻开始所产生的n=[3,6,300,900]个节点,统计这些节点的历时连接情况。统计结果如图5所示。

图5 不同时刻产生的节点历时被引次数

图5中,A、B、C和D依次分别对应从时刻[100,125,376,550]开始,产生的[3,6,300,900]个节点的历时被连接次数。此实验中,后两个时间段C、D截取较多的节点是因为后加入节点的连接数较少,为了使图形更清晰,所以截取了较多节点。另外,A图中曲线可与图1中的曲线a进行比较,表明明显老化还未到来。

比较图5中与图1中各种历时连接次数的图形形态,可以发现它们基本是相同的。学科领域发展之初产生的节点,有一个类似指数增长的快速上升趋势,如图5(A);经历学科领域发展的鼎盛时期之后,连接数便会开始衰减,如图5(B)、(C);衰退期加入的节点,从一开始连接数就是逐渐衰减的,如图5(D)。关于连接数上升(或下降)的幅度,与知识所属领域的发展规模是正相关的。

5 讨论

本文将知识的增长老化作为一个整体进行分析,探讨知识增长老化过程模型,分析增长老化与知识产生时点之间的关系。以下就所构造的模型与得到的结论进行讨论。

(1)知识的增长老化与知识所产生的时点以及知识所处的发展阶段具有重要的关联,这种关联性是客观的和普遍的。Avramescu的论证指出了老化与知识质量的关系,知识的老化与每个作者的能力有关,是个体的和特别的。而本文得到的两个结论则揭示了增长老化之间的关联性,以及知识产生的时点和知识老化之间的联系,这种联系是一般的。倘若logistic增长是确实存在的,且增长连接机制是确实可靠的,那么本文所得出的知识增长老化的结论也就是确实可靠的。

(2)在知识的发展期产生的知识节点,其被引数先是单调上升,经历知识增长率的顶峰之后,被引数开始下降。在知识发展的衰退期产生的知识节点,其被引数是单调下降的。在知识的加速增长期,学科发展空间大、研究人员多、资源投入力度大,故而知识增加量大、增加速度快,对之前形成的知识的挖掘、利用增加,整个学科呈现蓬勃发展的态势;而临近后期,学科凋零,研究人员转向其他领域,资源投入减少,则知识发展速度减慢,对之前形成的知识的挖掘也减少。

(3)结合上篇文章[6]中谈到的其他多种增长模式下的度分布和历时老化结论,可见知识的增长老化形态也表现为多种多样。由前一篇文章[6]可知,指数增长条件下,知识节点的历时连接数是单调上升的;在线性、对数等收敛性增长条件下,知识节点的历时连接数是单调减少的。而logistic增长的前端可以看成是指数增长,中部是线性增长,尾端是对数增长,直至最后为零增长,相应地展现出事物产生、发展、长成到衰老的过程。

(4)关于度分布不一致、历时老化(历时被引)曲线出现差异的说明:造成度分布不一致的原因在上篇文章中已经进行了讨论,这里不再赘述。图1与图5中的一些曲线,存在幅度上的差异,这是由于模型应用于不同发展规模学科的结果。本文所构建的模型应用于不同发展规模的学科,则可以展现各种幅度的老化曲线。此外,本文中图5(D)与Avramescu模型图1中d曲线存在一些差异。图1中d曲线先是微小上升而后下降,可理解为文章发表之后,需要一段时间才能被大家认识到,引证过程存在一定的时滞。

6 结论

本文构造了知识网络的演化模型,此模型重点关注知识演化的过程,将增长和老化视为一个整体进行考察,发现了知识的历时老化与此知识所属领域的发展趋势有关,与知识产生所处的阶段有关:①在所属领域的快速发展期产生的知识节点,其历时被引证的次数先是随时间单调增加,达到峰值之后,当此知识领域进入萎缩期,则其被引证的次数便开始逐年下降;②在知识领域萎缩期产生的节点,其被引证次数一直是随时间单调减少的。

不无巧合的是,上述结论与斯宾格勒在《西方的没落》一书[9]中指出的文明发展观有一定的相似性:在历史的发展过程中,趋势起着重要的作用,趋势的大潮推动着其中的个体向前发展;在文明的上升期,即使平庸的个体也被推动着取得很大的发展,而在文明的下降期,再高贵的头脑,也难以摆脱因文明衰退而庸碌无为的命运。

标签:;  ;  

知识网络的演化(二)--增长老龄化与知识生成时间点的关系_网络节点论文
下载Doc文档

猜你喜欢