知识网络的演化(I):增长与老化动态,本文主要内容关键词为:知识论文,动态论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.10000-0135.2011.08.001
1 引言
知识的增长与老化是情报学领域的一个经典问题,以往的此方面研究主要集中在揭示增长老化的特征,及对这些特征的实证上。在知识增长方面,Ryder和Price通过对图书馆藏书和期刊的统计分析,发现了知识的指数增长现象[1]。然而知识的指数增长规律面临着资源(科学文献、科研投入和科研人员)的有限性悖论。随后Price提出了知识的Logistic曲线增长模型[2],Frame等的统计分析也支持了这一观点[3]。但是这一模型也会导出知识的增长上限,从而形成科学知识的“自我窒息”。对于这个疑问,人们又提出了阶跃式增长[4],即logistic 曲线首尾相接,每一阶段都是logistic增长,而知识整体增长又不会停滞。此外,Price、Rescher等各自还提出了知识的线性增长规律[1,2]。在知识的老化问题上,贝尔纳利用共时数据得到知识的负指数老化模型[1];Brookes从历时的角度统计期刊文献的被引用数量随时间推移的衰减过程,也得出近似服从简单负指数函数的模型[5]。Avramescu总结了前人的观点,按照不同质量、不同种类文献的老化趋势,进一步将文献的老化描述为四种典型特征的老化曲线[6]。
然而上述模型更多是描述性模型,着重描述知识增长的现象及特征,对于知识演化的发生机制及增长老化过程的研究则相对要少得多。较早的研究是Simon作出的,他针对情报学领域普遍存在的“富者更富”的马太效应(Matthew effect),构造了针对词频分布、期刊分布、作者分布的形成过程的Beta分布模型,此分布模型的极限形式为负幂函数[7]。而后,Price借助Polya模型构建了知识增长的积累优势(cumulative advantage)过程模型[8],模型的极限形式也形成负幂函数,并且他通过对引文网络的统计分析,发现引文网络的入度满足指数为2.5~3.0的幂率分布[9]。幂率分布也称为无标度(scale free)分布。Barabási和Albert引入增长(growth)和择优连接(preferential attachment)机制,构建了无标度网络的演化模型(BA模型),揭示了网络无标度特征形成的内在机理[10]。Newman比较了Price模型和BA模型,认为后者是前者的抽象和一般化,择优连接机制和累积优势过程本质意义上是一致的[11]。
Price模型与BA模型具有很强的一般性,然而其节点的增长是均匀的单节点增长(Price累积优势模型和BA模型均是每时间步增加一个节点),没有考虑多节点和非线性的增长模式。本文尝试放宽这一条件,构建一个更一般化的增长模型。这一模型可以涵盖绝大多数增长模式,并且分析在不同增长模式条件下,知识网络的拓扑特征和老化情况。
2 研究设计
知识网络的演化是一个复杂和抽象的过程,难以直接观测和探讨,需要借助具体的对象进行分析。当前对于知识演化问题的探讨主要是基于共词网络和引文网络,二者各有侧重。共词网络偏重主题、概念的关系研究,而引文网络则针对知识前后传承关系的揭示。SCI创始人Garfield等很早便意识到科学引文网络可以反映科学知识之间传承、发展的关系,并且尝试利用引文网络研究科学知识发展的历史、脉络和结构[12]。Bernal、Price、Leake和Shryock 等学者均表示对这一想法的认同,而Garfield针对几个领域的引文网络分析也证实了这一想法的有效性[13]。本系列论文更多侧重于知识的前后承接、发展演化关系,所以知识演化网络模型主要也是基于引文网络对象的统计结果进行分析。
一些关键性的对象和关系转化为相应的演化网络要素。在知识网络中,节点(vertex)代表知识单元的存储单位,根据考察的粒度不同,可以为图书、论文或词语。本文主要是基于期刊论文的引文网络,所以节点指的是期刊论文。边(edge)表示知识单元之间的连接关系,在引文网络中即是引证关系。节点的出度(out-degree)是此节点指向其他节点的边的数目,入度(in-degree)则是其他节点指向该节点的边的数目,连接度是出度与入度之和。在引文网络中,出度等于文献的参考文献数,入度等于文献的被引次数。由于引证是时间先后次序上的单向连接,故知识网络是一个无环(acyclic)的有向网络(directed networks)。往知识网络中添加新节点且与网络中已存节点进行连接即可描述为新知识的产生和对旧知识的继承,而节点的被连接情况随时间的变化即可反映知识的历时老化过程。
参照BA无标度网络的构造模型,知识网络的演化模型也主要包含两个步骤:增长和连接。①增长从一个具有m[,0]个节点的初始网络开始,而后每时间步增加一组节点,增加的数量是时间的函数。本文首先考虑一个一般化的增长函数g(t),而后分情况进行讨论,分别令g(t)为线性函数、指数函数和阶跃函数等。logistic函数属于复合函数的范畴,具有很强的代表性,笔者将在后一篇文章中详细探讨。②连接机制直接影响到网络的拓扑结构,本文中对于连接机制沿用BA网络的度择优机制,然而仅仅考虑入度驱动,不考虑出度对连接机制的影响。原因有两点,一是Simon模型和Price模型中也是基于入度驱动的,二是文献被引次数多会带来更多的引证,具有显著的集体动力学特征,而出度更多只是反映了文章作者个人的行为。此外,对知识网络中连接机制的更多影响因素,我们在后续的文章中将会进行讨论。
模型的构建及对模型的分析主要针对以下两个方面的问题:①不同的增长模式是否会产生不同的知识网络,不同的增长模式对知识网络的拓扑结构有何影响?由于度分布是描述网络拓扑结构的一个主要指标,本文将对这一属性进行重点考察。②不同的增长模式对知识节点历时老化的影响。由于目前所提出的增长模式多种多样,本文尝试构建一个可以囊括绝大多数增长范式的泛增长函数,以得到更广泛的结论。
3 演化模型
3.1 假设条件
针对上述说明,构造知识网络的演化模型。为了突出研究的重点及讨论的一般性和简洁性,作出如下假设:
(1)假设节点的增长量是时间t的函数,第t时间步累积节点数记为G(,t),第t时间步增加的节点数记为g(,t),其中为初始节点数,且G(,t)可以取为任意函数,例如线性函数、指数函数、logistic函数、阶跃循环函数或对数增长函数等。
迄今为止,人们提出的知识增长函数多种多样,除了前述几种基本增长函数之外,随着统计技术和计算能力的扩展,今后或许会发现更多特征的增长函数。为了得到一般性的结论,这里对增长函数G(,t)的分析采用的是一个一般性的函数,可以将之视为一组函数簇。对于这组函数簇,我们也只考虑其更一般化的性质:收敛性增长的函数和发散性增长的函数。所谓收敛性增长的函数,指的是单调增长函数,但是增长的速度越来越慢。线性增长函数、logistic函数等,都属于这一类别。所谓发散性增长的函数,指的是增长速度越来越快的单调增长函数,指数增长函数则属于这一类别。
(2)节点的出度取一确定值,即文章的参考文献数量取为确定值。文献[14]指出引文网络的出度服从指数分布,从而具有特征标度。为了简化问题,这里出度即取特征值,将论文的平均参考文献数量作为论文出度。
(3)择优连接与节点入度成正比,即新加入节点偏向于与入度大的节点连接。Price模型与BA模型均采用了相同的连接机制,这也是知识演化过程中的马太效应形成的根本原因之一。
3.2 模型构建
以增长和连接机制构建科学知识网络演化模型,将时间因素加入连接策略之中,模型的构造算法如下:
其中γ=2+1/m。解析结果显示单纯入度驱动,即生成指数略大于2的无标度网络。由此可见,当增长率函数为收敛函数时,节点的增长模式与节点度的分布无关。所以对于累积增长为线性增长、对数增长、logistic增长等,其节点入度均为指数近似为2+1/m的幂率分布;而当累积增长为指数函数时,则g(,t)是发散的,其入度分布便有些不同,比如指数增长的度分布便要略小。后文中将对此详细分析。影响节点度分布的关键因素还有连接机制,对于此方面内容,后续文章中详细讨论。
4.2 历时被引动态
从历时被引数变化的角度来分析知识节点的增长老化,在后文中历时被连数、历时被引数所表示的意义是一样的,不同情形下的不同应用是为了方便理解。以下对几种最主要增长模式下的历时老化情况进行讨论。
情形1:线性增长
节点的累积增长量为线性函数。不妨设t时间步总的节点数G(,t)=at+b,则第i时间步增加的节点数为g(,i)=a。常数表示在所有时间步增长的节点数均是一样的,代入(5)式,计算i时间步所加入节点的连接度随t的变化情况为:
其中γ=1+(m+1)(1-a)/m=2-a+(1-a)/m<2+1/m。一般来说增长率a是较小的,故γ略微小于2+1/m。可见,指数增长的知识网络的连接度分布要比其他几种类型的增长(增长率收敛的增长,如线性增长)平坦些,也即反映出指数增长网络的知识传播利用要均匀些,没有其他增长形式那么分化严重。
考虑节点历时老化问题,计算i时间步所加入节点的连接数随t的变化情况:
对于知识节点logistic增长的情况,本文作者在后续的文章中进行了分析,结论是:在logistic增长的拐点之前产生的节点,其历时被连数先单调上升,在拐点附近达到峰值,而后单调下降;拐点之后产生的节点,历时被连数一直是单调下降的。
4.3 分析结果
上文对不同增长模式下的知识网络拓扑结构和老化特征分别进行了分析,这里对分析的结果作一个归纳。
命题1:当知识节点的增长率是连续变化的收敛函数时,知识节点的度分布为幂指数2+1/m的无标度分布。其中m为节点的出度,连续变化指的是满足连续性定理,收敛于连续性函数。
由上文推导可知,当g(,t)是收敛函数时,即对于大t有g(,t)=0或常数,是G(,t)的高阶无穷小,从而(2)式中可以忽略g(,t)的影响;或者由连续性理论(continuum theory)作连续性处理,从而取G(,t)处的值直接近似。命题得证。由此可得如下分命题:
命题1(1):当节点的累积增长量为线性函数、对数函数时,知识节点的度分布为幂指数2+1/m的无标度分布。
命题1(2):当节点的累积增长量为指数函数时,知识节点的度分布为幂指数2-a+(1-a)/m的无标度分布,其中a为增长的速度参数。此种情况下文献不表现为老化的情况。
命题1(3):当节点的累积增长量为logistic函数时,节点的度分布为幂指数2+1/m的无标度分布。这是因为logistic增长率的极限形式是收敛函数。
当节点的累积增长量为P.H阶跃函数时,知识节点的度分布为幂指数,约为2-aN+(1-aN)/m,其中aN为增长指数。这个结果是根据P.H循环曲线的极限形式为指数函数作出的推论,结果是不精确的,不过幂率指数略小于2+1/m是肯定的。
命题2:当节点的增长率为连续变化的收敛函数时,知识节点的历时被引数单调减少。连续变化指的是满足连续性定理,收敛于连续性函数。
由(5)式可得:
命题2(1):当节点的累积增长量为线性函数或对数函数时,知识节点的历时被连数单调减少,且减少的速度越来越慢。
命题2(2):当节点的累积增长量为指数函数时,知识节点的历时被连数单调增加,且增加的速度越来越快。此命题可根据3.2节情形2直接得到。此结论与Avramescu中的指数增长函数曲线是符合的,在相当长的时间里,这类文献不表现为老化的情况。
命题2(3):当节点的累积增长量为logistic函数时,知识节点的历时被引数与此节点所产生的时点有关。在logistic函数拐点之前产生的节点其历时被连数先上升,达到峰值后再下降;在拐点之后产生的节点历时被连数单调下降。此结论在后一篇文章中详细讨论。
命题2(4):当节点的累积增长量为P.H阶跃函数时,在每一阶段与logistic增长相同。整体而言,是阶跃式上升的。
5 模型仿真
5.1 目标
我们采集了数据展开实证分析,并且针对演化模型采用MATLAB编程进行仿真实验,把模拟结论与统计结果及当前已有的一些研究进行比较分析,以说明这一模型的有效性和结论的合理性。由于我们所掌握的数据有限,不能完全通过实际数据证实这些结论,所以本实验是模拟、引证和论证结合的。实验目标主要有以下两点:
(1)验证节点入度分布。度分布是演化网络拓扑特征的一个最主要指标,本文通过模拟统计节点在各种增长模式下的网络度分布,并采用实际数据进行比较分析。
(2)验证不同增长模式下的知识老化特征。由于这需要大量的数据方可以进行确切的实证分析,而我们所掌握的数据有限,对这一部分目前还不能进行完全实证,只能通过对模型的仿真模拟来观察结果。
5.2 仿真实验
由于线性增长和指数增长的重要性和代表性,我们这里重点分析这两种增长模式下的网络拓扑结构及其中知识节点的历时老化特征。logistic增长模式本文作者已经在其他文章中进行了讨论,阶跃函数增长可以视为分阶段的logistic复合函数,在本文中就都不再进行仿真分析了。
由于对于不同的学科领域,知识增长速度、增长规模等都是有差异的,且实测数据多是以年为单位的,数值偏大,所以不便于作仿真模拟程序的参数。本文的主要目的在于探讨各种增长模式下的长期特征和行为,取了较长的知识发展周期,故而对各项运行速度参数取了较小的值,以兼顾程序的运行效率和计算机运算规模限制。仿真实验的主要参数设计如下:①线性增长的参数:增长速度取a=5,b值对增长率无影响,所以不用设置;通过统计,每个节点发出的平均连接数取m=<k>=18;由>m,设初始时间步存在的节点数为=20;运行t=7996次,得到包含节点数大约为40 000的网络。②指数增长的参数:通过统计,每个节点发出的平均连接数取m=<k>=18;由>m,设初始时间步存在的节点数也为=20;增长速度取为a=0.001,运行t=5000次,再设b=268,得到包含节点数大约为40 000的网络。
1)度分布
按照上述参数设计进行MATLAB编程,模拟知识演化模型。因为度分布为描述复杂网络拓扑特征的最主要指标之一,所以这里统计了演化网络的度分布。结果如图1所示。
图1 演化模型节点的入度分布图。左图是线性增长的入度分布,右图是指数增长的入度分布
观察图1,发现演化模型满足幂率分布,这与Price等的统计基本一致。幂率指数为1.8~1.9,与实际统计结果的2.5差别较大。关于这个问题,我们在后续的文章中将进行分析,认为这是由于时间效应的影响,可以通过调节度优先连接的概率改善度分布指数,得到符合实际情况的幂率分布。此外,模拟结果与分析结果2-a+(1-a)/m≈2.04也存在一些差异,这是因为数理分析中采用均场方法所带来的误差。对于这个问题,Ballobas在文献[16]中进行了分析,后文讨论中也有进一步的分析。此外本文数理分析中舍弃了(2)式的无穷小项,都对数理分析的结果造成了影响。这些可以通过主方程方法、马尔科夫链方法进行修正。由于本实验只需验证演化模型可以生成与实际知识网络相类似的度分布,证明在拓扑结构上具有一定的同质性,所以关于度分布的精确求解方法不在这里讨论。
2)历时连接动态(历时老化)
由前文分析的结论可知,线性增长的历时连接(被引)次数是单调减少的,而指数增长的历时被连数是单调增加的。以下取不同时刻加入的节点进行考察,两种模式下分别取第t=20时刻开始生成的n=10个节点,第t=2000时刻开始生成的n=400个节点,统计这些节点的历时连接情况,统计结果如图2所示。
图2 不同时刻产生的节点历时连接(被引)次数
图2中,A、B是线性增长模式下的连接情况;C和D是指数增长模式下的历时连接情况;A、C是t=20时刻开始生成的n=10个节点的历时被连数;B、D是t=2000时刻开始生成的n=400个节点的历时被连数。此实验在2000时刻处截取了较多节点,是因为后加入节点的连接数较少,为了使图形更清晰,所以作这样的处理。
由图2中的A、B可见,在线性增长模式下,t=20时刻处产生的10个节点的历时被连数单调减少,t=2000时刻处产生的400个节点的历时被连数下降不明显。由图2中的C、D可见,在指数增长模式下,t=20时刻处产生的10个节点的历时被连数单调上升,t=2000时刻处产生的400个节点的历时被连数也是单调上升,与前文数理分析结果一致。
6 讨论
本文参照BA网络构造的办法,建立了知识演化的过程模型,针对不同增长模式条件下的增长老化问题进行了分析。以下对文中存在的一些问题及结论进行讨论。
(1)当知识节点为连续变化的收敛性增长时,知识网络的度分布是相同的,度分布与增长函数无关。线性增长、对数增长、logistic增长等均为收敛性增长,所以在这几种增长模式下,知识网络的度分布都是2+1/m。至于特异的非连续性变化的增长,本文没有讨论,且均场方法不能用于求解此类问题。
(2)发散性的指数增长比前述几种收敛性增长模式具有更小的度分布指数,且增长速度越快,度分布指数越小。由此可见,在指数增长条件下,知识网络的连接数分布要平坦些,反映在知识利用上,即“富者更富”的分化现象要弱些。倘若将分布较平坦理解为较高的知识利用率,那么指数分布是上述所有分布之中,更有利于知识传播、知识利用的增长模式。指数增长的增长参数越大,则度分布指数越小,从而连接数分布越平坦。对于这个问题的解释可能是:指数增长的速度过快,则秩序一时难以形成,百花齐放,百家争鸣,从而提高了知识的利用效率;而当速度减缓、序结构稳定之后,则开始出现明显的分化现象。秩序在非平衡态过程中逐渐形成,同时,秩序的固化又导致了事物的分化,从而埋下了打破这一秩序的种子。
(3)当知识节点为连续变化的收敛性增长时,知识节点的历时被连数是单调下降的。收敛性增长即增长率越来越小,趋于零或常数。总体的知识节点数越来越多,而后续加入的知识节点增长却没有加快,故而每个节点所能分配到的被连概率单调减少,这一点是符合现实的。而指数增长条件下,节点数的增长率是加速上升的,则前续节点所能分配到的被连概率单调增加。
(4)logistic函数和P.H阶跃循环函数可视为基本函数的复合函数。例如,logistic函数可以看作指数函数、线性函数、对数函数的依次连接;P.H阶跃循环函数可以视为logistic函数的首位连接叠加。它们的增长特征不能一概而论,需要结合各阶段的情况进行分析,如在logistic增长的前部,就满足指数增长的特征。
(5)关于度分布的不一致问题。度分布在数理分析、模型仿真和实际统计三个方面都不相同,这是否说明本文建立的模型不可靠呢?不同的原因在哪里?实际统计是没有疑问的,造成另两个数据与之不一致的原因有以下几点:首先,对于数理分析的度分布,它是通过均场方法求得的,而这种方法没有排除对相同节点的重复连接。这一点Ballobas在文献[16]中进行了分析。而在仿真实验中却排除了重复连接,这会使得仿真结果度分布要均匀些,所以仿真结果的幂指数要偏小些。文中数理分析结果稍大于2,仿真结果稍小于2,这是符合逻辑的。其次,二者均小于实际统计结果,且相差较大,这是因为存在另外的因素影响度分布,比如时间因素。对于这个问题,我们将在后续文章中进行探讨。通过引入时间因素构建概率模型,即可得到满足实际统计的结果。故而,度分布不一致并不影响本模型所得出结论的意义。
(6)文章中对知识的增长取的是一个一般性的函数,针对其讨论也是较为一般化的讨论,这样分析的目的是为了更加鲜明地表示知识的增长率(增长速度)变化对知识增长老化的影响。此外,这样处理也使得分析的结论的适用范围可以更宽些,使得后续的研究可以在更加一般化的条件下进行讨论。不过这么泛化的处理,也带来了一些更加复杂的问题,如增长函数的连续和可微可积性问题等,这些在文章中没有进行讨论。结论以命题的形式给出,要求函数满足连续性理论,即收敛到连续函数,这也是均场分析方法的基础。不过,由于当前提出的一些增长函数更多是一些初等函数及其复合函数,文中结论也更多是基于这些函数的分析。
7 结论
为了探讨在不同增长模式下知识网络的拓扑结构以及知识节点老化特征的变迁,本文基于演化网络的理论构建了知识网络的演化模型。模型在增长机制中采用泛增长函数来分析知识网络节点度的分布,发现当节点增长率是连续变化的收敛函数时,度分布与增长模式无关。具体而言,当累积增长为线性函数、logistic函数、对数函数等时,可以得到幂指数约等于2的无标度网络,而当增长函数为指数函数时,得到的幂率指数则要略小一些。对于一些组合函数增长来说,logistic函数的前部上升期近似为指数增长,而后续则开始萎缩,属于收敛性函数类别。阶跃函数增长则可视为首尾相连的logistic增长,长期特征与指数增长近似。
相对线性增长、对数增长等几种收敛性增长模式而言,指数增长模式下度分布的幂指数相对其他增长模式要小,连接数分布较为平坦,即文献的利用要更为均匀,马太效应的影响相对较弱,没有其他增长形式那么“赢家通吃”的分化严重,可以认为指数增长模式更有利于知识利用和知识传播。而且指数增长的速度越快,则度分布越平坦,可以得出,在知识增长的快速发展期,知识利用效率是相对较高的,知识利用的分化也较弱。
对不同增长模式下的知识节点历时老化的分析发现,当增长函数为收敛函数时,知识节点的历时被连数是单调下降的。具体来说,当累积增长为线性函数、对数函数等时,知识节点的历时被引是一直衰减的;而当增长函数为指数函数时,历时被连数则是单调增加的;阶跃函数是指数函数与三角函数的复合函数,所以其历时被连数是阶跃式上升的。
标签:指数增长论文; 网络节点论文; 单调函数论文; 网络模型论文; 统计模型论文; 线性模型论文; 特征函数论文; 命题逻辑论文; matlab函数论文; 动态模型论文; 指数函数论文; logistic函数论文;