知识网络的演化(Ⅲ):连接机制,本文主要内容关键词为:机制论文,知识论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2011.10.002
1 引言
连接机制定义新旧节点之间的连接,反映了知识节点之间新旧交替的传承关系,它主要包含对这样两个问题的回答:新知识利用旧知识的依据是什么?它是怎样与旧知识发生联系的?传统的观点认为越重要、经典的知识获得越多的连接。Simon模型[1]、Price模型[2]与BA模型[3]均是基于这种观点,认为知识节点倾向于与入度大的节点进行连接(BA模型是连接度大的节点),即连接概率与节点的入度成正比。这种度优先连接机制生成的知识节点,度分布的极限形式为幂率函数,这几个模型也从宽泛层面揭示了马太效应的发生机理。然而现实知识网络具有更加独特的复杂性,还有其他的因素影响连接机制。本文主要考虑以下两个方面因素的影响:
(1)出度,也即新节点发出的连接旧知识节点的边数,是随时间增长的。对于这个方面,Simon、Price和Barabási-Albert在他们所提出的模型中,均将出度考虑为固定值,没有过多涉及。出度动态变化对知识网络拓扑结构也许不产生大的、质的影响,然而对知识网络中一些具体的指标却会带来数量上的、较大的变迁,这些指标在数量上的差异对于理解知识网络的意义却是很重要的。论文的平均参考文献数量是逐年增长的,Biglu对SCIE上近40年的抽样数据统计表明,篇均参考文献数量由1970年的8.4篇上升到2005年的34.63篇[4]。
图1 平均参考文献变化图
注:数据取自Biglu文章[4],参考文献数量即为知识节点出度,菱形曲线为实测数据曲线,实直线为其线性回归拟合曲线。
(2)择优连接中的时间效应影响。知识节点不只倾向于连接具有高连接度的节点,也偏好连接新近产生的节点。期刊论文的参考文献中,除了引用经典文献之外,也偏向于引用新近发表的文献。Price认为,约有50%的引证与论文发表时间有关;30%的引证与近期发表的文献是强相关的,而这30%之中约一半是引用近1-6年发表的文章[5]。然而在BA模型中,通过度择优则使得后加入节点更倾向于连接老节点,越早加入的节点具有越高的连接度,对新近加入的节点的连接则较少。
为了探寻知识前承后继、发展创新的关系,本文针对连接的不同增长机制,构造知识网络的演化模型,考虑受时间效应、出度增长因素影响的知识网络,分析网络的拓扑结构和知识节点的增长与老化特征。
2 研究设计
参照BA模型,知识网络演化模型由两个步骤构造,分别是增长和连接。增长即往网络中增加新的节点,连接是新增节点与老节点进行连接。而关于新节点与哪些老节点建立连接,则取决于连接的策略。本文中建立两种选择机制,分别是入度优先连接和时间优先连接。
(1)连接的边数是t的增长函数,在单向的知识网络中出度则为t的增长函数。本文中分别考虑连接边线性增长和对数增长情况下的知识网络。因为根据Biglu的论文发现,论文平均参考文献数量近似线性增长[4],而分析对数增长是考虑到人的能力的有限性,认为这种增长从长期来看是会减速的。Krapivsky和Redner统计《物理评论》在110年里发表的文章发现,每篇文章引用的参考文献数目随文章发表时间呈对数增长[6]。
(2)度优先连接机制和时间优先连接机制。度优先连接机制即新加入节点更倾向于连接具有高连接度的已存节点。实践显示,科学文献被越多的资料引证,则此文献被读者发现的几率就越大,从而再次被引证的机会也越大。故本文认为在科学知识增长网络中,节点被连接的概率与此节点的入度成正比。
(3)时间因素反映在择优连接机制上,需要考虑现实中人们对知识的继承和发展行为特征:人们偏向追逐研究前沿(research front),倾向于对最新研究成果的吸收和拓展。在科学知识网络中即为新节点更易于连接最近加入的节点。
模型构造的两个主要目标是:①考察出度线性增长、对数增长条件下的知识网络拓扑结构,分析不同边增长机制对网络结构的影响;②关注本系列论文的另一个重要问题,即考察知识节点的老化问题。
3 演化模型
3.1 假设条件
科学知识网络的构成及演化受诸多因素影响,为了突出模型研究的重点及讨论的一般性和简洁性,做出如下假设:
(1)每时间步增加的节点数设为定值,这里不妨取为1。为了讨论的简便性和一般性,假设每时间步增加一个节点,这种处理方式也被Price模型及BA模型所采纳。知识的增长有多种模式,就从目前来看,就有线性增长、指数增长、logistic增长和阶跃增长等多种说法和模型。在我们的另外两篇文章中[7,8]考虑了节点的其他增长模式的情况。
(2)新加入节点所发出的连接旧节点的连接边数是时间t的函数,记为e(t)。本文中将讨论e(t)是线性函数、对数函数两种情况。
(3)节点被连接的概率与节点的入度和加入时间有关,并且以一定概率采用度优先连接机制,以一定概率采用时间优先连接机制。度择优仅考虑入度的影响,即节点的连接概率与该节点的入度成正比,而时间择优则是节点的连接概率与其加入的时刻成正比。时间择优采用超线性关系,这是因为人们对于新近发表的文献较为敏感,而对于较早发表的文献往往不加区别。
3.2 模型构建
以增长和连接机制构建科学知识网络演化模型。将时间因素加入连接策略之中,模型的构造算法如下:
增长(growth):从一个具有个节点的网络开始,每次引入一个新的节点。
连接(attachment):新节点连接到e(m,t)个已存在的不同节点上(m≤),m为首次的连接数。按如下概率选择节点进行连接操作:
(1)新节点以概率p连接到一个已经存在的节点i上,连接的概率∏(i)与节点i的入度成正比(度优先连接),即满足如下关系:
当t→∞,有=mq(λ+1)/λ,是定值,为t上的均匀分布。
可见,时间择优连接会使得后续连接更多地偏向于后加入的节点。当时间择优取为超线性关系时,节点的连接数与边的增长速度是正相关的,且是线性同构的。
5 仿真实验
5.1 演化模型
对于不同的学科领域,知识连接数的增长速度等是有差异的,本文的主要目的在于探讨不同连接机制下知识网络的行为和拓扑特征。经过反复实验,度分布及历时连接数满足要求的一组实验结果如图2和图3所示。
图3中,左图是连接边线性增长条件下的第1000至1500时间步产生的节点的历时连接数,右图是连接边对数增长条件下的第1000至1500时间步产生的节点的历时连接数。其他条件同图2。
由图2、图3可以看出:①在出度对数增长条件下,模拟实验结果与解析结果是一致的,度分布的幂指数为γ=1+1/p,节点的历时连接数单调下降;②在出度线性增长条件下,实验结果与解析结果存在较大的差别,当p=0.33时会得到很大的幂指数,几乎近似指数分布;只有当p=0.75时才满足指数为2.5的幂率分布,此时所选节点的历时连接数也是单调上升的。度分布前端的弯曲与Redner在文献[12]中的描述是一致的。
5.2 时间效应
单纯时间效应作用的条件下,节点的度分布如图4所示。
图4 单纯时间作用下的度分布
注:“+”表示线性连接数增长下的度分布,“○”为对数连接数增长下的度分布。
图4中,“+”表示线性连接数增长下的度分布,“○”为对数连接数增长下的度分布。运行t=20 000次,总节点数N=20 000,其他参数同图3所取。
由图4可以看出:两种出度增长模式下,节点的度分布均较为集中,其中在线性连接数增长模式下,节点度主要集中在20~30附近,在高连接度区域迅速衰减,在低连接度区域的比例也较少。而对于对数增长,则更多集中在40~60之间,高低连接度两个部分都是较少的。实验直观看来,单纯时间作用条件下,度分布是较为均匀的,且有特征标度。
单纯时间效应作用的条件下,节点加入时间与节点历时连接数的关系如图5所示。
图5中,节点按照加入时间依次排序,运行t=20 000次,总节点数N=20 000。其他参数同图3中所取。
图5 单纯时间作用的节点连接度
数理解析认为,单纯时间作用条件下,当知识节点出度为线性增长时,节点的被连接次数与节点加入时间成正比;而当知识节点出度为对数增长时,节点的被连接次数与节点加入时间的对数成正比,两种增长情形下都应该呈现出单调上升的图形。然而由图5可以看出,在两种增长模式下,节点的被连接次数均有衰减趋势,这是由于本文只选取20 000个点,连接过程是存在时滞效应的。
6 讨论
连接中主要考虑了两种连接机制,其一是度优先连接,其二是时间优先连接。度优先连接是形成了幂率分布的根本,而时间优先连接则促使对新近知识的利用。以下就模型与结论进行讨论:
(2)出度为线性增长的度分布在函数解析和模拟实验中所表现的差异是什么原因造成的呢?为了探讨这个问题,进一步单独地对边线性增长的连接机制进行分析。单独考虑连接边线性增长(取p=1),如图6所示,满足指数为1.5的幂率分布。可见,4.1节中的解析结果是没有太大问题的。到底是什么原因造成线性增长度分布概率的偏离,本文没有找到合适的解释。
(3)连接机制中时间效应的影响。时间效应使得知识节点更多地连接新近产生的节点,而这并不影响网络整体的拓扑结构。分析也表明,时间效应加大了后加入节点的连接度,加大了低连接度区域节点的连接度,自动平抑了度择优连接所形成的马太效应的作用。这个结论与Price在文献[5]中指出的时间作用是一致的。
7 结语
以往的知识演化过程分析多注重于知识集中、分散的原理,构造的模型忽略了知识节点出度动态增长的情况。知识节点出度的增长会使得度分布更加均匀,且出度增长速度越快,则度分布越平坦。当出度为线性增长时,且度优先连接的作用程度较强时(p>0.5),则知识节点的历时被连接数是单调上升的,不表现为老化的现象;而作用较弱时(p<0.5),知识节点的历时被连接数是单调下降的。当知识节点出度为对数增长时,其历时被连接数均是单调下降的。由此推断,出度的增长模式是对数增长较为合理,即期刊文章平均参考文献的逐年增长满足对数函数。
对于时间效应的作用,可以平抑马太效应的负面影响。度优先连接是形成马太效应的根本原因,而马太效应导致知识利用的分化,“富者更富”使得较少经典、较老知识获得大量利用,大量新知识不被重视。时间效应更加倾向利用新知识,从而自动平抑了马太效应的影响。至于时间效应的更细致的作用方式,可以作为后续的一个研究方向。