二分属性知识网络的链路预测论文

二分属性知识网络的链路预测*

● 项 欣1,2,祁彬斌1,朱学芳1

(1.南京大学信息管理学院,江苏 南京 210023;2.贵州财经大学信息学院,贵州 贵阳 550025)

摘 要: [目的/意义]大部分知识网络具有天然的二分属性,针对二分网络的链路预测能够保证网络信息的完整性,最大限度挖掘其内涵。[方法/过程]通过分析微观演化机制,文章构建了二分属性知识网络上的链路预测模型及相应指标,并以真实的作者—关键词网络为例,使用链路预测指标进行预测并比较预测表现。[结果/结论]模型的预测准确性与其刻画局部高阶网络结构特征的能力成正比,但过度关注高阶特征会影响模型稳定性。[局限]网络模型的结构刻画能力有待进一步提升,并需要在更多类型的网络中测试以验证普适性。

关键词: 作者—关键词网络;知识网络;链路预测;聚集系数

二分网络(Bipartite Network)[1]是一类重要的知识网络模型,通过抽象两种异质知识对象,量化它们之间的关系结构,从而使研究者能够洞察整个知识系统的群落、演化等特征。学术论文题录中包含的作者、关键词和文献信息是图书情报学的核心研究对象,由它们两两组合而成的网络都具有天然的二分属性[2]。以作者—关键词网络为例,如果一位作者使用了一个关键词,那么就在它们之间连上一条边,作者、关键词集合的内部则无连边。作者—关键词网络在表征作者研究兴趣的同时隐含了作者之间、关键词之间的关联,具有丰富的信息内涵待挖掘。

以往研究通过共被引、共现和耦合等方式[3-4]来处理二分网络,实质是将其投影为单分(Unipartite)结构的网络,但这种投影操作可能会带来信息的损失[5]。因此,现有针对二分网络的研究转而在其原始形态上进行,直接考察对应的二分属性特征,以求获得较为完整的信息。为了适应这种变化,一些新的网络分析方法亟待引入。

接触交代型铁矿床是山西第二主要类型。该类型矿石品位w(Tfe)平均41.4%,最高可达54%(如壶关县照阳沟铁矿区),属规模相对小,但品位较高的铁矿床。因此,要想寻找“小而富”的铁矿床,应重点放在狐堰山、塔儿山及虹梯关南部一带,即主要在省内寻找既有灰岩出露又有岩体出露地区。由于碳酸盐受热液热液影响会产生围岩蚀变,即矽卡岩化,因此寻找围岩蚀变带是良好的找矿标志。在野外注意观察有无断裂构造及岩体出露情况。狐堰山地区出露岩体多为二长斑岩,塔儿山一带为二长岩及正长闪长岩类,平顺一带为闪长岩类,因岩体本身铁质含量较高,通常岩体大,所发现矿体越大。

水阀电路的开关信号由单片机进行控制,如图5所示。图5中开关K2所在位置代表水阀开关位置在闭合处。R4为上拉电阻,与米阀控制电路原理相同,三极管导通,开关吸合改变位置,开关K2所在位置改变代表开关位置在开合处。但是与米阀控制电路不同的是,水阀控制电路不需要位置信号,只要接通水阀的使能信号,就可以启动放水,断开水阀的使能信号,停止放水。

链路预测方法[6]通过对节点位置、连边数量等网络结构的刻画,量化网络中新的连边出现的可能性,从微观上描述了网络生长机理。在信息管理领域,链路预测在知识网络[7]中已有大量应用,但都局限在单分结构的网络中,鲜有在二分网络中应用的案例,限制了知识网络领域中二分网络相关研究的开展。

以作者—关键词网络为例,本文尝试将链路预测方法引入二分属性知识网络,基于相似连接等三种演化机制构建网络模型,利用模型对应的链路预测指标在真实数据集上进行计算和结果评估,并完成模型验证。在此基础上,尝试解读预测结果,探索链路预测方法在揭示作者—关键词网络的内在结构和演化机制上的应用价值。

1 相关研究

1)优先连接模型。用集合Γ (a )表示作者a 使用的关键词数量,其范数 |Γ (a )| 可以衡量作者研究兴趣的范围大小。 Γ (k ) 则代表使用关键词k 的作者, |Γ (k )| 可以表示关键词的流行程度。根据优先连接原理[10],可假设 |Γ (a )|, |Γ (k )| 的值越大,a ,k 初始连边可能性越大。也即假设研究兴趣广泛的作者和流行的关键词更有可能关联。则未连边节点对a ,k 的相似度可表示为优先连接 (PA) 指标:

现有研究表明,作者—关键词网络中的链路预测研究尚未有成熟的网络模型,而二分网络上链路预测方法的发展已为网络模型的构建提供大量可参考的思想及可验证的指标。

为了能够精确地刻画网络微观机制,共同邻居及衍生指标不断发展以量化网络中更细微的特征。传统方法假设一对待连边节点受到来自不同的共同邻居的影响是相同的,但Liu等[12]的研究表明,有的共同邻居可以促进连边,而有的却起到抑制作用,在分析时应区别对待。Cannistraci等[13]考虑共同邻居间的关系可能带来的影响,将局部簇结构引入模型,提出了CAR指标。基于此思路,Wu等[14]用聚集系数来衡量共同邻居的影响大小,对应的是2阶邻居(邻居的邻居)的结构特征。但是,这些指标都基于单分结构的网络,并不能直接应用于二分网络。

与单分结构的网络不同,二分网络中不存在三角形,也就不存在直接意义上的共同邻居。Xia等[15]从对称性的角度出发,以边的形式定义了二分网络上的共同邻居。Daminelli等[16]提出用四边形替代三角形来识别二分网络中的共同邻居及局部簇结构,并基于此思想重定义了上述CAR指标。这些研究都遵循共同邻居指标的基本思想,并在二分网络上寻找相似的特征对指标进行了改进,为后续模型的建立带来了启示。

4)针对每种方案,用AUC评估模型的整体表现,用Precision(L =100) 考察模型对连边可能性较高节点对的识别能力,对10次预测结果评分并取均值作为该方案的最终评估结果,最后得到8种方案的AUC和Precision评估值。

结构相似性模型、似然估计模型和概率模型是网络模型中主要的三个类别,每个类别又包含了若干具体的链路预测指标。其中,共同邻居指标[10]是结构相似性模型中最为典型的代表,也是其他结构相似性指标构建的基础。共同邻居指标源于社会学中的三元闭包[11]原理,刻画了两个节点的共同邻居节点对它们之间可能的连边所产生的影响。由于只关注网络的局部结构,共同邻居指标形式简洁,计算代价低,并且不涉及节点属性对网络的影响,在表征社会关系的网络中有较好的可解释性,适用于对网络结构和演化过程中微观机制的研究。

2 研究设计

2 .1 模型描述

本文针对作者—关键词网络构建了两种主要的网络模型:相似连接模型和角色差异模型,并加入了优先连接模型用于比较。对于每一种模型,本文先阐释模型所刻画的网络结构特征以及影响连边产生的机制,然后用具体的链路预测指标量化这些结构特征以便后续实验的验证。

一个作者—关键词二分网络可表示为G =(A ,K ,E ),G 是无权无向的。A ,K 分别是作者集合与关键词集合,A ∩K =φ ,E ⊆A ×K 是G 的边集。对于两个节点a ∈A ,k ∈K , 如果它们之间存在边 (a ,k )∈E , 则表示作者a 使用了关键词k 。对于给定的G 和G 上所有的未连边节点对a ,k ,链路预测问题需要结合特定的网络模型为每一对a ,k 计算一个相似度指标s ak 并排序,那些相似度高的节点对具有较大的连边可能性。

网络模型是对网络中某种结构演化趋势的刻画,而链路预测则是基于网络模型的推演和验证过程,预测效果的优劣决定了对应模型的刻画是否精准。张斌等[8]和Ahn等[9]的研究分别指出,不同网络在密度、聚集系数和平均度上的差异使得模型预测效果不尽相同。这反映了模型对网络结构的刻画难以面面俱到,使用模型时应根据具体网络特征择优选取。除了预测效果,不同网络模型间的差别还体现在可解释性上。Kleinberg[6]认为,针对已观测到的网络特征,网络模型的作用大小取决于它在多大程度上能够做出有意义的推断。而这种推断所揭示的特征与现象之间的因果关联,正是对网络演化施以解释和调控的重要前提。

2)相似连接模型。首先定义共同邻居边。根据文献[15],节点a ,k 的共同邻居边z ∈O ak 是它们之间3阶路径上处在中间位置的边。用对称定义的集合γ (a )和γ (k )分别表示a ,k 的1阶邻居节点与2阶邻居节点形成的边,即γ (a )={(a i ,k )|a i ≠a ,k ∈Γ (a )}, 节点a ,k 的共同邻居边集O ak =γ (a )∩γ (k )。

以图1的作者—关键词网络为例,a 1,a 2两位作者使用的关键词集合分别为Γ (a 1)={k 1,k 2},Γ (a 2)={k 2}。 其中,a 2,k 1是未连接节点对, (a 1,k 2) 是它们的共同邻居边。类比单分网络上的三元闭包原理,由a 1,k 2,a 2,k 1形成的不完整四边形(实线是已知边,虚线是未知边)有闭合(未知边成为已知边)的趋势。如果将点集合 {k 1,k 2}, {k 2} 分别视为a 1,a 2的研究兴趣表征,把边视为作者对关键词的选择行为,那么可以认为a 1对k 2的选择使得a 1,a 2有了共同的兴趣,所以k 1有一定概率成为a 2的研究兴趣。

图1 作者—关键词网络

河流和陆上融化的冰川给北冰洋带来的源源不断的淡水加剧了这一区域的脆弱性,因为淡水更难中和二氧化碳酸化效应。有研究者指出,北欧的海洋酸化范围非常广,其表层的海水酸化最快,深层的海水则更慢一些。科学家表示,流入北冰洋地区的大型河流因其流量大会形成巨大的集水区域。由于淡水和海水的混合较慢,因此在一些地方产生了淡水覆盖在海水上层的情况。淡水降低了能够缓和PH值变化的离子的浓度。海洋冰川相当于是北冰洋面的一个盖子,所以冰的融化将加速海水吸收二氧化碳。

图2 共同邻居边的影响

在图2(a)的模型中,未连边节点对a 2,k 1拥有共同邻居边 (a 1,k 2) 和 (a 1,k 3), 而另一对未连边节点a 3,k 3只有共同邻居边 (a 2,k 4), 故前者的连边可能性大于后者。较a 3而言,作者a 2与a 1选择的关键词更相似,所以a 1使用的关键词k 1更有可能成为a 2的研究兴趣。这里的共同邻居边对应着选择相似关键词的作者,也即相似的研究兴趣,那么此模型反映了由作者的研究兴趣相似而产生的网络演化。

在商务公司看来,以印刷为手段做好文化传承之工作,以新的技术与发展模式满足市场需求,确是一份社会担当之所在。

在图2(b)的模型中,未连边节点对a 2,k 1的两条共同邻居边是 (a 1,k 2) 和 (a 3,k 2),a 4,k 3的是共同邻居边 (a 3,k 2), 故前者的连边可能性大于后者。相比k 3,选择关键词k 2的作者更多地选择了k 1,表明k 1比k 3更接近研究热点。这里的共同邻居边对应着被作者选择的相似关键词,那么此模型反映了由关键词相似而产生的网络演化。综上分析,共同邻居边(CN)指标可表示为:

同时,为了均衡比较不同度的节点对间的相对连边可能性,本文还引入了LHN指标[19]作为参考:

通过对满载上提和空载下放两种工况下钢丝绳对卷筒结构作用力的分析,得出卷筒结构在不同运行阶段的应力图,可以精确找到卷筒受力最大的时刻,并得出应力-时间响应曲线。通过分析可得出,卷筒的最大等效应力出现在内壁上,这是由于卷筒内侧支轮、支环和卷筒内壁连接处存在应力集中。卷筒内、外壁上的应力并非均匀分布,而是沿着轴向波动起伏,最大等效应力出现的部位不是卷筒筒壳中间位置,而是支轮与支环的中间部位,并且此部位筒壳的变形也最大。提取满载上提和空载下放两种工况下卷筒的最大等效应力图,如图10所示。图11和图12为卷筒内壁上等效应力最大部位在不同运行阶段的应力-时间历程曲线。

2017年3月1日,唐山某现代产业发展试验区生态城先行启动区一期一步工程低密度住宅楼(二标段)正式开工,工程总工期为60 d,合同造价61 707 191.24元。其中包括5栋叠拼和6栋联排住宅。已知该项目每3 d为一个安全考核期,截至2018年3月27日,项目经理部已对该项目实际安全保障水平做出了9次评价,数值分别为0.501、0.485、0.492、0.513、0.537、0.557、0.583、0.544、0.518。计划于第10个考核期(3月30日至4月1日)投入安全成本5.31万元,而截至4月1日实际投入安全成本4.47万元。

图3 2阶邻居节点对数量的影响

图3中的两对未连接节点a 2,k 2和a 2,k 3分别对应着2阶邻居节点集合 ({a 2},{k 2}) 和 ({a 2},{k 3,k 5}), 它们各自的共同邻居边虽然在数量上相等,但是属性上存在差异。共同邻居边 (a 1,k 1) 对应着唯一的一对未连接节点a 2,k 2,而 (a 3,k 4) 对应着两对未连接节点a 2,k 3和a 2,k 5。直观上看,这两条共同邻居边表示a 2分别与a 1和a 3的研究兴趣相似,后两者的研究兴趣都有可能对a 2产生影响。不同的是,a 1的兴趣k 2对a 2的影响较为确定,而a 3的兴趣k 3,k 5都有可能被a 2选择,这种不确定性使得a 2,k 3连边概率相应较小。上述共同邻居边影响的不确定性可以参考资源分配指标[20](RA)描述如下,其中O ak 的定义同上文。

图4 2阶邻居节点对闭合比率的影响

为图3中的模型添加一些对称的点后可以得到图4中的模型,简单计算后不难发现,此图中的两对未连边节点的连边概率在上述指标中都是相等的。但是如果注意到新增加的边 (a 0,k 0) 带来的结构不平衡,依然可找到所求连边概率间的差异。这种差异可通过观察共同邻居边所处的作者—关键词四边形来评估。如果以该共同邻居边和对应节点构成的3阶路径大部分是闭合的,那么其影响无疑是较大的。语义上可以理解为关键词选择行为的影响在相似作者中的扩散。假设a 1对k 1的选择影响了a 0对k 0的选择,那么也会影响处在网络中同样位置的a 2,k 2。本文利用闭合四边形数N quad及3阶路径数N tri构造共同邻居边的聚集系数,将这种影响量化为:

眼球内恶性肿瘤、眼球极度萎缩、巩膜壁菲薄者实施眼球摘除手术;不能以药物控制的眼内炎、严重的眼球外伤、各种原因引起的全眼球炎、青光眼绝对期等实施眼内容物剜除手术;眼部恶性肿瘤侵犯时实施眶内容物剜除,包括眶内容物全摘除术(包括眼球和眶内全部软组织)和眶内容物次全摘除术(包括眼球和前部眶内容、保留眶后部组织),根据肿瘤侵犯的范围决定是否保留眼睑和结膜。

以此计算,共同邻居边 (a 1,k 1) 对应的2阶节点集合是 ({a 0,a 2}, {k 0,k 2}), 在与 (a 1,k 1) 形成的所有4条3阶路径中,只有经过 (a 0,k 0) 的路径形成了四边形,所以C (a 1,k 1)=0.25。 同理可知C (a 3,k 4)=0, 故a 2,k 2的连边概率大于a 2,k 3。鉴于共同邻居边的聚集系数是一个归一化后的值,可以将其作为角色函数来优化共同邻居边的权重计算。本文参考基于RA指标的局部贝叶斯模型[12](LNB-RA)进行具体计算:

其中,是共同邻居边聚集系数加1平滑后的角色函数:

2 .2 预测结果评估

由于网络G 在未来的状态是未知的,所以新连边的预测结果在当前网络上无法验证。可行的方法是将G 的边集E 划分为训练集E T 和测试集E P ,E =E T ∪E P 且E T ∩E P =φ 。 链路预测算法基于E T 提供的信息对所有未连边节点对a ,k ∈U -E T 的出现概率进行计算和排名,然后考察E P 中的边在排名中的位置。基于E P 已经存在的事实,这些边在排名中越靠前,说明链路预测使用的网络模型预测能力越好。上述中的U 表示G 上边的全集,U =A ×K 。

3)角色差异模型。单纯计算共同邻居边的数量而忽略个体差异,也不能精确评估其带来的影响。将2阶邻居节点对定义为除自身两端点之外的共同邻居边的邻居节点,并对其属性进行量化,则可以区分共同邻居边的影响。可行的量化方法有两种:①2阶邻居节点对的数量;②2阶邻居节点对的闭合比率。

对于智能CT设备、用于辅助医生手术或者进行术前规划的智能设备、或者可穿戴式医疗监测设备等既包括硬件改进又包含控制软件的人工智能产品而言,由于软件与硬件的集成性以及设备的专用性,侵权行为的发生相对集中,因而侵权行为相对容易举证和判定。即使某些用户终端产品(例如个人医疗终端)在硬件产品出厂时并未预装相关控制程序,而是以APP商店或者提供下载链接的形式由用户自行下载并安装控制软件,也能够相对便利地证明用户是在侵权产品制造商的诱导或者指示下完成控制软件的下载、安装和使用。

实际处理过程中常用AUC(Area Under Curve)和Precision(准确率)两种标准来评估预测结果的准确性。前者是测试集中的边排名高于其他未知边的概率形式表达,主要从整体上给出预测的平均准确性;后者直接计算前L 位预测结果在测试集上的命中率,相较前者而言更直观,实用性更强。使用过程中,可以综合两种标准进行判断。

共同邻居边产生的影响可以叠加,即a ,k 的共同邻居边数量越多,其连边可能性越大。由图1的基本模型可知,共同邻居边的两个端点分别来自作者和关键词,那么边数差异的形成有两种可能原因:1关键词;2作者。下面结合图2分别阐述。

测试集可由随机或固定的方式产生。对于非时序的网络,通常采取随机的方式按比例从网络中抽取边来构造测试集,未被抽取的边则成为训练集;如果边带有时间属性,则可以按特定时间点将网络划分为训练集和测试集。为了排除干扰因素,实际预测中往往需要通过对测试集多次构造和计算来得到稳定的准确性评估结果。

2 .3 数据选取和处理

考虑到跨领域带来的影响,应将预测范围限制在一个研究领域之内,降低相关因素对分析结果的干扰。本文以“服务融合”或“服务集成”为主题,在图书情报学CSSCI索引期刊中检索,共得到304篇文献。按以下步骤进行数据处理:

1)抽取每篇文献的作者和关键词信息,构建作者—关键词二分网络,并抽取其中的巨片构建原始网络。

2)对原始网络划分训练集和测试集。为考察聚集系数对模型稳定性的影响,本研究按8种方案划分训练集和测试集。每种方案中训练集边数在总边数中的占比分别是0.95,0.90,…,0.60,训练集的聚集系数也随此比例递减。

学生缺乏音素意识。在小学的英语授课过程中,跟读并仿读单词是常规的练习,由于缺少音素意识,学生跟读发音不准。我国的小学生缺乏音素意识,在拼读时习惯将音通过汉语来标注记忆,这种错误的习惯严重阻碍了学生的英语学习。

3)将上文中的5个指标应用于8种方案中进行链路预测,每个指标在每种方案上进行10次预测,每次预测都按该方案对应比例随机取边产生训练集和测试集。

在研究对象方面,链路预测多用于科研交互活动中的合作预测。刘志辉等[17]利用关键词耦合来分析作者之间关系,等效于作者—关键词网络上的加权投影。Yan等[4]在比较了多种学术信息网络后,认为作者和关键词分别体现了学术信息的社会维度与认知维度,推荐将两者结合来发现科研中的交互活动。张金柱等[18]在作者—关键词二分网络中抽取多种路径构建组合模型预测合作关系,实验结果证明较短的路径对预测的贡献较大。

原始网络及训练集的拓扑结构信息见表1,其中原始网络序号为0。

表1 网络拓扑结构信息

3 结果及分析

本节首先给出5种链路预测指标在典型训练集划分比例下的准确性,然后通过调节划分比例改变训练集网络的拓扑结构特征,并观察预测表现的变化情况,从而了解这些指标在二分网络上进行链路预测的稳定性。

3 .1 预测准确性

使用AUC和Precision作为准确性评估标准,结果的值越大表明评估效果越好,若AUC值为0.5则表示预测效果与随机猜测相当。以0.9为训练集划分比例,AUC和Precision的计算结果如表2所示。在这种典型的划分比例下,5种预测指标在两种评估标准上的表现不尽相同。在AUC上,除PA外的其他4种指标表现较好,预测准确率都接近或超过了90%,尤以RA最为出色。在Precision上的预测结果也表现出相似的等次分布,但其他指标与RA和LNB-RA指标间的差距在扩大,且LNB-RA的领先优势明显。

表2 0.90训练集比例下模型表现

预测表现好的指标对网络演化机理的刻画较为准确,反之则说明指标所代表的机制没有在网络中体现。从结果上看,PA指标所假设的优先连接机制并没有在作者—关键词网络上发挥很明显的作用,但其他指标所假设的相似连接机制和角色差异机制都得到了很好的证实。结合作者—关键词二分网络的特性进行分析,不难理解这三种机制对预测结果的影响。

首先,不同作者所感兴趣的关键词数量天然有差别,但兴趣的范围是有限的,单个作者所使用的关键词个数不可能无限制地增长;同理,关键词的使用中也存在热点切换的趋势,长期来看,单个关键词的使用次数不可能无限制增长。这就决定了作者—关键词网络难以受优先连接机制影响产生马太效应,而作者对关键词的选择并非由其兴趣范围和关键词出现频率直接决定。

(2)累计值正确,小时降水量有误。点击“数据修改”,在弹出的快速通道中,修正值栏值保持不变即为累计降水量的值0,备注信息栏填写“经查证,累计降水量无误,应将2014-02-25 04时次降水量由1改为0”,然后点击快速通道中备注信息栏旁边中的“提交”按钮提交。

其次,从聚集系数可以看出网络中的局部集中结构,即作者选择关键词的行为存在偏好,而由被证实的后两种机制可以解释这一偏好产生的原因。CN指标所代表的相似连接机制解释了作者的选择行为受相似作者的影响,相似程度和相似作者数量决定这一影响的大小。LHN是归一化后的CN指标,该指标降低了高影响力选择行为在预测结果中的权值,预测准确性有所下降,说明高影响力选择行为在机制中起到了更重要的作用,有进一步分析的可能。RA和LNB-RA指标在预测中较高的准确性证实角色差异确实存在于不同选择行为之间,也证实了相似作者间的影响不仅存在于数量上,高影响力作者的作用不容小觑。

3 .2 预测稳定性

预测稳定性是预测指标在不同网络结构中预测表现的一致程度。了解指标的稳定性,分析出现的干扰因素,有利于识别指标的适用条件,对现有评估的信度做出判断。本文所使用的5个指标均与局部结构相关,因此通过改变训练集的网络聚集系数,并观察各指标预测表现的变化,可评估指标预测的稳定性。

图5和图6展示了4种指标的AUC和Precision值与网络聚集系数的关系。其中,网络聚集系数采用2.1节中边聚集系数的定义,是网络中所有边的聚集系数的均值。并且由于PA指标表现不佳,为了不影响整体展示效果,在图中略去了其图形。需要注意的是,以0.9为训练集典型划分比例时的聚集系数约为0.4。下面从稳定性和适用性两方面来分析图中的结果。

企业在经营发展过程中必然会面临各种风险,国有企业在自身发展过程中应高度关注风险评估和管理,有效识别经营过程中存在的风险,对风险进行评估与分析,并寻求有效的应对措施。但是在实际风险控制和管理过程中,部分国有企业并未高度关注风险评估分析,而国有企业的监督部门也并未真正发挥监督作用,最终导致国有企业在财务风险管理中出现了薄弱环节,一旦出现风险并不能将损失控制在最小范围内。

图5 AUC与聚集系数关系

图6 Precision与聚集系数关系

在AUC的稳定性上,除LNB-RA外的其余3个指标均表现较好,没有随聚集系数的变化大幅波动,且任何时候的预测表现相对排序均一致。LNB-RA指标的预测表现在不同聚集系数的网络中差异较大。网络聚集系数在0.45时,该指标的表现类似于CN指标。但随着聚集系数的下降,该指标表现迅速恶化,直至聚集系数0.35以下时,被其他3个指标完全超越。4个指标的Precision稳定性表现一分为二,RA及LNB-RA虽有大幅变化的情况,但两者间的相对差距基本一致,而另外两种指标波动较大。

通过2.1节对各个指标对应模型的分析,再结合本小节中预测稳定性的结果,可以推断出预测结果的准确性与模型对结构刻画精确程度的正比关系。从节点自身属性到1阶邻居再到2阶邻居,对细节的深入解析使得不同网络局部结构的影响得以明确区分,从而产生更好的预测准确性。RA及LNB-RA指标较高的预测准确性正是来源于对高阶结构特征的精确刻画。并且LNB-RA基于RA指标增加了影响力扩散权重,更善于发掘排名靠前的高影响力选择行为。但过于复杂的刻画机制又会使得模型的适用性下降。如在低聚集系数的网络中,大部分节点对可能不具备2阶邻居,导致LNB-RA指标失效。而在这一问题上,RA指标无疑在准确性和适用性间做到了均衡。

4 结束语

基于共同邻居思想,本文构建了作者—关键词二分网络上具有解释性的链路预测模型,并应用真实网络对5种改造后的指标进行了比较评估。结果显示,相似连接和角色差异机制对作者的关键词选择行为具有明显影响,利用后者更能精确预测高影响力选择行为的出现,而优先连接机制的作用并未得到明确证实。各预测指标的准确性和稳定性差异较大,总体而言,应用网络中高阶结构的指标在聚集系数高的网络中预测更准确。RA指标的综合表现最好,LNB-RA指标的准确性受聚集系数的影响较大。

鉴于红色文化传承在我国社会化建设中所起到的重要作用,相关部门应加大对红色文化传承工作的研究力度。要在对红色旅游以及导游讲解进行深度分析的基础上,通过保证讲解严肃性、生动性以及规范性等手段,从红色旅游导游讲解层面着手,对红色文化传承方式以及传承效果进行完善,确保红色文化能够真正深入人心,国人可通过红色旅游得到文化熏陶,能够更加拥护共产党,拥护党的领导,进而达到理想化红色旅游开展效果。

后续研究应更深入模型细节,以求发现更多高效稳定的网络结构刻画方式。如共同邻居边两端的作者、关键词节点在预测中的作用区分;又如能够刻画相似作者中影响力传播的稳定性模型。虽然本研究采取不同比例划分训练集的方式分析模型的表现变化趋势,但仍不可能模拟众多的知识网络类型。后续研究应在具有其他结构特征二分网络中测试模型,验证模型所假设的网络演化机制的普适性。

参考文献

[1] BORGATTI S P,EVERETT M G.Network analysis of 2-mode data[J].Social Networks,1997,19(3):243-269.

[2] NEWMAN M E.The structure of scientific collaboration networks[J].Proceedings of the National Academy of Sciences of the United States of America,2001,98(2):404-409.

[3] NEWMAN M E J.Scientific collaboration networks.II.shortest paths,weighted networks,and centrality[J].Physical Review E,2001,64(1 Pt 2):016132.

[4] YAN E,DING Y.Scholarly network similarities:how bibliographic coupling networks,citation networks,cocitation networks,topical networks,coauthorship networks,and coword networks relate to each other[J].Journal of the American Society for Information Science and Technology,2012,63(7):1313-1326.

[5] LATAPY M,CLÉMENCE MAGNIEN,VECCHIO N D.Basic notions for the analysis of large two-mode networks[J].Social Networks,2008,30(1):31-48.

[6] LIBEN-NOWELL D,KLEINBERG J.The link prediction problem for social networks[J].Journal of the American Society for Information Science and Technology,2007,58(7):1019-1031.

[7] 张斌,马费成.科学知识网络中的链路预测研究述评[J].中国图书馆学报,2015,41(3):99-113.

[8] 张斌,李亚婷,戴怡清.聚集系数对合著网络链路预测效果的影响研究[J].情报理论与实践,2018,41(1):100-104,99.

[9] AHN M W,JUNG W S.Accuracy test for link prediction in terms of similarity index:The case of WS and BA models[J].Physica A:Statistical Mechanics and its Applications,2015,429:177-183.

[10] NEWMAN M E.Clustering and preferential attachment in growing networks[J].Physical Review E,2001,64(2):025102.

[11] RAPOPORT A.Spread of information through a population with socio-structural bias:I.Assumption of transitivity[J].Bulletin of Mathematical Biophysics,1953,15(4):523-533.

[12] LIU Z,ZHANG Q,LU L,et al.Link prediction in complex networks:A local naïve Bayes model[J].EPL,2011,96(4):48007.

[13] CANNISTRACI C V,ALANISLOBATO G,RAVASI T.From link-prediction in brain connectomes and protein interactomes to the local-community-paradigm in complex networks[J].Scientific Reports,2013,3(4):1613.

[14] WU Z,LIN Y,WANG J,et al.Link prediction with node clustering coefficient[J].Physica A:Statistical Mechanics and its Applications,2016,452:1-8.

[15] XIA S,DAI B T,LIM E P,et al.Link Prediction for Bipartite Social Networks:The Role of Structural Holes[C]//2012 International Conference on Advances in Social Networks Analysis and Mining.IEEE Computer Society,2012:153-157.

[16] DAMINELLI S,THOMAS J M,DURAN C,et al.Common neighbours and the local-community-paradigm for topological link prediction in bipartite networks[J].New Journal of Physics,2015,17(11):113037.

[17] 刘志辉,张志强.作者关键词耦合分析方法及实证研究[J].情报学报,2010,29(2):268-275.

[18] 张金柱,韩涛,王小梅.作者—关键词二分网络中的合著关系预测研究[J].图书情报工作,2016,60(21):74-80.

[19] LEICHT E A,HOLME P,NEWMAN M E.Vertex similarity in networks[J].Physical Review E Statistical Nonlinear & Soft Matter Physics,2006,73(2):026120.

[20] ZHOU T,LÜ L,ZHANG Y C.Predicting missing links via local information[J].European Physical Journal B,2009,71(4):623-630.

Link Prediction in Bipartite Knowledge Networks

Abstract :[Purpose/significance] Many knowledge networks have a bipartite nature,link prediction in the bipartite network is the key to the integrality of network information.[Method/process] By analyzing micro level evolutionary mechanism,the models with indexes are proposed to predict link in a real author-keyword network,results of prediction are compared.[Result/conclusion] There is a positive correlation between the prediction accuracy and its ability to characterize the local high-order network structure.However,excessive use of higher-order features will decrease the stability of the model.[Limitations] The ability of model to characterize structure needs to be further improved and tested in more types of networks.

Keywords : author-keyword network;knowledge network;link prediction;clustering coefficient

DOI: 10.16353/j.cnki.1000-7490.2019.11.024

* 本文为2010年国家社会科学基金重大项目“图书、博物、档案数字化服务融合研究”的后续研究成果之一,项目编号:10&ZD134。

作者简介: 项欣 (ORCID:0000-0002-6623-6695),男,1982年生,博士生。研究方向:链路预测。祁彬斌 (ORCID:0000-0002-4001-5712),男,1992年生,博士生。研究方向:信息分析。朱学芳 (ORCID:0000-0002-8244-5999,通讯作者),男,1961年生,博士,教授,博士生导师。研究方向:数字信息资源应用及管理。

作者贡献声明: 项欣 ,提出研究问题,设计研究思路,数据处理,撰写和修改论文。祁彬斌 ,数据处理,修改论文。朱学芳 ,理论指导。

录用日期: 2019-05-20

标签:;  ;  ;  ;  ;  ;  

二分属性知识网络的链路预测论文
下载Doc文档

猜你喜欢