合作 -认知 -引用三重关联融合下综合学术网络构建及特征分析
赵浚吟
(中共浙江省委党校 图书馆,浙江 杭州 311121)
摘 要: 创新是发展的原动力,合作是当今科研的重要组织形式。本研究采取基因编辑领域作为研究对象,基于多种理论划分单一关系,把加权直接引用理论、基于Fisher和基于Z得分的多关系融合方法组合使用,在对于不同关系的加权方法上,用基于互信息加权代替了传统的线性加权,以此构建多关系融合后的综合学术网络。本研究以期对多关系融合方法进行综合和改良,对基因编辑领域综合学术网络进行构建和描摹,以帮助研究人员更好把握当前学界发展动态。
关键词: 多关系融合;学术网络;互信息;基因编辑
社会进步和国家发展都离不开科技创新,在大科学、大数据背景下,合作成了不可抵挡的主流。随着信息技术前进和知识管理理论发展,学术网络概念不再局限于地理和机构的限制,而扩展到有着直接或间接交流的个体所组成的网络。在新型学术网络中,成员合作为兴趣导向,不同知识背景的科研人员进行知识交流和思维碰撞,激发知识的创造和批判继承。近年来,学术网络研究大多建立在单关系合作结构之上,现实情况中,学术实体网络包含了多种关系。如何合理地融合多种关系,构建多重关联异构网络,进而将潜在学术关联转化成真实的学术交流是学界面临的一个挑战。
进水渠长45.0m,底宽18.7m,矩形断面。进水口前2.5m为厂前水平段,高程为106.41m;总长45m采用坡度为1∶3的反坡段连接至121.4m高程。
多关系研究有组合和融合。前者是把多种基于单一关系的分析结合,本质是进行单一关系分析。而关系融合指将不同关系结合成一种新关系,用来描述该领域结构[1]。从融合关系的数量来讲,多为两种,3种或3种以上关系融合非常少见。在两种关系融合研究中,Small用共词和引用连接方法发现文献间关联关系[2]。Janssens和Glanzel把文献中词和耦合的关系结合在一起,证明了这种方法应用在领域结构分析中的适用性[3,4]。在3种关系融合研究中,He等把信息检索中文本内容、文本超链接和同被引3种关系进行融合[5]。融合算法分为聚类集成(ensemble clustering)和核融合(kernel fusion)。前者是对单一关系进行聚类,再将结果融合成新聚类[6]。核融合先对多种关系进行融合,然后再进行分析。刘萍[7]在整合认知——结构——关系3个维度时利用线性规划求解权重,用线性融合构建研究人员总关联强度。
理性从启示、哲学从信仰中剥离出来并获得独立的形态,并不意味着宗教的消除,正如卡西尔所言:“启蒙运动最强有力的精神力量不在于它摒弃信仰,而在于它宣告的新信仰形式,在于它包含的新宗教形式。”[16]125-126在启示与理性、信仰与哲学的博弈中,“宗教信念应该像任何别的命题一样接受检验——由理性证据来检验”[17]26。启蒙扬弃了宗教的外在形式,形成了新的宗教形态——知性宗教。
Janssens引入Fisher方法中概率P值对多关系进行融合,这种方法包含p值转换与整合两个大的步骤[3,4]。
她拍拍我后背的灰尘,扶我坐到床上,“只有那个法子了。他们应该很快就会叫你去的。伊藤是个小头儿,他一般会先进来。”
FA16-T设备使用MPLS包交换网络来实现空管甚高频业务的透传功能。极大降低了语音业务传输的时延 (具体时延约在16ms左右),在空管管制席位可接受的时延范围内,保证了甚高频业务的正常传输[4]。
2.忽略就业指导工作的重要性。一些高校存在重教学轻就业、重管理轻服务的现象。在学校大氛围的影响下,辅导员把工作局限于日常教育管理,产生了一些诸如“就业指导工作不属于学校工作的重要内容”等错误的认识。就业指导工作长期被辅导员所忽视。
本文将利用社会资本理论、信息计量学的方法和关系融合的算法对承载于文献发表——引用关联上的学者异构合作网络的构建进行探索,以期为科研人员选择适当的合作对象,推进潜在学术关联向现实学术交流的转化提供一定参考。
1数据来源与研究方法
美国《Science》杂志公布了其评选的2015年十大科学突破,被业内誉为“基因剪刀”的CRISPR基因组编辑技术当选头号科学突破[8]。基因编辑是指对基因组进行定点修饰的技术。现如今,基因编辑已经投入基因功能研究等方面,取得了良好成绩。《科学》杂志称其“将会给许多领域带来持久的兴奋和乐观”,“势必对研究产生革命性影响”。
本研究选取Web of Science数据库作为检索平台,用“gene edit* or crispr”为主题关键字,将检索年限定于1980年~2016年。检索共获得文献10 503篇,在其中截取article、proceedings paper、review以及book review四类文献,共计9 020篇。数据检索与获取的时间是2016年12月25日。
抗肿瘤药物发生严重ADR/ADE的比例较高,首先这与肿瘤药物具有一定的毒副作用有关[6‐7]。其次,肿瘤患者身体状况较差,对药物反应也更敏感。因此,在给患者使用肿瘤药物时,应制定个体化给药方案,做好不良反应预防措施[8]。
本文中使用的研究方法主要包括文献调研法、多领域交叉法、统计分析法和实证研究法,利用Matlab进行了多关系的融合,本研究的网络分析及可视化图片来源于Ucinet和Netdraw。
2单关系网络构建
I (X ;Y )=H (X )-H (X |Y )
其次,重视合同管理人员的培训工作。合同管理人员的业务素质的高低,直接影响着合同管理的质量,因而应当重视经济合同管理人员的培训工作。应按需设置培训内容、重点突出、增强培训的针对性。要不定期举办法律知识学习班,聘请合同法律专家、学者讲授《民法通则》《合同法》《招标投标法》《担保法》等法律法规等基本知识,在学习中培养并不断增强合同管理人员法律意识,提高签约技巧。
2.1 合作网络构建
本研究用科研人员发表文献的共同署名情况来测度关系网络。对发文量≥5的746个作者的文献合著情况进行分析,构建出作者合作矩阵,可视化图如图1所示,绘制过程中设置阈值为4。
图 1作者合作关系网络可视化图
图 2作者——关键词耦合认知网络可视化图
2.2 认知网络构建
认知维度刻画一个群体对于某一样事物共同的关注和爱好。在合作概念被越来越重视的今天,这种知识上的承接被看做是重要的联系。在科研领域,关键词是每个学者知识的表征,可以在一定程度上反映研究者们的兴趣和研究。本研究对该领域核心746人的论文进行信息抽取,构建作者——关键词网络,然后降维成作者基于关键词耦合矩阵,即基于认知关系的关联网络,可视化如图2所示,设置阈值为4。
2.3 引用网络构建
学者基于文献引文的关系主要有3种:作者共被引、作者文献耦合以及作者直引/互引。作者共被引分析(Author Co-citation Analysis,ACA)[11]用以分析科研群体结构,揭示科学共同体与学科发展态势。作者文献耦合分析(Author Bibliographic-Coupling Analysis,ABCA)[12]用以刻画当前研究领域活跃作者的知识影响,在全面发掘学科知识结构中成为作者共被引分析的有益补充。作者直引/互引分析(Author Direct/ Cross/Inter Citation Analysis)研究多集中于文献层面的直引分析[13]和期刊层面的互引分析[14],有学者针对作者直引/互引分析进行了系列探讨和实证应用[15,16],并将其明确定义为ADCA[17]。3种引文分析和引文网络类指标簇在揭示学者学术关联、反映学者学术影响力上各有其独特的适用性和侧重点。
本研究对746个作者进行引文关系构建,其中第一作者直引矩阵是有向矩阵。对上述矩阵进行可视化分析,如图所示。
综上,国内外学者从多角度对多关系融合进行探索研究,但存在一些不足。首先,学界主要对单一关系同质社会网络进行分析,也有学者对两种关系融合进行探索,但这些简单的模型难以刻画多种异质网络并存的现实情境。并且学界对于关系融合的算法也缺乏深入研究,多采用简单的加权线性融合。
图 3作者直引网络可视化图
图 4作者共被引网络可视化图
3三重关系融合网络构建
3.1 引用层面三维关系融合
设每一个关系矩阵都是一系列随机事件的集合,用MI表示不同关系矩阵的互信息,关系矩阵的权重计算方式如下所示:
发文量是衡量研究者科研水平重要指标,一个领域的核心作者自然是产出较多,取得较高成就的带头人,故而提取文献作者,在构建直引数据集时则使用第一作者。考虑署名时常会使用缩写的形式,对发文量≥5篇的作者共746人进行全名——机构人工比对消歧。
图 5作者文献耦合网络可视化图
图 6作者加权直接引用理论示意图
图 7三维引文融合关联网络
图6中,l表示作者A施引于作者B的次数;c表示作者A与作者B 的文献施引于文献C次数的最小值(即A和B对引文C的耦合频次);m表示文献C的总被引频次;d表示作者A与作者B的文献被引于D的最小次数(即A和B被文献C的共被引频次);n表示文献D的总参考文献数。在图1所示的引用关系中,对于作者A与作者B的WDC值为l+c+d,作者A与作者B的NWDC值为l+c/m+d/n。
随着创建活动的进一步深入,西江这条经济长飘带,正在逐渐成为一条“安全、畅通、文明、绿色”的彩练,在新时代南粤改革开放的滚滚春潮中欢快地起舞 。
本研究采用标准加权直接引用(NWDC)对核心作者进行综合影响力测度,为了可视化更加清晰,设置阈值为4,如图所示。综合引文网络总体上分为7个大类,其中有两个网络聚集特别紧密,人数也占优势,同时,右边的结构又大致分为3个部分,左边分为两个部分,右上角、右下角和左边中间的社区都呈桥梁形,说明其中有着关键节点的作者对领域知识互通具有重要的控制力。这主要是由该学者与其他学者在引用文献上的高度耦合关联造成的。在下文中,综合引文网络简称为“引文网络”。
3.2 合作——引用——认知三重关联网络融合
Janssens提出利用Fisher的p值方法对文献间不同关系进行融合,需要对基于不同关系从文献中抽取的矩阵进行转化,把强度转换为p值[3,4]。虽然这种方法可以保持原始数据的分布特征,但是其整个计算过程较为繁琐,且Fisher的整合方法也存在两个显著的问题,即无法解释或者接受原假设的方向性,以及极值不对称使极小值更加敏感。
针对上文所述问题,引入Stouffer的z值整合方法来进行解决,将p值转换为符合正态分布的分位数z值,并且在加权中也引入Stouffer方法,该处理方法已经被验证可有效修正Fisher的p值整合方法存在的极值问题[1],具体过程描述如下:
①从文献信息中提取分析对象和特征值之间的关系矩阵,把关系矩阵转化为共现矩。②共现矩阵可以看做一个数据集,计算数据集的均值和标准差,将每一个值都转化为相应的z得分,这一标准化过程公式如下:
(1)
其中μ为样本的平均值,σ为样本的标准差,X是需要进行标准化的值。
开展地温空调水资源论证专题研究。根据鞍山市水资源论证工作的特点,结合鞍山实际,组织专业人员,开展水资源论证中地温空调论证工作的专题研究,有针对性地强化水资源论证工作。
③根据如下公式,对不同关系矩阵中的z值进行计算,得到一个融合后的z得分矩阵:
(2)
其中Wi是根据互信息的加权算法得出。在信息论中,互信息用来描述输出信号中带有的输入信号信息的量,进而发展为描述一个变量中包含另一个变量的信息,可以用来反映两个变量(事件)之间的相关联强度。两个事件的互信息定义为:
要构建多关系学术网络,首先需要构建单一关系网络。利用社会资本理论可以研究社会网络中个体之间的关联,对关系的强度进行测度[7]。社会资本理论从认知维度、关系维度和结构维度3个方面对关系进行构建[9],认知维度是指群体基于行为方式和理解而共同认定的各种符号和文化指标,关系维度则是指群体中成员通过活动而产生的互相之间的联系,结构维度从网络本身角度来讲指的就是网络的结构。但是在实践过程中发现实际上结构维度的网络和关系维度有着很高相似性,故而本研究加入引文维度替代结构维度,以期对研究者现实关系进行有效模拟。行动者网络理论研究的对象是人与非人行动者之间的相互作用形成的异质网络,行动者指广义概念[10]。
(3)
Persson提出的加权直接引用理论是指将共被引关联度与文献耦合关联度作为直引关联的一个加权,形成一种新型的引用强度;同时进一步将共被引和耦合两种关联结果进行标准化处理再重新加权,得到标准加权直接引用结果(Normalized weighted direct citation, NWDC[18]。不同的是,Persson的直引加权关联是在文献层面论证和应用的,而本文将把该思路应用于作者层面。由于作者关联是基于特定的文献集合关联间接产生,所以本研究过程相对更为复杂。具体算法原理如图1所示,其中耦合和共被引的频次计算均采用最小值的计算方式[19]。
方腔流动在流向x方向上是无限的, 基本流场也没有流向流动, 从而不依赖于坐标x. 因此, 方腔流动具有沿x坐标轴的平移不变对称性Tx0, 这一平移对称性通常表示为群变换E(1). 基于方形腔体轮廓, 相邻双侧边盖驱动方腔流动还存在额外的对称性: 关于对角线的反射对称性Sd, 可以定义成
(4)
④根据范围检验中z得分和p值之间的关系,按公式将融合后z得分矩阵转换为p值矩阵,其中概率p是通过累积标准正态分布得出:
(5)
使用基于z得分的多关系融合方法对认知网络、关系网络和引文网络进行融合 ,后用Netdraw对融合后矩阵进行可视化分析,结果如图8所示。
图 8多关系异构融合网络可视化图
从可视化结果可以看出融合网络的形态与合作网络差别非常大,融合网络中节点之间联系非常紧密,单一的合作网络中节点联系较稀疏,易从可视化图片上对作者的合作关系进行划分。说明在多种关系融合之后的网络中,学者之间的显性和隐性关系被揭示,所有研究者都被一定程度地关联在了一起,形成一个联通的综合性学术网络。传统从合著信息入手的学者关联在对比下就显得较单薄,不能全面揭示真实的学者之间复杂多样化关联。
多关系异构融合网络的整体形态和认知网络以及引文网络较为相似,网络联通程度很高,节点之间连线较复杂。说明认知和引文网络这两种隐形关系比合著更加广泛和深刻,它们突破了时空限制,从知识角度把学者们联系在了一起,因为其深层次和复杂程度而具有极大价值。
4综合学术网络结构特征分析
由于数据量大,单从可视化分析会带来一些主观的误差,通过对网络结构性指标进行分析,可以了解网络结构特性。测度结果如表1所示。
表 1关系、认知、引文网络结构分析
融合网络密度为0.4484,远远高于原始的认知网络、关系网络以及引文网络,而距离和聚类系数都为1。融合网络中没有孤立节点,其边数为556 516,比单一网络中认知网络多7倍左右,且密度为0.4484,远高于单一关系网络,说明融和网络构建的关联关系的深度和广度。还可以通过计算代表个人影响力的中心性指标来进一步研究4个网络之间的差异。中间中心度用于衡量节点在整个网络中的桥梁作用,测度节点能够通过控制信息的传递来影响整个群体的强度。由于融合后网络没有孤立节点,为全联通网络,故而无法测度中间中心度,只测度了网络的点度中心度,结果如表2所示。
表 2认知、关系、引文和融合后网络点度中心度排名
关系网络中,点度中心度越高,该科研人员和其他人关联强度越大,研究成果较丰富。在关系网络中,学者Small I、Brennicke A、Grienenberger Jm位居前三,具有较强的产出和合作能力。在认知网络中,Van Der Oost J、Gregory Philip D、Barrangou R 3位学者点度中心性较高,这些学者所涉足的基因编辑领域方向较多,成果具有多样性。在引文网络中,Barrangou R、Makarova Kira S、Jinek Martin等学者能在学术领域中起到承接的作用,同时学术产出质量较高。而融合网络中排名靠前的学者的点度中心度数值非常高,最高为Zhang Feng 的75.602,远高于单关系网络,融合后的异构网络很好的综合了单关系网络中节点之间的关联强度,可以显著地测度团体中核心学者。
在4种网络中心度排名中,Barrangou R一直都在前三名,表明此人研究成果相当丰富,和其他研究人员关联度非常高。Brennicke A 是基因编辑领域发文最多的作者,他在认知网络和关系网络中的度中心度排名中都位居前四,在融合后异构网络中排名第三,表明该作者不仅和其他人共同署名发文量较大,在基因编辑领域所设计的方向也很宽泛,能和众多作者达到兴趣上的耦合。
其次,融合后异构网络的点度中心度排名顺序与单关系网络的排名有明显不同,还有例如Church George M、Joung J Keith等在单关系网络中心度并不靠前的学者在融合后的网络中显示出与他人很强的关联,这说明多种关联关系的融合使得该领域科研人员之间的关系被更好的发掘出来,这有助于我们对某一领域学者之间关系的探索,也有助于我们对科研人才进行多方位评价测度的研究开展,显示出进行多种关联关系融合的必要性。
以上可视化结果和网络的结构测度从定性和定量双重角度出发,共同说明融合后网络较单一同质网络连接更紧密,网络的密度和联通程度大大增加。这是因为融合网络综合了多种不同显、隐性的关系。且这种融合网络的测度,不仅是对原有合作关系的增强,也具有预测作用,即现实中未产生实际合作的学者,他们有可能通过共同标记学术兴趣点,或者在学术研究上有着学习和继承的行为已经被联系在了一起,未来如果产生合作关系,那么,这种合作将会是非常融洽、有利于学术工作的。
5结束论
本研究从探寻多关系融合网络方法出发,立足于行动者网络理论、社会资本理论等理论研究,先分别构建基于关系维度的合作网络、基于认知维度的作者关键词耦合网络、融合了直引、共被引、耦合3种不同引用形式的引文网络,再使用基于z得分的多关系融合方法,用互信息对不同矩阵加以权值,构建出多关系融合异构网络。
通过对上述内容的分析,可以发现在基因编辑领域中,单一的基于合作关系网络实际上最能反映该领域现实状况——社区内部较紧密,但是整体合作较为松散。认知维度更多地反映出该领域研究人员的共同研究兴趣呈现出紧密的特点。这说明在作者——关键词网络构成的隐形网络中,已经有大量的知识在涌流,但是这张大网以及附加的知识并没有被很好的应用。通过多重关系探索研究,发现基因编辑领域研究者现有合作关系还有一些不足,例如该领域研究者们整体缺乏交流,没有形成大规模创新社区,但是这也说明该领域研究者还有着相当广阔且美好的合作空间亟待挖掘,该领域学者们都能通过多关系融合异构网络来找寻自己的研究伙伴。并且根据小世界理论,整个网络的成员会迅速互相建立关系,且网络中知识会迅速传递,这些知识会帮助他们提高自己工作效率,产出结果又会顺着网络流向其他研究人员,最终达到整个学科研究者之间的共同成长、良性循环。
[参考文献]
[1] 苏娜,张志强.面向研究领域分析的多关系融合方法研究[D].北京:中国科学院文献情报中心,2011.
[2] H.Small.A general framework for creating general large-scale maps of science in two or three dimensions: The SciVic system [J]. Scientometrics,1998,41(1~2):125~134.
[3] Janssens F, Glanzel W, Moor B D. A hybrid mapping of information science[J].Scientometrics,2008,75(3):607~629.
[4] Janssens F. Clustering of Scientific Fields by Integrating Text Mining and Bibliometrics[D].2009.
[5] He X, Zha H, Ding C H Q, et al. Web document clustering using hyperlink structures[C]. Computational Statistics & Data Analysis, 2002,41(1):19~45.
[6] Liu X, Yu S, Moreau Y, et al. Hybrid Clustering of Text Mining and Bibliometrics Applied to Jounal Sets[J]. Scientometrics,2009,(10).
[7] 刘萍.基于异构社会网络的知识社区挖掘及学着相似度研究[M].北京:科学出版社,2016:14~39.
[8] 林小春.“基因剪刀”当选《科学》杂志今年头号突破[EB/OL].http://news.sciencenet.cn/htmlnews/2015/12/334327.shtm,2015-12-18.
[9] Nahapiet J, Ghoshal S. Social capital, intellectual capital , and the organizational advantage [J]. The Academy of Managemrnt Review,23(2):242~266.
[10] 郭明哲. 行动者网络理论(ANT) —— 布鲁诺·拉图尔科学哲学研究[D].上海:上海复旦大学,2008.
[11] WHITE,H.D,GRIFFITH,B.Author co citation: A literature measure of intellectual structures[J].Journal of the American Society for Information Science,1981,32(3):163~171.
[12] Zhao D, Strotmann A.Evolution of research activities and intellectual influences in information science 1996~2005:Introducing author bibliographic-coupling analysis[J].Journal of the American Society for Information Science and Technology,2008,59(13):2070~2 086.
[13] Waltman L, Eck N J. A new methodology for constructing a publicationlevel classification system of science[J]. Journal of the American Society for Information Science & Technology,2012,63(12):2 378~2 392.
[14] Zhang, L., Gl a nzel, W., & Liang, L.Tracing the role of individual journals in a cross-citation network based on different indicators[J]. Scientometrics,2009,81(3),821~838.
[15] Wang F, Qiu J, Yu H. Research on the cross-citation relationship of core authors in scientometrics[J].Scientometrics,2012,91(3):1 011~1 033.
[16] 邱均平,王菲菲.基于作者互引分析的科学结构研究探析——以科学计量学为例[J].科学学研究,2012,(6).
[17] Yang S, Wang F. Visualizing information science: Author direct citation analysis in China and around the world[J]. Journal of Informetrics,2015,9(1):208~225.
[18] Persson O. Identifying research themes with weighted direct citation links[J].Journal of Informetrics,2010,4(3):415~422.
[19] 马瑞敏,倪超群.作者耦合分析:一种新的学科知识结构发现方法的探索性研究[J].中国图书馆学报,2012,(2):4~11.
收稿日期: 2019-04-04
作者简介: 赵浚吟(1988-),女,硕士,助理馆员,主要从事信息计量与科学评价。
中图分类号: G353
文献标识码: A
文章编号: 1007—6921(2019)15—0079—05
标签:多关系融合论文; 学术网络论文; 互信息论文; 基因编辑论文; 中共浙江省委党校图书馆论文;