基于引文内容和位置的协同引文分析改进研究_聚类论文

基于引用内容与位置的共被引分析改进研究,本文主要内容关键词为:位置论文,内容论文,共被引论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

doi:10.3772/j.issn.1000-0135.2013.12.002

1973年,Small[1]和Marshakova[2]分别在研究文献的引证结构和文献分类时,同时首次提出文献共被引分析理论,作为测度文献间关系程度的一种新方法。所谓文献共被引,就是两篇(或多篇)文献同时被后来的一篇或多篇文献所引证,则这两篇(或多篇)被引证论文则存在共被引关系。共被引分析理论认为文献间共被引的频率越高,他们之间的关系也就越密切。由于方法的客观性、数据的有效性和分类原则的科学性[3],共被引思想一提出,就得到科学计量学界的关注和发展。1981年,White和Griffith[4]将文献共被引理论拓展到作者共被引研究。作者共被引分析所揭示的是共被引作者研究领域的相似性。如今,文献共被引分析和作者共被引分析已被应用在很多领域中[5-9]。

然而在绝大多数的共被引分析应用中,人们通常只是单纯使用共被引的频次(即共被引的施引文献篇数)来表示共同被引证的两篇文献的共被引强度,没有考虑到共被引的两篇文献在施引文献中的位置关系,如当两篇文献同时在一篇文章中被引用时,它们出现在文章中的同一句话(句子层次共被引)中或是不同章节(文章层次共被引)中时,这两篇被引文献之间的关系是有所差别的。发生在同一句子中的共被引关系通常要比发生在不同章节中的共被引关系更紧密些。将不同层次的共被引关系相应地设置不同的权重,再对文献进行共被引聚类,有助于增强聚类内部被引文献间的相关性,有效挖掘聚类主题。本研究则从引用上下文(通常是一句话)的文本本身出发,提出一种基于引用内容相似度的计算方法,对不同层次的共被引关系进行权重赋值,进而提升聚类效果。

1 引用位置与内容相关研究

本文中的引用位置指的是一篇文献被引用时,施引作者在文章中使用这篇文章的具体位置,通常采用施引作者引用参考文献时所使用的参考文献标识(引用标签)位置来判断引文的引用位置。而本文重点研究的并不是单篇引文在施引文献中的引用位置,而是研究两篇文献在施引文献中的位置间的距离,即两篇文献的引用标签间的相对位置,本文将两篇引用间的相对引用位置限定为四个层次,分别为句子层次、段落层次、章节层次和文章层次,如两篇引文的引用标签如果出现在同一个句子中,那么称它们的这次共被引关系为句子层次的共被引关系。如前文所述,在不同位置层次的共被引,共同被引用的文献间的关系程度是不同的。共被引分析时,考虑共被引发生的位置层次,可以更精确地揭示共被引关系。Boyack[10]采用共被引位置信息来提高共被引聚类效果。他们发现,加入共被引位置后的共被引聚类效果比传统共被引聚类提高30%。许多学者也研究发现,不同位置层次的共被引关系会给共被引分析及检索结果带来一定的影响[4,11-14]。Gipp和Beel[13]根据共被引发生位置,将共被引关系划分为5个层次,分别是相同句子层次共被引、相同段落层次共被引、相同章节层次共被引、相同期刊层次共被引、相同期刊不同版本层次共被引,将相同句子层次的共被引关系权重设置为1,以下分别为1、1/2、1/4、1/8和1/16。他们还采用相关文档检索的方法来验证位置层次赋值和共被引效果的有效性,结果发现,加入共被引权重后的检索效率要比传统未加入权重的检索效率提高2倍。Callahan[11]也采用了类似的方法来计算共被引关系强度,将全文层次的共被引权重赋予1,共被引层次每深入一层,共被引权重加1。Eto[15]则将共被引划分为4类,分别是同引用标签共被引、同句子共被引、同段落共被引和不同段落共被引,权重值分别赋为4、3、2、1。同时他考察了引用位置在信息检索中的应用,发现加入共被引权重后,对信息检索效果有明显提高。Elkiss[12]也将共被引划分为四个层次,但分别是句子层次共被引、段落层次共被引、章节层次共被引和文章层次共被引。同时他发现的两篇共被引的文章,共被引距离越近,文章间越相似。例如发生在句子层次上的共被引文献之间的关系要强于发生在章节层次上的共被引。笔者在之前的研究[14]采用此种层次划分,并发现句子层次上的共被引在共被引网络中占据重要地位,主要分布于传统共被引聚类的核心位置。

本文中,笔者仍采取这种共被引的位置层次划分,即根据共被引的两篇文章在施引文献中的位置,将共被引关系划分为四个共被引层次,分别是文章层次共被引、章节层次共被引、段落层次共被引和句子层次共被引。图1中是一篇文章的结构示意图,一篇文章包含多个章节,每个章节包含多个段落,每个段落由多个句子构成,图中A、B、C、D、E、F分别表示出现在每个句子中的引文,如果引文出现在同一句子中,那么称这两篇引文的共被引是发生在句子层次上的共被引,如引文A与引言B的共被引关系即为句子层次共被引;如果两篇引文的共被引位置在同一段落但不在同一句子中,称这次共被引是发生在段落层次上的共被引,如引文A与引言C的共被引关系为段落层次共被引;如果两篇引文的共被引位置在同一章节,但不在同一段落中,称这次共被引是发生在章节层次上的共被引,如引文C与引言D的共被引关系即为章节层次共被引;如果两篇引文的共被引位置发生在不同章节中,称这次共被引是发生在文章层次上的共被引,如引文D与引言E的共被引关系即为文章层次共被引。在计算共被引位置时,如果两篇被引文献在同一篇文献中多次出现,那么他们的共被引层次只考虑距离最近的一次共被引。例如两篇被引文献在同一篇文献中既有句子层次的共被引,又有段落层次上的共被引,计算他们的共被引位置时,将其视为一次句子层次上的共被引。

由于发生在不同位置层次的共被引的两篇文献关系紧密度不同,因而在计算共被引强度时,需要对不同的位置层次赋予不同的权重,这也是位置层次划分的主要目的。虽然有的学者已经尝试对不同位置层次的共被引关系赋予不同权重值,并且不同研究者的共被引权重赋值方法不同,结果却都验证了这种赋值方法的有效性。不过,人们很难判断哪种赋值方法更准确合理。因为他们均认为距离近的共被引文献在原文中的引用主题更接近,因而赋值的基本原则都是赋予距离近的共被引关系较高的权重,而具体的权重值也常是主观经验赋值。事实上,距离更近共被引关系强度更高,确实是我们的常识理解,也符合文章撰写及其语义结构的现实情况。但是不同领域中,共被引位置对共被引强度的影响是有差别的。更重要的是,通过主观判断对共被引权重赋值,缺少合理依据,方法不够准确。对此,本文提出一种基于引用内容相似度的共被引权重赋值方法。

引用内容(citation context),也称引用上下文,是指一篇文章在引用其他文献时,引用参考文献标识附近的上下文。例如当一篇文献写作过程中,需要引用一篇关于BLASTX工具的文献时,作者在文章中会写到“这个实验采用BLASTX工具来完成[18]”这句话来引用参考文献“[18]”,那么这句话就是参考文献“[18]”的引用内容。Small[16]也将引用内容定义为“the text surrounding the references”,即参考文献周围的文本内容。作者进行引用行为时,通常会对被引文献的内容进行简单扼要的概括,而这些来自施引文献的内容概括是对被引文献原始文本内容很好的扩展,常常包含了原文所没有的信息和特征项[17]。因而可以通过引用内容的主题和语义分析来揭示被引文章的属性和功能[18],挖掘引文内在的本质。由于引用内容的优点,它在科技文献的概要抽取和主题概述研究中都有较多应用19-23]。同时引文内容也被应用于共被引的研究中,有的学者直接利用引用内容挖掘,来分析施引文献共同引用了哪些主题[24,25]。从表现形式上,一篇引文的引用内容指的是施引文献中引用这篇文章的句子集合,可以是参考文献周围的多句话,也可以是一句话。基于研究需要,本文将后者定义为引用内容的语句范围。

图1 共被引文献的位置划分

就已有的研究文献来看,引用内容和引用位置通常是分开研究的,很少有人将这两方面相结合,进行文献共被引的研究。然而引用发生的位置与引用的具体内容之间必然存在一定关系,如发生在同一句子中的共被引,它们的引用内容相关性通常会比发生在同一章节中的共被引内容相关性大。本文从一篇引文的上下文即该引文标识于施引文献中所在的句子入手,通过主题词的抽取和内容相似度的计算,对发生在不同位置的共被引赋予权重,同时也探查被引文献共被引的位置与引用的具体内容间的关联性。

2 引用位置获取与内容相似度计算

本文数据来源于Pubmed Central全文数据库,在此数据库中,提供每篇文章的XML全文文档,在每个文档中,每条参考文献信息都可以在全文中找到对应的引用位置,图2为一篇文档的XML结构,引文信息与引文在文章中的位置是通过引文标签联系起来的,引用位置获取主要通过三个步骤实现:

1)将一篇文章的正文内容进行切分,分别对章节、段落和句子进行编号,如一篇文章包含4个章节、20个段落和500个句子,那么章节、段落和句子编号分别为1~4、1~20和1~500。切分后每个句子都有一个对应的句子、段落和章节编号,将句子信息和这些位置信息存储在数据库表中,表名为Content:

2)根据每篇引文的引文标签,查找文章中包含该引文标签的句子,将句子信息与引文信息同时存储在数据表中,表名为Reference

3)在数据库中根据句子信息,将Content表和Reference表联合起来,就可以得到每篇引文在文章中所在的位置,如引文出现在第几章节、第几段落以及第几个句子中。

在具体计算出现在同一篇文章中的两篇引文的共被引层次时,只需对比数据库中两篇引文的位置信息中,句子编号、段落编号和章节编号是否相同即可。

图2 XML全文文档结构

在计算引用内容相似度时,传统的文本相似度计算方法通常采用向量空间模型来实现。由于本研究将引用内容定义为包含参考文献标识的一个句子,而每个句子中的主题词比较少,并且存在较多句子间没有相关性的情况,因而本研究不太适合采用向量空间模型方法,只能通过主题词的相似性来判定句子的相似性。因此,计算内容相似度,首先需要从全文层面构建目标数据集,抽取合适的主题词。具体来说,先利用斯坦福大学开发的词性标注系统对引用内容进行词性标注处理,然后抽取所有的名词作为主题词备选集。然后对这些主题词进行词干化。利用Porter Stemming软件对主题词集进行词干化,合并主题词集,并删除主题词集中的停用词,比如一些常见词如“data”、“method”、“analysis”等。

在抽取有实际意义的主题词并构建出新的主题词集后,如果两句话中含有相同的主题词,则将这两句话视为相似;如果两句话中不包含相同的主题词,则将这两句话视为不相似,如公式(1)。

Similarity(CA,CB)=

{1,CA and CB contain the same topic words

0,CA and CB do not have the same topic words (1)

例如,以下三个句子是发生在同一篇文章中的“背景”章节中的三篇引文的引用内容,在计算它们之间的引用内容相似度时,句子(a)和句子(b)中都包含主题词structure和sequence,因此根据公式(1)可知,它们之间的相似度为1,而句子(a)和句子(c)之问并没有相同的主题词,它们之间的相似度为0,同理句子(b)和句子(c)之间的相似度也为0。

(a)The main task of structural genomics is to combine available data on genes and gene products such as structure,sequence,function and chromosomal proximity in a meaningful way so as to procure biological insight

(b)Efforts to annotate function based on structure and sequence homology alone are complicated and more often than not lead tomis-annotations

(c)Seeking evolutionary justification for organization of data has been adopted by many databases

计算出两篇共被引文献引用内容的相似性后,还要考察在一个共被引层次中整体的相似情况,即计算出某一共被引层次上共被引对的平均相似度。假设在某一共被引层次上发生了N次共被引,其中有M次的共被引具有相似关系。那么发生在这个共被引层次上共被引对的平均相似度为M/N。这就意味着如果两篇文献在这个层次上有一次共被引,那么他们具有相似性的概率为M/N。本文也将采用各个层次中共被引内容的平均相似度来表示引用具体内容与共被引位置的关系,而这些共被引相似性概率即为各共被引位置层次上的权重。

所有发生在句子层次上的共被引文献,由于其引用内容是同一个句子,在计算相似度时,其引用内容中所包含的名词也相同,因而其共被引的内容都是相似的,即在句子层次上的共被引内容相似度为l。其他三个层次上的共被引内容相似度一般都会小于1。

3 共被引权重设置的效果验证方法

由于通常采用共被引聚类方法来展示和分析共被引的结果,因而可以采用共被引聚类结果来验证共被引权重设置的有效性。共被引聚类结果通常有两方面应用,一方面是揭示共被引文献间的内在联系,从而挖掘知识基础的学科结构,另一方面通过共被引聚类中施引文献的标识词分析,揭示学科领域的研究前沿[6]。当对每个层次的共被引加入权重后,共被引文献间的关系强度将会发生改变,进而导致共被引聚类结果也会发生一些变化。这些变化可能会对共被引文献间关系有一定影响,同时也会对揭示施引文献前沿产生一定影响。

3.1 共被引文献相似度计算

为了比较赋权重后的共被引关系与传统共被引关系的差别,本文采用层次聚类法,分别对赋值后的共被引关系和传统的共被引关系进行聚类。在进行共被引聚类之前,首先需要构建共被引相似矩阵,矩阵中的共被引文献相似性不仅与文献的共被引强度有关,还与共被引文献各自在数据集中的被引频次有关。在传统共被引聚类中,各个文献间的相似性计算如下公式(2):

上述公式(3)所得到的共被引强度理论上是要小于两篇文献的共被引频次,因为除了句子层次共被引,发生其他同层次共被引关系权重都小于1。只有当各个层次上的共被引权重都为1时,共被引强度等于两篇文献的共被引频次。加入权重后得到的共被引文献相似度计算公式(4)。

3.2 共被引聚类结果验证

加入共被引关系权重后,由于相似矩阵发生变化,得到的共被引聚类与传统的共被引聚类结果也会有些差别,会有一些文献从一个聚类调整到另一个聚类中,从而导致各个聚类中所包含的结点也有一定变化。图3中列出一个变化实例,传统聚类结果得到的两个聚类A和聚类B分别包含5个文献(变化1~5)和4个文献(编号6~9)。加入共被引权重后,文献“5”从聚类A中变换到聚类B中。这些变化会对传统聚类带来什么样的影响呢?笔者主要通过两个角度来验证这种聚类的影响,一方面通过共被引聚类中文献内容相关性来判定,另一方面通过聚类的施引文献变化来判定。

图3 共被引权重设置后的共被引文献的聚类调整

(1)共被引文献内容相关性判定

Boyack等[12]就是利用共被引文献内容相关性来比较聚类效果的,首先计算各个聚类中文献之间内容的相关性,其次计算加入共被引权重后,聚类增加或删除节点后,聚类中文献内容相关性的变化。最后比较传统聚类与加入共被引权重聚类后各个聚类中文献内容相关性的变化,进而验证加入共被引权重后共被引结果的变化。本文比较聚类内容相关性是采用如下步骤(以图2为例):

①从聚类A和聚类B中包含的所有文献中抽取名词短语集合,名词短语来源于文献的摘要。

②将聚类A和聚类B中包含的所有文献转换为名词短语向量模式Document{(Word1,Freq1),(Word2,Freq2)…}

③计算加入权重后变化的文献“5”与聚类A和聚类B中各个文献的向量距离,文献“5”与聚类A和聚类B的相似度分别用它与聚类中文献的平均向量距离来表示。

④比较加入权重后的共被引聚类与传统聚类在共被引文献内容相似度上的差别。

(2)共被引聚类施引文献变化判定

加入共被引权重后,聚类结果发生变化时,各聚类的施引文献也会随之发生一些变化。这些施引文献通常用来表示各个聚类所揭示的研究前沿,可以通过追踪施引文献的变化,来揭示聚类效果的变化。图4显示了当一篇引文加入某一共被引聚类后,该文对施引文献集合的影响。C1表示共被引文献的聚类,S1是聚类C1的施引文献集合。当一篇文献R1加入到聚类C1中时,同时引用文献R1和聚类C1中的文献的施引文献构成一个新的施引文献集S2。集合S3是集合S1和S2的交集。R1对聚类C1的影响实际上就是增加了S3集合中的文献的出现频次,使S3中的施引文献主题更明确。当具体计算这个影响时,还需要考虑S3中文献的原本引用频次。如果原本引用频次较高,说明S3对整个施引文献集合S1的贡献较大,那么R1的加入会使S3对S1的贡献变得更突出。因此,R1对聚类C1的影响可以通过S3对S1的影响来计算。在计算S3对S1影响时,仍然采用余弦相似度的方法计算。

图4 共被引权重设置后的施引文献的调整

4 实验与结果验证

参考文献的引用内容和引用位置需要从施引文献全文中获取,因而在统计参考文献信息的同时,本研究还需要爬取施引文献全文信息。基于此,笔者采用PubMed Central全文数据库,以BMC Bioinformatics、BMC Systems Biology和BMC Biology三本期刊全文数据为具体实验对象。三本期刊中的文献数量分别为5412、905和638,文献采集年份分别为2001-2012年、2007-2012年和2003-2012年。而笔者之前的研究[11]发现,共被引位置的分布与共被引频次具有一定关联,当共被引频次较低时,共被引很少在句子层次发生。为了获得更充分的训练数据集,本文将在3本BMC期刊文献的参考文献中选取共被引频次大于或等于9次的共被引对作为实验对象,进而一共获得346条参考文献作为最终分析对象。这些文献形成680个共被引对,在3本期刊的文章中共发生6786次共被引。

本实证案例中,笔者仍采用文章层次共被引、章节层次共被引、段落层次共被引和句子层次共被引的四个位置层次划分,对每个层次的共被引对分别进行统计(表1)。其中分布在句子层次的有2131次,段落层次的有1146次,章节层次的有1150次,全文层次的有2359次。4个层次中的共被引数量都大于1000次,为共被引位置与引用内容关系研究提供良好的数据基础。根据主题词的抽取和相同主题词的比较,测算出段落、章节和文章三个层次的引用内容具有相似性的共被引次数分别为884、733和1321,进一步也推算出在各个共被引层次上的引用内容平均相似度分别为1、0.77、0.64和0.56,而这也是基于引用内容相似度的各层次的共被引权重。从结果中可以看出,共被引发生的位置越近,这些被引文献的被引内容越相似。同时,这些权重值与Gipp[13]和Callahan[11]中主观设置的权重值也有明显差别。两项研究均主观认为发生在不同章节中的共被引对之间应该很少有联系,而将发生在全文层次上的共被引都赋予很小的权重值,如1/4或1/8。但本研究发现,即使发生在文章层次上的共被引关系,被引内容相似性的概率也可以达到56%。

本实验选取的共被引频次大于或等于10次的共被引文献。层次聚类法所得到的聚类结果是树状聚类图。聚类数量由各聚类间的距离阈值来控制,当阈值设置越小时,聚类结果划分越详细,聚类数量也就越多,但每类中节点数量就会很少,导致聚类效果不明显。为达到比较明显的聚类效果,本实验选取较大阈值来划分聚类。聚类结果发现,加入共被引权重后的聚类结果与传统共被引聚类结果有比较明显的差异。

表2是参考文献“VON MERING C,2002,NATURE,V417,P399”在加入共被引权重前后,所在聚类的变化情况。加入基于引用内容相似度的共被引权重后,该文献从之前的拥有11个节点的大聚类转变到拥有3个节点的小聚类中。这篇文献与传统共被引聚类中的文献间的平均相似度为0.6398,与加权后的聚类中节点间平均相似度为0.7258。同时这篇文献对传统聚类的施引文献影响率为62.1%,对加权后聚类的施引文献影响率为86%。无论从被引文献内容相似性角度,还是从对施引文献影响角度,加入权重后的聚类结果都优于传统聚类结果。

同样,表3列出的是参考文献“BOECKMANN B,2003,NUCLEIC ACIDS RES,V31,P365”在加权前后,所在聚类的变化。该文献从拥有9个节点的聚类中,转移到拥有7个节点的聚类;与传统聚类文献间的平均相似度为0.2194,与加权后聚类文献间的相似度提升到0.4824。该文献对传统聚类的施引文献影响率较低,为16.3%;转移到加权的聚类后,施引文献影响率提高到22.2%,虽然影响率也不高,但与传统聚类相比,还是有提升。通过这两个实例可以看出,加入共被引权重后,聚类效果要明显优于传统共被引聚类结果。

5 结论与展望

根据共被引文献在施引文献中的位置,本文将共被引划分为句子共被引、段落共被引、章节共被引和文章共被引4个层次。以共被引文献的引用内容相似性为基础,分别对4个共被引层次赋予权重,并探讨了共被引位置与引用内容间的关系。随后以3本BMC期刊为实验对象,得出这3本期刊中4个共被引层次的权重。结果显示,共被引文献在施引文献中的位置越近,获得的权重越大。加入共被引权重后,共被引聚类结果发生比较明显的变化。通过对共被引聚类内容相似性和对聚类施引文献影响两个视角的分析,发现加入共被引权重后,聚类效果要比传统共被引聚类效果有所提高。

过去几十年,文献计量学由题录分析发展到引文分析阶段,研究对象也由单元文献的信息统计发展到文献间的关联测度。引文分析利用引文数据库,通过对直接引用或共引的频次的统计和测算,来挖掘学科领域的发展脉络、知识结构和前沿热点。然而,传统的引文分析由于数据本身的局限,只能进行基于引用频次的计量或进行文摘层面的简单知识挖掘,并不能反映文献引用的位置层次和具体内容。在互联网时代,结构化全文数据的出现和易得,为进行全文层次的引文分析和知识挖掘提供了可能。本文中的共被引权重是从3本BMC期刊中训练得到的,并只适用于这3本期刊,但这种基于引用内容相似性的权重赋值方法是可以扩展到其他数据样本和应用领域的。接下来,笔者也将优化引用内容相似性的定义和相似度的测算方法,使得位置赋值更加科学,增加共被引聚类中文献间的关系紧密度,提高文献聚类效果。

标签:;  ;  ;  ;  ;  ;  ;  

基于引文内容和位置的协同引文分析改进研究_聚类论文
下载Doc文档

猜你喜欢