面向引用关系的引文内容标注框架研究,本文主要内容关键词为:引文论文,框架论文,关系论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2014-07-31 分类号 G353.4 0 引言 引文在科研文献中十分普遍,扮演着重要的角色。作者在撰写的论文中引用他人的研究成果,一方面体现了作者对该成果的重视和兴趣,另一方面也在自己的研究成果中融入了他人的思想和方法[1]。鉴于引文的重要价值,相关的理论和应用得到广泛研究,其中一个重要方向是通过引文来度量学术成果的学术影响力,如文献被引频次及由其衍生的H指数[2]、期刊影响因子[3]等是目前主要的学术影响力评价工具。传统的引文分析将文献与文献之间的引用关系抽象为简单平等的线性关系,通过一篇文章被引用的频次来表示该文章学术影响力的高低。借助于这种对文献之间关系的简单表述,大规模的文献引用网络构建和文献评价成为可能。其实,作者在撰写文章过程中引用参考文献是一个复杂的过程。传统的引文分析方法只能告诉读者哪两篇文章之间具有引用关系,不能说明被引成果对于施引文献的具体贡献以及重要性,这种对引用关系的简化处理无法展示科研文献网络的真实情景。 事实上,引文不仅仅为相关文献建立了联系,通过深入分析引文的上下文内容可以从语义角度对文献间的引用关系进行理解。结合定性和定量方法对引文内容进行研究,描绘出施引文献和被引文献之间具体的情境关系,可以弥补传统引文分析中忽视引文语义细节的不足[4]。这些语义细节包括被引文献对于施引文献的作用、作者引用时的情感倾向等。大量基于引文内容的研究工作陆续开展。如Small[5]评估了使用文献被引数量评价其学术影响力的可靠性。Oppenheim和Renn[6]、McCain和Turner[7]等结合引文内容研究了高被引文献所具有的被引特征。Hanney等[8]利用引文分类评估卫生领域研究成果的影响力,包括对这些成果在跨代引用过程中的影响力演变进行跟踪。利用引文内容还可以对引文索引技术进行改进。Garfield[9]对作者的引用意图进行归类,探讨引文索引自动化构建的可行性。类似的,Lipetz[10]和Finney[11]通过引用分类提高引文索引中文献之间的区分度。 在引文自动化处理方面,谷歌学术、中国知网等已有文献检索系统普遍只是对文章中的参考文献进行抽取,并在此基础上构建由单一引用关系组成的引文网络,缺乏语义层面的引文关系分析。随着自然语言处理和文本挖掘技术的成熟,从大量科研文本中自动化抽取语义信息成为可能,诸多学者在引文功能分类[12-14]、引文情感识别[15-16]、引文上下文抽取[17]等方面取得了初步成果,为实现更深层次的科研文献语义信息抽取提供了良好基础。 为更好地支持文献语义关系挖掘,将自然语言处理、机器学习技术引入引文内容分析,需要一个系统的引文内容标注框架。本文通过对相关研究进行全面的调研和梳理,总结了目前引文内容分析研究中标注体系的优势和不足,认为已有分类体系缺乏对被引文献重要性及引用对象的重视。本文针对上述两点不足提出了一套引文内容标注框架:一方面结合参考文献对施引文献的重要性,对以往相对独立的功能类目进行组织;另一方面在框架中加入对引用对象及其类型的标注。同时本文利用提出的框架进行了初步的标注实验,验证了引文内容标注框架的可用性。 1 相关研究 引文在科研文献中十分普遍,体现了后来研究者对先前研究者成果的借鉴和认可,也为文献和文献之间建立了一条知识传递的纽带。传统的引文分析往往将文献与文献之间的引用关系简化为平等的线性关系,通过文章的被引数量来度量学术成果的影响力。然而随着研究的深入,传统的引文分析方法受到一些学者的质疑[18-19]:评价学术成果影响力不能单纯依靠文章被引数量这种简单的定量指标,简化的引文关系无法表现引用行为中的复杂意义。学者开始尝试结合语言学的研究方法,将研究深入到引文内容以解决上述问题[5,19]。引文内容分析,即基于引用句及其上下文内容对引文的性质进行分析,它通过引文内容的语法和语义特征,将被引文献对施引文献支持的作用和程度进行区分,深入探讨施引文献与被引文献之间的语义关联,进而揭示引文行为的本质。 由于引文内容的形态和特征各异,因此在实施引文内容分析之前,需要有针对性地制订一个引文分类体系,然后按照引文的对应特征对引文进行归类和分析。国外相关研究始于20世纪60年代。1965年,Garfield[9]提出了15种作者的引用动机,以探讨构建自动化引文索引的可行性。Lipetz[10]定义了4组(施引文献的原创贡献、非原创贡献、一致性关系、施引文献对被引文献的情感)共29项特征,以提高学术引文索引中不同文献的区分度。Finney[11]也以此为研究出发点,结合特征词和引文位置两个主要特征,设计了一个7类的分类体系。Herlach[20]创建了一个分类体系试图描述文献之间所有可能的关系,并发现如果一篇参考文献在文章中被多次提及则体现了其对原文具有较高的重要性。Frost[21]对参考文献的来源和情感倾向进行组合分类,研究作者的引用行为是否受到客观环境的影响。Oppenheim和Renn[6]为研究高被引文献被引用的原因,定义了一个包含7个类别的分类体系,包含背景、描述、对比、否定等类别,相比先前的体系更加清晰可用。Spiegel-Rosing[22]研究了文献中引文的功能分布,构建的13类分类体系具有良好的操作性。Moravcsik和Murugesan[23]尝试比较不同参考文献的质量,构建了一个基于二元选择的标注体系,很好地增强了标注者的判断力。Chubin和Moitra[24]将Moravcsik和Murugesan的方案合并为6个类目,将这6个类目按照从肯定到否定、从本质到补充、从基本到附属的角度进行了组织。总体而言,学者根据不同的研究目的提出了不同的分类体系,但也造成了一定的混乱。主要问题如Swales[25]指出,“大多数分类标注体系的跨领域适用性较差,并且需要标注者具备一定领域知识才能掌握”。Zhang等[4]构建了一个引文内容分析框架,试图解决目前引文分析研究中数值特征、语言特征以及社会文化特征研究之间分离的现状,为进一步引文分析研究提供了良好基础。 尽管许多学者试图通过引文内容对传统引文分析进行拓展,然而耗时的手工标注、格式化数据获取困难等问题阻碍其进一步发展和应用。如今,随着文献存储和检索技术的长足进步,学者开始尝试从自动化角度对引文内容进行研究。Garzone[12,26]较早尝试运用自动化技术对引文功能进行分类,列出35个类别并手工设定对应的规则,但该方法难以达到很好的召回率。Nanba和Okumura[27]设定了一个只有3类(基于、对比、其他)的简单体系以提高分类的准确性。Teufel[13,28]修改了Spiegel Rosing[22]的分类体系,并使用机器学习方法改善引文功能分类的效果。Radoulov[14]修改了Garzone的分类方案,同时在体系中加入了引用对象的类型标注。此外,Iorio等[29]结合本体概念构建一个较为全面的引文分类体系。Xu等[30]创新性地将引文网络性质作为特征以期提高引文分类的准确度。除去引文功能分类之外,针对引文内容的自动化研究还包括自动摘要[31-33],信息检索[34-38],引文上下文识别[17,39]等方面。运用自动化技术对引文内容进行分析得到广泛认可,也将有更多相关成果出现。 国内也有一定数量的研究成果深入引文内容研究引文的相关性质。崔红[40]概括了11种引用动机,通过直接调查的方式获取数据,对科研学者的引文动机进行聚类分析。叶继元等[41]对负面引用现象进行了研究。陈晓丽[42]对引文的引用方式、内容类型以及引用力度进行了较为全面的分析,为后来研究者制定引文分类体系提供了良好的支持。赵青[43]从引用性质和引用深度两个角度对引文行为进行定性分析,引用性质体现作者的引用情感,引用深度体现参考文献与施引文献研究工作之间相关性的高低。文献评价方面,胡志刚等[44]以被引文献在文章中出现的引用次数作评价指标,显示出一定的应用价值,刘盛博等[45]利用引文分类改进了传统的引文评价机制。此外,祝清松等[46]对目前引文内容分析工作进行了综述。 2 引文内容标注框架设计 Zhang等[4]在研究中指出,实施引文内容分析的主要步骤是:首先对科研文献中的引文上下文内容进行识别和提取,其次需要制订一个支持进一步分析的标注体系。然而制订一个综合全面而不琐碎复杂的标注体系并非易事。一个组织分类合理且能够全面表示引文特征的标注框架尤为重要,本文对目前影响力较大的引文分类体系研究成果进行整理,并按照其分类所依据的维度,将已有体系归为四类。 (1)引文功能 体现被引文献在施引文献中的作用、功能,是最为主要的分类维度。代表成果有Oppenheim和Renn[6]、Spiegel-Rosing[22]、Moravcsik和Murugesan[23]等人的研究。 (2)引文重要性(引文质量) 体现被引文献对施引文献的重要性。代表体系有Cano[19](定义4个重要性等级:本质、核心、有限、外围)、Moed[47](3个期刊间引用影响力等级)、Wan[48](5个参考文献重要性等级)等人的研究。 (3)情感倾向 体现施引作者对被引文献成果的情感倾向。代表成果有Athar[15](4类情感分类:积极、消极、中立、无关)的研究。 (4)引用动机 体现施引作者引用时的具体动机。代表成果有Brooks[49](7个引用目的)、Vinkler[50](分为专业动机和关系动机)等人的研究。 除了单一针对其中某一个维度进行分类设计之外,部分研究还将这四个维度进行一定程度上的融合,如Teufel[13,28]在其体系中将情感倾向与引文功能进行融合。还有部分体系按照被引文献的文献类型、文献来源、引文出现位置等维度进行划分。本文认为这些维度更多体现的是引文的客观属性,故未加入讨论。更多关于引文标注体系的信息可以参见Liu[51]、Bornmann和Daniel[52]的综述成果。 先前引文内容标注体系关注的四个维度中,引文动机倾向于从施引作者的主观视角进行研究,与本文所关心的研究方向并不一致。其余三个划分维度从抽象层面分析被引文献与施引文献的联系,均揭示了引文关系的重要性,也是本文进行框架设计的主要方向。本文很大程度上受到Small[53]成果的启发,认为引用对象对于引文分析的研究具有重要价值,然而目前的成果中很少有针对引用对象的自动化研究。此外为支持进一步的自动化分析,引文内容的客观特征属性也需要进行标注。基于上述考虑,本文提出一个全面支持引文内容分析的引文内容标注框架,主要包括:①一个揭示引文关系抽象性质的引文分类体系;②一个描述被引文献具体内容的引用对象标注体系;③一个记录引文客观特征的引文属性标注体系。 2.1 引文分类标注体系 在对已有引文分类体系的整理中,本文总结出对引文进行分类的三个主要维度:引文功能、引文重要性以及引用情感倾向。在这三个划分维度中,引文功能直观体现了参考文献在施引文献中的作用,因而在大多数分类体系中处于核心位置。引用情感倾向也是学者较为关心的维度,直接体现了作者对于被引文献工作正面或负面的情感态度。由于科研文献中语言风格多为客观中立(Athar[15]在引文情感数据集构建过程中发现只有14%的引文内容中表达了情感倾向),除去少数按照传统情感识别思路研究引文情感的成果[15-16,54]之外,也有作者[28,45]将对施引文献有支持作用的重要引用列为“正向”引用,这种融合不同维度的方法提供了很好的思路。 引文重要性衡量一篇参考文献对于其施引文献智力支持程度的大小,能够帮助读者了解哪些被引成果在作者的研究中贡献了重要作用。但是引文的重要性大小难以界定,往往依赖标注者的主观判断。值得注意的是,引文重要性的高低与引文功能的分布体现了较高的相关性[8,19],这启发本文尝试将这两个维度进行结合。引文功能本身也能够体现参考文献对于原文工作支持程度的大小,例如,属于“基于”功能的文献比“相关研究”功能的文献对原文具有更高的重要性。将引文功能与引文重要性相结合,一方面通过标注功能减少单纯对重要性进行标注的模糊性,另一方面根据重要性对不同的引文功能进行排序,从而突出文章中最核心的若干参考文献。 按照上述设计思路,本文制订了一个结合引文重要性的功能分类体系(见表1),以及一个独立的作者引用情感倾向分类体系。本文参考先前工作中的类目设计并在试标注中进行调整,最终确定了15个功能分类类目。本文之所以设计一个较小粒度的功能体系,是希望展现一个深入全面的引文情景,而非为增强自动识别的准确率而在设计粒度上进行折中。标签:相关研究论文; 语义分析论文; 相关性分析论文; 文献回顾论文; 功能分析论文; 文献论文; 参考文献论文; 论文; 文献综述论文;