学术文本被引片段的自动识别研究论文

学术文本被引片段的自动识别研究*

● 章成志,徐 津,马舒天

(南京理工大学经济管理学院信息管理系,江苏 南京 210094)

摘 要: [目的/意义]目前学术文献被引片段识别研究存在两个问题:对于给定的一个引文上下文,其所对应的被引片段句子数量并没有明确的定义;构建特征中很少考虑句子中词语的语义相似度特征。文章基于以上两个角度,对已有的实验方案进行改进,旨在提高被引片段的识别效果。[方法/过程]首先,按照不同的粒度对被引文献进行句子切分,以考察不同粒度切分下被引片段的识别效果,从而确定被引片段的最佳句子数量。随后,在被引片段识别模型中加入词语语义相似度特征,即通过词嵌入进行分布式词向量表示,并依据词汇语义网络本体,度量不同句子中词语间的语义相似度。[结果/结论]实验结果表明,随着句子切分粒度的逐渐增加,被引片段识别效果呈下降趋势;另外,所增加的词语语义相似度特征能够有效地在句子间建立细粒度的语义关联,提高了模型的稳定性,从而提升了被引片段的识别效果。[局限]仅从特征构建的角度对被引片段的识别工作进行优化,提升效果较为有限。模型选择方面,仍局限于使用传统的机器学习算法,未考虑现有的深度学习算法对本工作进行改进。

关键词: 学术文献;被引片段;引文分析;文本分类;语义相似度

引文分析是文献计量学中的重要方法之一。传统的引文分析主要依据文献的被引用次数来评价其学术影响力。由于不能获取文献中与被引直接相关的文字片段(如章节、段落或相关句子),因此传统方法无法有效考察作者的引用动机。随着学术文献全文获取难度降低、自然语言处理与机器学习方法与技术的快速发展,越来越多的学者开始关注学术文献的全文本内容分析方法与相关应用。学术文献的被引片段自动识别是全文本内容分析的关键技术之一,受到文献计量、信息检索、自然语言处理等领域的共同关注。被引片段(Reference Spans或Cited Spans)是引文上下文或者引用对象在被引文献中所对应的内容[1],该内容反映文章中具有影响力的部分。如图1所示,文献A引用了文献B中“bigram”可作为词义消歧任务中有效特征的观点,其中“bigram”为引用对象,文献A中的句子为引文句,文献B中的句子为被引片段。通过研究被引片段,可以发现虚假引用,准确识别引用目的,以及生成目标文献的摘要[2]。由于被引片段存在于原始的文献中,更能够真实客观地反映原文的信息,所生成的摘要质量更高,相反,在基于引文上下文的自动摘要方法中,引文上下文在内容上存在着引文表述与原文表述不一致的情况[3],仅仅依靠引文内容无法确切地反映原文的信息,使得其应用受到一定限制。此外,由于作者在引用文章时目的不同,侧重点不同,引文的内容也因此不同[4],直接使用引文生成文献摘要将存在信息不全面的问题。

图1 被引片段示例

近年来,学术界陆续举办关于被引片段的自动摘要测评比赛,如国际文本分析会议(TAC 2014)[5]、计算语言学领域自动文档摘要测评(CL-SciSumm 2016[6]、CL-SciSumm 2017[7]、CL-SciSumm 2018[8])。不同于传统的自动摘要测评,该类比赛是以被引片段的识别作为首要任务,并在此基础上生成目标文献的摘要。目前研究人员提出的被引片段的识别方法[9-11],识别效果仍有待提高。在CL-SciSumm 2018测评中,识别准确率最高值仅为14.6%[11]。目前研究工作存在两方面问题:首先,在有关被引片段识别的研究中,对于单个引文上下文所对应的被引片段,其句子数量并没有明确定义;其次,构建特征中很少考虑句子中词语的语义相似度特征。针对以上两方面问题,本文在马舒天等研究[12]的基础上,基于不同的粒度对被引文献进行句子切分,得到具有不同句子数量的候选被引片段,通过比较模型得到各类候选被引片段的识别效果,来确定其最佳句子数量;另外,在确定最佳句子数量的前提下加入词语语义相似度特征,即通过词嵌入进行分布式词向量表示,并依据词汇语义网络本体,来度量文本的语义相似度。实验结果表明,随着句子切分粒度的逐渐增加,被引片段识别效果呈下降趋势,词语语义相似度特征不仅使识别效果有所提高,模型也更加稳定。

1 相关研究概述

目前,被引片段的识别方法主要分为两类,即:基于信息检索的方法和机器学习的方法。

2)抱杆整体需采用全绝缘材料。目前中国带电作业使用的绝缘材料包括绝缘板材、绝缘管材、塑料薄膜、橡胶等,其中,绝缘管材这种层压制品由于具有良好的电气绝缘性能、机械性能及理化性能,因而广泛用于各类绝缘工具制作。综合考虑性能、经济性、加工方便性等方面,选择环氧树脂绝缘管材进行加工制作。

基于信息检索的方法,是对被引文献中的所有句子按照与引文句的相似性或重要性排序,选择排名靠前的句子作为被引片段。基于相似性排序的方法认为,被引文献中与引文上下文相似度越高的句子为被引句的可能性越高,而基于重要性排序的方法认为,被引文献中越重要的句子越有可能被其他文献所引用。2014年,Klampfl等先是根据与引文上下文的相似性对句子赋予权重,在此基础上,使用随机游走过程确定句子的最终权重,从而完成句子排序[13]。同年,Cohan等先是使用向量空间模型将文本进行向量表示,并在此基础上计算引文上下文与被引文献中句子的相似度,最后使用基于伪相关反馈的重排序技术对所有的句子进行排序[14]。2014年,Molla等对引文上下文进行扩充,在对传统的TF-IDF进行改进的基础上,选取相似度最高的前三个句子作为被引片段[15]。2016年,Nomoto等将被引片段的识别转化为问答系统问题,即将引文上下文视为问题,将被引文献中的句子视为答案,一方面使用词袋模型来计算文本之间的相似度;另一方面使用神经网络来预测文本之间的相似性,并将两者进行融合,从而识别被引片段[16]

基于机器学习的方法将被引片段的识别问题转化为被引文献中所有句子的二元分类问题,即判断所有的句子为被引片段或者非被引片段两个类别。在分类模型选择方面,支持向量机[17]、决策树[18]和Logistic回归[19]等以及相应的改进方法,已被广泛使用,如Yeh等使用K近邻、决策树、支持向量机和朴素贝叶斯,取得较好的结果[20]。在特征选择方面,主要包括基于位置信息的特征和基于相似度的特征。在CL-SciSumm 2016测评中,Li等使用了引文句与候选句子的相似度、句中的词法特征两种类型特征[21];Aggarwal与Sharma等主要以Bigram来度量句子间的相似程度,并将其作为分类器特征[22]。此外,基于句子的TF-IDF余弦相似度,句子在文章中的各种位置信息、词法特征以及句法特征等,都常被用来作为衡量句子相似程度的指标[12,23]

与本研究直接相关的是马舒天等的工作[12,24]。文献[12]先是对不同的分类模型赋予不同的特征,之后使用人工设定的集成方案对所有结果进行集成,取得了较好的识别结果。然而该研究还存在两个问题:①该方法通过人工指定每个分类器的权重,缺乏一定的说服力和合理性;②对于实验数据中类别间数据量不平衡问题,该实验只是通过调试参数来减弱该问题对结果的影响,缺乏更为有效的方法。文献[24]在文献[12]的基础上,对特征选择进行优化,从算法层面以及数据层面,解决类别间数量不平衡问题,并且根据单个分类器的效果重新确定集成方案。本研究同样在文献[12]的基础上进行改进,不同的是,本研究聚焦于被引片段的最佳句子数量的确定,并在计算文本相似度时考虑词语的语义信息,以提高被引片段识别效果。

2 研究方法

2 .1 研究思路

本文将被引片段识别问题转化为:寻找被引文献中与引文句最为相似的句子。具体思路如图2所示。首先,对测评语料进行分句、去停用词和取词干等预处理;其次,抽取候选句的特征,并针对不同的基分类器构建特征集合,之后利用训练集对基分类器进行训练;最后,依据集成学习方法对不同基分类器在测试集上的分类结果进行集成,得到被引片段识别结果(以上内容对应2.3.1~2.3.2小节)。

本文使用机器学习分类算法来进行被引片段的识别研究,被引文献中所有候选句的识别结果包括两个类别,即被引片段(正例)和非被引片段(负例)。

图2 本研究基本思路

2 .2 实验数据概述

本研究使用的数据为CL-SciSumm 2017所提供的数据集(https://github.com/WING-NUS/scisumm-corpus)。该数据集来源于国际计算语言学协会年会(ACL)论文集,其中,训练集包括30篇被引文献与每篇被引文献所对应的10余篇施引文献,测试集包括10篇被引文献与每篇被引文献所对应的10余篇施引文献。测评举办方通过人工方式从数据集中抽取引文句,再通过人工阅读方式在被引文献中标出其对应的被引片段。除了给出被引文献和施引文献的全文信息,数据集还包括每篇被引文献被其他多篇施引文献所引用的具体信息。

图3为一条实验数据样例,其中包括:引文编号(Citance Number)、被引文献(Reference Article)、引用文献(Citing Article)、引用标记偏移量(Citation Marker Offset)、引用标记(Citation Marker)、引文偏移量(Citation Offset)、引文句(Citation Text)、被引偏移量(Reference Offset)、被引片段(Reference Text)、论述类型(Discourse Facet)、标记人(Annotator)[25]。其中,在Citation Text和Reference Text下存在两个属性sid和ssid,sid表示句子在全文中的序号,ssid表示句子在其所在段落中的序号。

图3 CL-SciSumm 2017数据样例

图2斜体部分为本文主要创新工作,即在预处理阶段考虑不同句子切分粒度(对应2.3.3小节),在特征构建中引入两种新的词语语义相似度特征(对应2.3.4小节),旨在优化被引片段识别效果。

2 .3 关键技术描述

2.3.1 被引片段识别模型的构建 文献[12]通过实验筛选出4个表现最优的基分类器,即支持向量机(线性核)、支持向量机(径向核)、决策树和Logistic回归。每个基分类器中使用的具体特征及其权重如表1所示。本文在表1基础上,进一步引入词语语义相似度特征,考察它们对引文片段识别效果的影响,2.3.4小节为具体描述。

1.3.3 试验设施时间。甜瓜、西瓜于2012年1月下旬育苗,3月11日定植;红香芋于2月20日定植。

绿林地生境中,群落稳定性(B1)受乡村性影响明显,原因可能是较多经济林被绿化景观林所替代,导致了物种多样性、结构丰富度、林冠郁闭度、种群更新潜力、生长势的全面降低。物种丰富度均值由10.05降低为9.56,复层数均值由2.95降低为2.5,林冠郁闭度由61%降低为53%。村落中原有的经济林如散生竹林、香樟(Cinnamomum camphora)林、榉树(Zelkova serrata)林等由于群落发育时间较长,具有比较高的群落稳定性和典型性,应予以重视和保护。

表1 文献[12]基分类器所使用的特征及其权重分配

注:sid—候选句在全文中的序号;ssid—候选句在其所在段落中的序号;Bigram—对候选句和引文句进行二元分词,匹配两者二元词组,若匹配成功,值为1,否则为0;Jaccard相似度—将候选句和引文句视为单词集合,计算两个集合间的交集与并集的比值;LDA相似度—依据文本的主题对其进行概率分布表示,计算候选句向量和引文句向量间的余弦值;IDF相似度—利用向量空间模型表示文本,用逆文档频率表示词语权重,计算候选句和引文句向量间的余弦值;TF-IDF相似度—利用向量空间模型表示文本,用文档频率乘逆文档频率表示词语权重,计算候选句和引文句向量间的余弦值;Doc2Vec相似度—通过深度学习算法Doc2Vec对文本信息进行低维稠密的分布式表示,再计算候选句和引文句向量间的余弦值。

本文主要从两方面解决该问题。首先是数据采样,为保证正负例相对平衡,根据正例样本的数据量,随机抽取相应倍数(T )的负例样本;其次是算法层面,在模型训练过程中引入惩罚因子(p )[27]。惩罚因子表示在数据样本点中对少数类别的重视程度,惩罚因子越大,意味着对该类别重视程度越高,容错度越低。惩罚因子能够削弱多数类别的权重,使得类别间的重要性相对一致,在分类问题中,常被用来解决数据集偏斜问题。通过以上两种方法,能够一定程度上减少非均衡样本对分类结果造成的偏差。实验结果受倍数(T )的影响(过大造成数据冗余,训练数据不均衡,过小则造成信息丢失),文献[12]中所使用的倍数(T )为4.5、5.5和6.5三个孤立值,本文将倍数(T )的范围设为[4,8],步长为0.5,惩罚因子(p )的取值与倍数(T )相同。

(1)

设置阈值(t ),当概率值大于或等于阈值时,候选句被确定为被引片段,反之为非被引片段。文献[12]将阈值t 人工设定为0.6、0.7和0.8。为了得到更多结果并从中选择最优,本文将t 的区间扩大,并减少其步长,即在实验中将t 的区间设置为[0.5,0.9],步长为0.01。

2.3.3 被引片段句子数量的确定 本文根据单句、连续的两句、三句、四句和五句等5种切分粒度对被引文献进行句子切分,得到具有不同句子数量的候选被引片段。

2.3.2 非均衡数据集问题的处理 特定的引文句下,被引文献中只有少数句子属于被引片段,非被引片段占绝大多数。从表2可以看出,训练集和测试集中均存在较为严重的正负例分布不均衡问题,若不能对其进行有效处理,将造成预测结果的偏斜性,无法保证少数类样本的精确识别[26],从而加大被引片段的识别难度。

综上所述,与普通超声评估相比,US-G FNAC在初步诊断甲状腺结节的良恶性方面具有更高的准确度和灵敏度,值得临床推广。

我国北方在建设等过程中不仅加大了对城市建设的力度,同时也加强了对公路交通的重视。北方公路在长期使用过程中极易出现翻浆现象,一旦出现该现象,不仅对公路、路基产生极大破坏,同时也严重影响该路段的正常使用,极易出现翻车等交通事故,是对我国公共财产和驾驶者人身安全产生极大威胁的主要形式之一。据不完全统计,我国北方公路出现的各类病害中,翻浆现象占据其中的70%以上,基于此,为了提升北方公路整体使用效率和安全性,必须及时对翻浆现象基本原理加以掌握,为翻浆现象分析及决策精确度的提升提供理论基础。

表2 数据集类别间数据量比较

集成学习过程中,将每个基分类器的分类结果(r )与对应权重(w )相乘之后再进行叠加,可得到是否为被引片段的概率值(P ),如公式(1)所示。

通过集成所得到的结果,会存在两种极端情况,一是被引文献中所有的候选句均被识别为非被引片段,二是文献中被识别为被引片段的句子数量超过5。由于以上两种情况均不符合CL-SciSumm 2017测评中的要求,本文将对其进行处理。对于第一种情况,取Jaccard相似度最高的5个候选句作为被引片段;对于第二种情况,取Jaccard相似度最高的候选句作为被引片段。

在地震之后,当时的地震遗址资源没有得到较好的保护,很多地震遗址都被当做废墟处理掉了。虽然将河北联合大学原图书馆、原唐山机车车辆铸钢车间以及原唐山十中设为国家重点文物保护单位,但仍然遭到破坏。虽然有一些修缮工作,但是遗址的自然风化、人文损毁现象依然存在。

图4为具体的切分示例,当以连续两个单句切分文章时,则将全文内容按句子流的形式进行大小为2的滑动窗口操作,形成长度为2的句子片段序列,作为候选被引片段。同样,对于按照连续的三句、四句或五句进行切分时,则先改动窗口大小,再使用相同的方式进行候选被引片段的抽取。

1.2.2 纳入研究的产妇治疗前签署知情同意,并进行生物反馈训练 将食指和中指进入阴道,指腹贴住阴道后壁后穹隆后再退后2 cm。嘱产妇收缩阴道,感觉阴道壁紧紧包绕二指,反复3次。然后进行盆底功能康复治疗,采用加拿大VISHEE瑞翼盆底肌电生物反馈仪和法国PHENIX系列神经肌肉刺激治疗仪USB4结合治疗,对于不同的产妇盆底情况,适当调整治疗方案。1个疗程共治疗15次,前6次每天治疗,后9次隔天治疗1次,然后对产妇盆底肌力治疗前后进行比较。

图4 不同句子切分粒度示例

对于包含n 个词的句子S 1(w 11,w 12,…,w 1n ) 和包含m 个词的句子S 2(w 21,w 22,…,w 2m ), 依据公式(2)计算S 1与S 2的相似度。

2.3.4 词语语义相似度特征的引入 本文在文献[12]特征的基础上,借助WordNet本体库和Word2Vec词嵌入算法,分别得到WordNet相似度与Word2Vec相似度,作为每个基分类器新加入的特征。

(2)

其中,w 1i 、w 2j 分别为S 1、S 2中的词语; Simword(w 1i ,w 2j ) 为w 1i 与w 2j 之间的相似度,该相似度依据WordNet或Word2Vec计算得到。

(1)黄芪、黄连、甘草、白术、板蓝根制成的中草药制剂具有清热解毒、凉血消肿的功效。黄芪能增强机体免疫功能,有益于改善IBD导致的免疫抑制反应;黄连、板蓝根能清热燥湿,泻火解毒,有利于消除IBD致病因子;白术能健脾益气,燥湿利水,消除水肿,有利于缓解IBD腹泻症状,促进肾脏尿酸盐的排出;黄芪、板蓝根能抑制病毒酶活性,抑制DNA和RNA复制,从而杀灭病毒,显著提高白细胞诱生干扰素的功能,使白细胞和多核细胞明显增加,调节机体免疫力,促使抗体形成[5],进而提高肉鸡抗应激、抗病能力;甘草能补脾益气,调和诸药[6]。

WordNet是普林斯顿大学研发的在线词汇参照系统(https://wordnet.princeton.edu/),本文使用的WordNet V2.1共有155327个独立词形,117597个同义词集合,207016个词形—词义对[28]。WordNet按照词语之间的语义关系组织词汇语义网络。本文通过计算两个词语在网络中的语义距离(连接两个词语的最小路径长度),并将其倒数作为词语的相似度[29]。Word2Vec是Google于2013年开放的一款自然语言处理软件工具,该工具的特点是通过神经网络概率语言模型将词进行向量化[30]。在给定的语料库下,Word2Vec通过对词语的上下文及词语与上下文的语义关系进行建模,并对训练的模型不断优化,将词语映射到抽象的低位实数空间,快速地将词表示成向量形式。由于所生成的词向量带有上下文的语义信息,可以使用量化的方法度量词与词之间的关系[31]。本文通过对Google News语料进行训练得到词向量二进制文件GoogleNews-vectors-negative300.bin(由连续词袋模型训练得到,输出向量为300维,训练窗口大小为8)[32],从中获取词语所对应的向量,并以向量间的余弦值[33]作为词语间的相似度。

由于短文本篇幅较小,组成文本的特征词较少,单个词语的重要程度尤为重要,且在科技文本中,不同词性的词对文本内容的反应程度不同,某些词性的词语应该具有更高的权重。本文所加入的两个相似度特征,都是基于词语层面的语义信息。在已有的特征中,Jaccard相似度仅仅是从文本的字面特征来计算相似度,无法深入到语义层面的内容,而LDA相似度、Doc2Vec相似度是基于文本整体的主题或者语义信息进行相似度计算,粒度选择过大,没有考虑到某些词语在文本中具有更高的重要性。WordNet是将名词、动词、形容词和副词各自构成一个同义词集合网络,每个同义词集合代表一个语义概念,换言之,WordNet是在词性标注的基础上计算概念本体之间的相似度,能够考虑不同词性间词语权重的差异性。而Word2Vec基于上下文统计信息的方法,将词语表示成低维稠密的向量。除了语义特征,词向量还能学习句子结构,从而学习到其语法特征,避免了句法解析带来的耗时、适用性差等问题。此外,在作者引用文献过程中,句式改写是常见的一种方法,Word2Vec所学习的语法特征对于识别此类句子对具有重要意义。

我们方法的另一个优势是通过使用归一化质点滤波,可以有效地规避传统网格搜索中所需要的复杂计算。尽管如模型一节所述仍然需要先验分布,但这种分布可以根据历史记录得到。另外,也可以用初步的测量结果来选取合适的先验分布,从而得到更好的性能(Liu et al,2011)。但是这个方法也存在一些不足的地方,例如算法对先验分布的选择、质点的数目、以及Anoise、σnoise、σP和σS等的取值都非常敏感。尽管这些值可以进行实时调整,但是却需要大量的经验研究和对历史记录的分析。结果一节所述的一些慢收敛速度和高方差结果也可能是这些参数的次优选择造成的。

3 实验与结果分析

本文以准确率(Precision)、召回率(Recall)以及两者的调和平均值F 1[34]等指标为基础,来评估实验结果,三者的计算公式分别如公式(3)~公式(5)所示。

(3)

(4)

(5)

由于本文需要对不同实验方案中被引片段的识别结果进行比较,因此需要对每个实验方案中不同参数设置下的N 个结果计算宏观平均值(Macro_Precision、Macro_Recall和Macro_F 1值),三者计算公式分别为公式(6)~公式(8)所示。

(6)

(7)

(8)

3 .1 被引片段最优句子数量的确定

依据不同句子切分粒度所得到的训练数据,我们使用相同的模型与特征组合、集成方案得到被引片段,并使用相同的评估方法比较不同句子切分粒度下的被引片段识别结果。本文给出算每种句子切分粒度下被引片段识别结果的Macro_Precision、Macro_Recall和Macro_F 1值,如表3所示。

由表3可以看出,按单句切分的方法,识别准确率为0.1766,召回率为0.1401,F 1值为0.1468,而随着切分粒度不断扩大,以上三个指标均呈下降趋势。其中,当句子切分粒度由单句变为连续两句时,识别效果开始急剧下

表3 不同句子切分粒度下的识别结果

降。这表明,扩大被引文献的句子切分粒度会严重影响到被引片段的正确识别。我们也在引文识别结果中发现,在大部分情况下被引片段为文献中的单个句子或者分散的多个单句,即引文句的内容仅仅涉及被引文献中的单句。在今后的研究中,将被引文献的各个单句作为识别对象,能够获得较为准确的识别结果。

3 .2 引入词语语义信息的结果

根据3.1节实验的结果,本研究将被引文献中的各个单句作为候选被引片段,在文献[12]所用的模型与特征(原始特征)的基础上,增加两种词语语义相似度特征,即Word2Vec相似度和WordNet相似度。表4给出了不同特征组合下被引片段的识别效果,其中,文献[12]所使用的被引片段识别模型在CL-SciSumm 2017中识别效率最高[10]

表4 不同特征组合下的被引片段识别结果比较

三个改进实验中,Word2Vec相似度的识别效果最优,F 1值达0.1512,相比于原始特征提升了0.52%,其次是“Word2Vec+WordNet相似度”(0.5%)和WordNet相似度(0.34%)。从中可以看出,Word2Vec相似度特征对被引片段识别的提升效果要好于WordNet相似度,且在Word2Vec相似度的基础上进一步加入WordNet相似度将使得识别效果出现细微的下降,可能是因为通过Word2Vec模型计算所得到的相似度,不仅包括词语之间的语义信息、同时也蕴含着词语上下文的信息,说明词汇的上下文语义信息在被引片段的识别过程中能够发挥一定的作用。相比之下,WordNet规模相对较小,相似度计算结果有待进一步优化。从准确率来看,加入新的特征后有明显提高,其中,“Word2Vec+WordNet”相似度提升的幅度最大(7.28%),其次是WordNet相似度(7.04%),最后是Word2Vec相似度(6.77%),但与此同时,召回率呈现出下降的趋势,说明改进实验是通过牺牲一定的召回率以提高被引片段识别的准确率。可以看出,本研究所加入的词语语义相似度特征使得原有的特征体系更加全面丰富,从而更加准确地描述引文句与被引片段之间的语义关系,使得被引片段的判断过程更为严格,所以出现了准确率上升而召回率下降的结果。本研究最终的评价依据为F 1值,从公式(5)可以看出,F 1值为综合考虑准确率和召回率的指标,本文改进实验在权衡准确率和召回率的基础上,能够保证该指标有所提升,证明了新特征的有效性。不可否认,研究结果中召回率仍然有较大的提升空间,若能在该方面有所改进,对于被引片段识别效果的提升将有很大的帮助,这也是今后研究的方向之一。总体而言,本文所提出的词语语义相似度能够提升被引片段的识别效果。

4 结论与展望

本文针对目前被引片段识别研究中所存在的不足,通过两个角度进行被引片段识别的探索:寻找被引片段的最佳句子长度;在确定被引片段句子数量的基础上,增加与词语语义信息相关的特征,旨在提高被引片段的识别效果。实验结果表明,被引片段多数以单句的形式存在,且本文所提出的词语语义特征有利于提高其识别效率。

本文仍存在一些不足之处。首先,仅通过增加特征来提高被引片段识别的准确率,但识别效果的提升较为有限,今后将尝试引入更多的词语相似度特征,使用并比较其他分类算法,进一步提升被引片段识别效果。其次,所加入的特征,得到结果的召回率并不理想,在下一步工作中,笔者将进一步结合规则方法优化识别模型,提高模型对的识别召回率,并将被引片段自动识别的结果应用到引用类型识别、结构化摘要等工作中。

参考文献

[1] 徐健,李纲,毛进,等.文献被引片段特征分析与识别研究[J].数据分析与知识发现,2017(1):37-45.

[2] 李纲,徐健,余辉,等.基于被引片段识别的科技文摘综述[J].现代情报,2017(9):171.

[3] LIAKATA M,THOMPSON P,WAARD A D,et al.A three-way perspective on scientific discourse annotation for knowledge extraction [C]//Proceedings of the Workshop on Detecting Structure in Scholarly Discourse.Jeju,Republic of Korea,2012:37-46.

[4] 王恺荣,程晓琳.引文行为和引文动机研究[J].现代情报,2005,25(3):17.

[5] TAC 2014 Biomedical Summarization Track [EB/OL].[2019-04-01].https://tac.nist.gov/2014/BiomedSumm/index.html.

[6] The 2nd Computational Linguistics Scientific Document Summarization Shared Task (CL-SciSumm 2016)[EB/OL].[2019-04-01].http://wing.comp.nus.edu.sg/cl-scisumm2016/.

[7] The 3rd Computational Linguistics Scientific Document Summarization Shared Task (CL-SciSumm 2017)[EB/OL].[2019-04-01].http://wing.comp.nus.edu.sg/~cl-scisumm2017/.

[8] The 4th Computational Linguistics Scientific Document Summarization Shared Task (CL-SciSumm 2018)[EB/OL].[2019-04-01].http://wing.comp.nus.edu.sg/~cl-scisumm2018/.

[9] JAIDKA K,CHANDRASEKARAN M K,RUSTAGI S,et al.Insights from CL-SciSumm 2016:the faceted scientific document summarization Shared Task[J].International Journal on Digital Libraries,2018,19(2):163-71.

[10] JAIDKA K,CHANDRASEKARAN M K,JAIN D,et al.The CL-SciSumm shared task 2017:Results and key insights[C]//Proceedings of 2017 Computational Linguistics Scientific Summarization Shared Task,CL-SciSumm 2017,August 11,2017.Tokyo,Japan,2017:1-15.

[11] JAIDKA K,YASUNAGA M,CHANDRASEKARAN M K,et al.The CL-scisumm shared task 2018:Results and key insights[C]//Proceedings of 3rd Joint Workshop on Bibliometric-Enhanced Information Retrieval and Natural Language Processing for Digital Libraries,BIRNDL 2018,July 12,2018.Ann Arbor,MI,United states,2018:74-83.

[12] MA S,XU J,WANG J,et al.NJUST @ CLSciSumm-17[C]//Proceedings of 2017 Computational Linguistics Scientific Summarization Shared Task,CL-SciSumm 2017,August 11,2017.Tokyo,Japan,2017:16-25.

[13] KLAMPFL S,REXHA A,KERN R.Identifying referenced text in scientific publications by summarisation and classification techniques[C]//Proceedings of Joint Workshop on Bibliometric-Enhanced Information Retrieval and Natural Language Processing for Digital Libraries,BIRNDL 2016,June 23,2016.Newark,NJ,United states,2016:122-31.

[14] COHAN A,SOLDAINI L,MENGLE S S R,et al.Towards Citation-Based Summarization of Biomedical Literature[C]//Proceedings of the 2014 Text Analysis Conference.Gaithersburg,Maryland,USA,2014:1-8.

[15] MOLL D,JONES C,SARKER A.Impact of citing papers for summarisation of clinical documents[C]//Proceedings of the Australasian Language Technology Association Workshop 2014.Melbourne,Australia,2014:79-87.

[16] NOMOTO T.NEAL:A neurally enhanced approach to linking citation and reference[C]//Proceedings of Joint Workshop on Bibliometric-Enhanced Information Retrieval and Natural Language Processing for Digital Libraries,BIRNDL 2016,June 23,2016.Newark,NJ,United states,2016:168-74.

[17] BURGES C J.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1998,2(2):121-67.

[18] QUINLAN J R.Induction of decision trees[J].Machine Learning,1986,1(1):81-106.

[19] ZIEGEL E R,MENARD S.Applied logistic regression analysis[J].Sage University Paper Series on Quantitative Application in the Social Sciences,1995,7:88.

[20] YEN J-Y,HSU T-Y,et al.Reference scope identification for citances by classification with text similarity measures[C]//Proceedings of 6th International Conference on Software and Computer Applications,ICSCA 2017,February 26,2017-February 28,2017.Bangkok,Thailand,2017:87-91.

[21] LI L,MAO L,ZHANG Y,et al.CIST system for CL-SciSumm 2016 Shared Task [C]// Proceedings of Joint Workshop on Bibliometric-Enhanced Information Retrieval and Natural Language Processing for Digital Libraries,BIRNDL 2016,June 23,2016.Newark,NJ,United states,2016:156-67.

[22] AGGARWAL P,SHARMA R.Lexical and syntactic cues to identify reference scope of citance[C]//Proceedings of Joint Workshop on Bibliometric-Enhanced Information Retrieval and Natural Language Processing for Digital Libraries,BIRNDL 2016.Newark,NJ,United States,2016:103-12.

[23] MORAES L,BAKI S,VERMA R,et al.University of Houston at CL-SciSumm 2016:SVMs with tree kernels and sentence similarity[C]//Proceedings of Joint Workshop on Bibliometric-Enhanced Information Retrieval and Natural Language Processing for Digital Libraries,BIRNDL 2016,June 23,2016.Newark,NJ,United states,2016:113-21.

[24] MA S T,XU J,ZHANG C Z.Automatic identification of cited text spans:a multi-classifier approach over imbalanced dataset[J].Scientometrics,2018,116(2):1303-30.

[25] Annotation Naming Convention[EB/OL].[2019-04-01].https://github.com/WING-NUS/scisumm-corpus/blob/master/docs/annotation_naming_convention.txt.

[26] WU G,CHANG E Y.Class-boundary alignment for imbalanced dataset learning[C]//Proceedings of ICML 2003 Workshop on Learning from Imbalanced Data Sets II,Washington,DC,2003:49-56.

[27] CHAPELLE O,VAPNIK V,BOUSQUET O,et al.Choosing multiple parameters for support vector machines[J].Machine Learning,2002,46(1-3):131-59.

[28] WordNet documentation[EB/OL].[2019-04-01].http://wordnet.princeton.edu/wordnet/documentation.

[29] RADA R,MILI H,et al.Development and application of a metric on semantic nets[J].IEEE Transactions on Systems,Man,and Cybernetics,1989,19(1):17-30.

[30] MIKOLOV T,SUTSKEVER I,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of 27th Annual Conference on Neural Information Processing Systems,NIPS 2013,December 5,2013-December 10,2013.Lake Tahoe,NV,United States,2013:3111.

[31] TURIAN J,RATINOV L,BENGIO Y.Word representations:a simple and general method for semi-supervised learning[C]//Proceedings of ACL 2010,Proceedings of the Meeting of the Association for Computational Linguistics,July 11-16,2010,Uppsala,Sweden.2010:384-94.

[32] Word2Vec google news model[EB/OL].[2019-04-01].https://github.com/mmihaltz/word2vec-GoogleNews-vectors.

[33] SALTON G,MCGILL M J.Introduction to modern information retrieval[M].McGraw-Hill,Inc.,1986.

[34] SALTON G,LESK M E.Computer evaluation of indexing and text processing[J].Journal of the ACM (JACM),1968,15(1):8-36.

Automatic Identification of Cited Spans in Academic Articles

Abstract : [Purpose/significance] In the current research on cited span identification,there is no clear definition of how many sentences should be identified for each cited span,and the semantic similarity among the words is rarely considered in the process of feature construction.Based on the two perspectives above,this paper conduct adaptions on our previous experiments to improve the performance of cited text spans identification.[Method/process] Firstly,we segment reference paper according to different sentence granularities,and compare their identification performances,thus determining the best sentences number of cited spans.Furthermore,we add lexical semantic similarity features to measure the semantic similarity between sentences.They are obtained by distributed word vector representation through word embedding and word semantic network ontology.[Result/conclusion] The experimental results show that with the increase of sentence segmenting granularity,the identification performance shows a downward trend.Moreover,the added lexical semantic similarity features help to establish fine-grained semantic associations between sentences effectively.It improves the identification performance and therefore increases the model stability.[Limitations] In this paper,we adapt our experiments only from the aspect of feature construction,which lead to the limited improvement of cited text spans identification.On model selection,we merely use the traditional machine learning algorithms and do not bring the existing deep learning algorithms into our work.

Keywords :academic article;cited spans;citation analysis;text classification;semantic similarity

DOI: 10.16353/j.cnki.1000-7490.2019.09.024

*本文为国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究” (项目编号:17ZDA291)和江苏省研究生科研创新计划项目“学术文献引文域自动识别研究” (项目编号:KYCX18_0365)的成果。

作者简介: 章成志 (ORCID:0000-0001-8121-4796,通讯作者),男,1977年生,博士,教授,博士生导师。研究方向:信息组织,信息检索,数据挖掘及自然语言处理。徐津 ,男,1994年生,硕士生。马舒天 ,女,1992年生,博士生。

作者贡献声明:章成志 ,提出论文思路和参与研究框架整理,起草与修改论文。徐津 ,文献调研,完成实验,起草论文。马舒天 ,参与研究思路讨论和修改论文。

录用日期: 2019-04-22

标签:;  ;  ;  ;  ;  ;  

学术文本被引片段的自动识别研究论文
下载Doc文档

猜你喜欢