自动文摘系统评测方法的回顾与展望,本文主要内容关键词为:文摘论文,方法论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
自动文摘技术结合了自然语言理解和自然语言生成技术[1],因此对文摘系统的评测也是对自然语言处理(NLP)系统的评测。网络文本信息的海量式发展,为自动文摘这一文本处理技术的迅速发展和广泛应用提供了重要时机[2],大量摘要生成技术不断涌现,各研究机构的文摘系统也投入了实际应用领域。自动文摘的目标是从原始信息中提取出最为重要的信息内容呈现给用户,因此对用户的实际需求很敏感[3]。不同需求的用户从同一摘要中获得的信息是不一样的,甚至同一用户在不同时期从同样的摘要中也将获得不同的信息,因而,评测何种摘要最能满足用户的需求是十分艰难的。目前,大多数评测系统的针对性较强,其评测方法大都针对自己的文摘系统。寻求一套客观有效的评测标准:既适用于单文档文摘又适用于多文档文摘,既适用于单种语言又适用于多种交叉语言,并能满足不同需求的用户——是人们一直不懈追求的目标和研究探索的方向。
2 自动文摘评测方法
随着自动文本摘要技术的发展,涌现出大量不同的摘要生成方法,因而也相应地出现了各种各样的评测方法。实际上,文摘应该具有哪些特性,达到哪些标准正是文摘评测工作所关注的。比如,大多数文摘系统都要求输出的摘要应该反映文章的主题,覆盖用户感兴趣的信息,意义上连贯,语句通顺等,这些都是评测文摘好劣的标准。
自动文摘评测方法广义上分为两大类:内部评测与外部评测方法[2,4,5]。内部评测是直接对摘要的质量进行评估进而评测一个独立文摘系统的性能;外部评测则是间接评估摘要质量,是将摘要应用到一个特定任务中,以评测文摘系统的性能[5]。内部评测主要评估摘要内容本身,其标准有摘要包含的信息量与语义上的连贯性等;外部评测主要评估摘要在完成某特定任务时对该任务的影响,其标准有摘要内容与所指定主题信息的相关性,内容的可读性、可理解性,及评测该摘要对任务的有效性等[3]。下面详细介绍这两种评测方法。
2.1 内部评测(intrinsic)
2.1.1 简介
2.1.1.1 参考摘要
内部评测是最先出现的评测方法。自动文摘技术总体分为抽取摘录型文摘(extraction)和抽象理解型文摘(abstraction)。摘录型文摘的生成方法是对文本源(source)中的语句机械抽取,它不对抽取的句子做大的修改,基本是原文的照抄,内部评测主要针对这类文摘系统。此方法主要依赖于人工撰写的摘要[2],称为理想摘要(ideal)、目标摘要(target)、专家摘要(expert)、参考摘要(reference)、标准摘要(standard)、最佳摘要(best)、手工摘要(manual)、人工摘要(human)或模板摘要(model)等,而文摘系统产生的摘要称为系统摘要(system)、机械摘要(machine)、自动文摘(automatic)或算法摘要(algorithm)等。大部分内部评测就是将文摘系统产生的摘要与人工撰写的摘要相比较,两者越接近说明该文摘系统性能越好。为统一起见,本文分别采用系统摘要与参考摘要的称法。
参考摘要可由原文作者给出,但多是集合许多语言学方面的专家,通过对原文的理解达成一致后,综合撰写,当然也存在参考摘要就是文本源本身的情况,这取决于对文摘系统性能评测的重点,重点不同则对参考摘要的要求也不尽相同,比如参考摘要可以是经过对原文的深入理解并融入自己语言加以撰写的,也可能只挑选出原文中主观认为相对重要的语句,甚至只是关键词、关键概念的罗列等。Brandow和Minel等从语言学角度主要评测语句的连贯性,虚悬首句(文法关系:同一短语重复出现,与主语缺少明显的语法关系)等,而Johnson、Paice、Kupiec等主要评测系统摘要包含的重要语句、概念等。有时对同一文本源要产生多篇长度不一的参考摘要,比如DUC(Document Understanding Conference)要求各参加评测的多文档文摘系统产生长度分别为50、100、200、400字符的摘要[6],那么为了使评测更加准确就要撰写出相应的不同长度的参考摘要。
人们总是希望呈现给用户的摘要是最简洁的,但同时也要最全面地包含原文最重要的信息。内部评测所依赖的参考摘要决定着系统摘要内容的信息覆盖度、连贯性等标准,它的“好坏”直接影响着文摘系统的性能。好的参考摘要能够有效提升文摘系统的性能,因此,参考摘要是内部评测的一个关键。
2.1.1.2 内部评测的两类主要方法
内部评测的方法主要分为两种:手动评估(manual)与自动评估(automatic)。
手动评估:由专家对各文摘系统提取的摘要进行主观性打分,然后综合分值评测出每个系统各方面的性能。专家也可以将参考摘要作为标准,将系统摘要与参考摘要比较,然后打分。比如DUC(2001-2003年)就是采用手动评估方法对各系统进行评测的:专家参考人工提取的参考摘要,分别对各文摘系统的摘要质量(包括语法,语言组织等)和摘要的信息覆盖度等标准打分。Halteren和Teufel提出的Pyramid方法也是一种手动评估方法,被DUC 2005采用[7]。
自动评估:鉴于手动评估的主观性、不一致性和费时的缺点,许多学者又提出自动评估。该方法主要也是将系统摘要与参考摘要(一篇或多篇)比较,但不是由人工进行比较,而是由算法进行。自动评估的方法主要有两种:联合选择方法(co-selection)和基于内容的相似度方法(content-based similarity)。比如,联合选择法有精确度与召回率测量方法(precision/recall)、RU(Relative Utility)方法,Kappa方法等[1];基于内容相似度的方法有n-gram共现方法、基于最长公共子串的方法,基于Pyramid方法进行自动评测摘要的方法等[7]。各评测方法见表1。
2.1.2 内部评测标准
(1)信息量(informativeness):该标准评测系统摘要是否包含、包含多少原文的重点要点等关键内容。通过与参考摘要比较,评测摘要内容所含的信息量,也就是系统摘要对参考摘要的信息覆盖程度。如果系统摘要中包含用户感兴趣的信息越多,则性能越高。文献[4]将判断系统摘要中包含参考摘要的信息多少转化为判断两者间的相似度,即系统摘要包含参考摘要中的信息内容越多则两者越相似。
(2)连贯性(coherence):这项标准是评估系统的摘要内容是否以有效的方式表达和组织的[8]。各语句间是比较相关,内容连贯一致,上下句通顺,还是各句间内容上脱节,不连贯甚至语无伦次[9]。有些抽取型摘要是将原文中不同位置的语句提取出来,将文档分割剪切粘贴而成,因此在语义衔接和逻辑上必将出现不连贯的问题,即便是理解型摘要也会有不连贯的问题,尤其是采用自然语言生成技术[3]。连贯性可以由专家主观衡量,也可以通过对语法,书写风格,语句的完整性,连接词逻辑关系等方面进行评估[10]。这方面的工作属于语言学范畴,依赖于NLP技术的发展。
(3)可读性(readability):可读性就是指摘要能否让人读懂——易懂性(understandability)。如果摘要的可读性好就是指该摘要便于用户的阅读理解,从摘要中可以容易得知发生了什么事件,或关于什么人的事件[9]。可读性与连贯性有相通的地方,如果不连贯,逻辑混乱,那么就很难理解。可以从很多方面来衡量摘要的可读性,比如,拼写与语法的正误,是否清楚地突出文章主旨等。有关这方面的研究相对较少,Mani等讨论了自动评测文摘的可读性问题[11]。
(4)长度(length):摘要长度与信息量有一定的关系,摘要越长则其包含的信息量就可能越多。一般情况,参考摘要的长度是随机的,每个专家在提取时就各不相同,到最后综合时也很少刻意规定多长,只是在认为内容表达最佳的时候就停止了。同样,系统摘要是由文摘系统自动生成,如果没有严格限制其长度,则产生的系统摘要长度也各不相同。研究者为了试验长度对性能的影响,会规定系统产生出不同长度的摘要,以决策哪个长度的系统摘要性能更好,Jing等指出同一个文摘系统的性能随着其产生的摘要长度的不同会有很大的变化[5]。当然还可以将系统摘要与不同长度的参考摘要比较,以分析文摘系统的性能,通过不同长度的参考摘要对系统性能的反馈来提升系统性能。
(5)冗余度(redundancy):冗余度是评测摘要包含的信息内容是否有重复,是否保证摘要的简洁(concise)特性。如果只追求信息覆盖量,使摘要过长,则会出现叙述繁杂或存在大量相同意义语句等问题。去冗余的方法有MMR(Maximal Marginal Relevance),CSIS(Cross-Sentence Informational Subsumption)等,其中MMR对单文档文摘系统效果好些,并且是基于问题(query-based)的,而CSIS适合于独立于问题(query-independent)的多文档文摘系统[12]。
2.1.3 内部评测存在的问题
(1)参考摘要的撰写:参考摘要如果由作者撰写,则会出现不够客观不够规范的问题[13]。如果由不同专家共同撰写,虽然可以缓解过于主观的问题,但显而易见是十分耗费人力与时间的。即便撰写好的参考摘要也不能对所有文摘系统都适用,因此很难建立一个统一的规范的参考摘要[14]。
(2)参考摘要的不一致性(agreement):很多研究表明,多个专家对同一文本源很难一致地提取出共同认可的重要信息。Rath等的实验证实:6个专家对同一文本源提取的重点语句中,平均只有1.6句是共同的。8周之后再让这些专家对同一文本源提取,就产生与之前不同的摘要来,其中只有不到一半的语句和前一次相同。Salton等的实验得到相似的结论:2个专家从50篇文章中分别提出5段认为重要的段落,只有46%个段落一样[3,5]。Marcu、Jing等也做了关于一致性的实验。
(3)手动评测的不稳定性(instability of manual judgments):手动评测具有很强的主观色彩,每位专家对摘要质量的好坏评测意见不一是显而易见的问题,就如同上面介绍的专家在撰写参考摘要时的不一致性一样,评测过程中总会有人为的因素影响评测的结果。Lin等的试验证实,仅用一篇参考摘要做评测参考,单文档文摘系统的评测一致性约为40%,多文档的仅为29%[6]。其中一个改进的方法是准备多篇参考摘要作为评测的参考,比如ROUGE(Recall-Oriented Understudy for Gisting Evaluation)方法[1,5,6,15]。
(4)自动评测对参考摘要的依赖性:目前只有少数文摘系统生成的摘要是从原文直接抽取语句并不加修改简单罗列而成,大多数文摘系统都是对抽取型摘要做一定的润色,使之更简洁通顺易懂。因此系统摘要的语句在表达形式、用词修辞、排列等方面或许有差异,但却表达相同的意思,因此同一文本源可能有多种不同表达形式却都是“好”的摘要[2]。而自动评估方法因为过于依赖于参考摘要,导致参考标准唯一,所以对形式不同的语句并不能公平对待,它只认可与参考摘要相似的语句。文献[1]指出联合选择方法只适合抽取型摘要。基于内容的相似度方法虽然对此有所改进,但由于NLP未发展成熟,仍存在这方面的问题。文献[5]指出用形式不同但语义相同的语句对系统摘要作少量的语句替换,将对评测结果产生巨大的影响。显然,手动评估基本能够避免这个问题,因为人可以很好地区分同义歧义句等语言学上的问题。
2.2 外部评测(extrinsic)
2.2.1 简介
外部评测相对内部评测克服了主观性等缺点,外部评测又可称为基于特定任务的文摘评测方法:即为文摘系统提供一个应用环境,评测用系统摘要替代原文在完成特定任务时的性能,根据任务的反馈情况来改进摘要的生成以提高文摘系统的性能。
外部评测的任务有多种,例如:信息检索任务,分类任务,问答任务等,下节将简要介绍这几种任务。国际上基于任务的大规模外部评测如SUMMC和DUC,都详细讨论了摘要在这些任务中的作用[15]。随着计算机技术的发展,自动文本摘要作为原文的替代,包含着原文所有重要的细节,将应用到更广泛的领域中,将取代原始文本更出色地完成更多的任务。
2.2.2 外部评测任务及评测标准
2.2.2.1 相关性评估任务(relevance assessments)及标准
相关性评估是用户根据文本摘要来判定该文本与指定主题或事件的相关程度。
Ad hoc检索任务:判定文本与主题(用户感兴趣的方面)的相关性,决定是相关的还是不相关的。采用主题相关性摘要(topic-related)来完成该任务,主题相关性摘要是指与某一主题相关的摘要,偏重或指向(indicative)用户感兴趣方向[13]。以往的信息检索系统是专家根据全文来判定与检索文本的相关性。ad hoc任务中,给定一个主题和替代原始文本的主题相关性摘要,专家根据主题相关性摘要来判定文档是否与该主题相关。
分类任务(categorization):文本分类是指将网上大量杂乱无章的文本,参照内容等特征归纳到事先分好的各个主题类别中。利用摘要完成分类任务是为专家提供一般性摘要(generic)[13]——由文摘系统产生一种无任何格式限制的摘要来替代原文,专家根据摘要对文本进行分类。外部评测就是评估专家是否能够根据一般性摘要将文档快速正确地分到相应的主题下。
相关性评测任务的主要评测标准是专家根据摘要做相关性决定的准确度(accuracy of decision)及利用摘要完成任务的时间(time required)。评测的主要目的是看利用摘要完成任务是否和利用全文时得到一样的结论[2],也就是评测将摘要应用到任务中是否可以在更短的时间内达到与原文同样的准确度。
相关评测的准确度:由基准事实(ground truth)作为评测的参考依据,基准事实是专家利用全文完成任务的相关性决定,即专家根据全文事先已经评定出哪些文档与主题相关,哪些不相关。将利用摘要替代原文的相关性决定与基准事实比较,以评测利用摘要完成任务的情况,并通过不断提升文摘系统的性能来提高准确度。当给定主题时,采用统计方法生成摘要的文摘系统,产生主题相关的摘要应用到任务中得到较高的准确率。当不提供主题时,统计方法没有额外的优势,和产生一般性摘要的系统在准确度上没什么区别[3]。
时间:在不考虑准确度的情况下,另一个评估标准就是评测利用摘要完成任务相对于原文是否可以节省时间。实验证实:16个文摘系统产生的摘要在压缩比较低的情况下(一般性摘要的长度为原文的10%,主题相关性摘要的长度为原文的17%),在相关性评测中分别能够减少40%、50%的时间,而准确度没有大幅度减少[2,3,14]。
摘要的长度:也就是摘要的压缩比。不同长度的摘要对决策也有影响,既影响相关性决定的时间,也影响着相关性决定的准确度,需要评估多长的摘要在任务中能达到较好的效果。
文本长度:评测要求文本源相对短些,因为太长的文本将需要耗费大量的时间来阅读,但是也不能太短,因为太短就没有产生摘要的必要了。
2.2.2.2 阅读理解性任务(reading comprehension)
问答任务(question-answer):一个问题有多个答案供选择,专家通过阅读原文或摘要,选出一个正确的答案,然后由系统自动为答案评分,评出正确答案的百分比。如果通过阅读摘要回答问题的正确性和通过阅读原文时一样,则说明该摘要包含丰富的信息。Morris等的实验将文本分成四种形式提供给专家,使专家在四种不同的知识背景下回答问题:①全文条件下为专家提供原始文本;②抽取式文摘提供从原文做一般性抽取的文摘;③理解式文摘提供由专家撰写的压缩比为25%的理解性文摘;④无任何文本资料不提供给专家任何资料,由专家根据问题在没有参考的情况下独立选择。然后比较在这四种不同条件下专家回答问题的正确性[3]。
阅读理解性任务要求文摘系统提供信息型摘要(informative):就是要提供信息丰富内容详尽的摘要。用户从中能够获得大量的信息,能够通过摘要达到重现原文的目的,基本上能够重现出原文的所有重要信息。
Maybury的系统SUMGEN:专家通过阅读原文或摘要,在模版中添加一些信息。如通过阅读模拟战方面的文本,要求专家填写出名称,参与者,持续时间等;商业类新闻,要求填写出合资的类型,合作者,及合资状况。
阅读理解性任务为文摘评测提供了另一个平台[3],虽然目前大多数外部评测任务是相关性评测任务,但它还是局限于利用抽取型摘要完成任务。随着人们对信息要求越来越精确细致并更加人性化,将会有更多阅读理解性任务出现,那么采用摘要来完成该任务也必将是一种发展方向。比如预测事态发展趋势,要求通过对该事态的分析理解撰写一篇报告,不仅叙述事实(重现原文信息的过程),还要给决策者提供决策方向等,如果要人工地将该方面的文本都看一遍,不仅极其费时费力,该工作也是没有必要的,因为可以采用多文档摘要来完成该项任务。
评测标准主要是对文本理解的正确性,比如问答系统中回答问题的准确度,重现原文信息的信息量等,其实就是评测摘要是否对完成任务有用有效等。
2.2.3 外部评测存在的问题
外部评测虽然能够有效地评估摘要在某任务中的表现,利于自动文摘系统在其他领域中的应用研究,但也正因为此,使得评测只能针对一个特定任务,不能全面地评测文摘系统,而且也不适合大规模文档。并且各种各样的任务使得评测方法难以统一,评测标准难以规范化。不像内部评测有相对固定的一些评测标准,外部评测的任务不同标准也不同。
外部评测也存在依赖于先前标准数据的问题,即基准事实。基准事实至少要由2名专家事先确定,为了得到更加准确客观的基准事实,也需要综合考虑多方面的因素。相关性评测任务受限于获得的文本类型(新闻文本、科学类、社论等)。主题或问题的描述及类型也将影响评测性能,Mamiko等在实验中使问题的描述更加详细,提供更细节的信息,相关性评测的准确度就提高了很多[16]。
外部评测虽然证实了摘要技术的建立和应用有很大的实用价值,但并没有提供如何才能改进任务系统本身性能的反馈信息[3]。大部分外部评测系统也仅局限于抽取型摘要,比如SUMMAC,虽然其中参与测试的系统可以产生理解型摘要,但是实验中只采用了抽取型摘要。
3 自动文摘评测的发展历史及面临的挑战
3.1 评测方法的发展过程
将自动文摘评测发展的历史过程及相应的评测方法总结如下,见表1。
3.2 自动文摘评测面临的挑战及发展方向
无论是内部评测还是外部评测,也无论是单文档文摘还是多文档文摘,评测摘要的基本标准是一样的,都要求系统摘要简洁易懂,信息覆盖准确全面,内容流畅可读。由于自动文摘技术的发展也受着计算机技术和NLP技术发展的影响,目前的评测方法都是具有针对性的。在摘要技术的发展初期,内部评测占主流地位,随着技术的发展成熟,基于真实用户需求的外部评测变得越来越重要,因为它明确针对某一任务,更能从用户实际需要出发。但内部评测和外部评测到底选择哪一种取决于摘要技术的开发者、建设者或用户的目的[9]。目前的技术还达不到人机信息交互的程度,因此无论哪种评测方法都是将计算机结果和人工结果相比较,是以人的结果作为标准,因而目前解决评测中存在问题的方法是通过发展大规模注释集为评测方法提供参考数据。随着相关学科间的发展促进,自动文摘应用新领域的不断扩展,目前多文档摘要技术的逐渐成熟和多语种摘要技术的涌现,一个可重复的、廉价的、自动化的支持各种不同文摘系统的评测方法成为人们面临最大的挑战和不懈努力研究的方向。
1995年,国家863计划的专家首次对国内三个中文文摘系统进行了评测。近年来虽然有很多学者投入中文文摘技术的研究中,但研究重点多是自然语言处理和自动文摘生成技术,文摘评测的研究工作很少。随着国内自动文摘技术的不断发展,文摘的广阔应用前景有目共睹,因此一个适合中文这门特殊而伟大语言的文摘评测系统将是国内学者研究的重点。
4 总结
本文详细介绍了内部评测方法和外部评测方法的基本原理、评测标准,指出各评测方法存在的不足和采取的改进策略,总结了文摘评测发展过程中各大研究机构和著名学者的研究成果。摘要的评测工作不仅仅单纯地评测摘要质量,可以根据摘要的不同应用环境,针对性地评测某一方面,并根据评测结果指出文摘技术改进的方向,这对其相关技术也起到重要的促进和指示作用。随着摘要技术应用领域的不断扩大,将为摘要的评测工作创造更多更新的机会,评测工作也将面临前所未有的挑战。