自动标引研究的回顾与展望,本文主要内容关键词为:,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】TP391 G252
1 引言
自动标引包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术[1]。
关键词自动提取在文本挖掘领域被称为关键词抽取(Keyword Extraction),在计算语言学领域通常着眼于术语自动识别(Automatic Term Recognition)[2,3],在信息检索领域,就是指自动标引(Automatic Indexing)。自动标引属于文本信息抽取的范畴。文本信息抽取是从文本数据中抽取人们关注的特定的信息。
由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自动摘要、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、自动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术[4]。
目前大多文档都不具有关键词,而且手工标引费力费时且主观性较强,因此关键词自动标引是一项值得研究的技术[4]。
2 标引对象的界定
在对自动标引的研究做比较分析时,首先要明确自动标引的对象,即关于标引主体的问题。与自动标引比较相关的概念,主要有标引词、主题词、关键短语、术语等,本节对这些概念作一简要介绍。
标引词是指表示文献内容特征的词语,包括主题词、关键词、关键词短语(也称关键短语)等。
在图书情报领域,关键词是指揭示文献主题的、有实质意义的语词,一般来源于文献的标题、摘要、正文等部分[5]。
在图书情报界,主题是指能概括文献的主要内容、具有一定描述规则的规范化词语。在自然语言处理研究领域中的话题检测与跟踪(Topic Detection and Tracking)研究中,话题通常被定义为“由某些原因或条件引起的发生于特定时间和地点、并可能伴随某些必然结果的一个事件”[6]。在语言学界,与“主题”这一概念相关的还有“话题”。本文对主题的研究仅限于图书情报领域所研究的“主题”。主题词又称叙词,它是以概念为基础从自然语言中优选出来,经过规范化处理的具有组配功能的动态性词或词组。在情报检索中,用它来描述文献和检索提问的主题内容。它是构成主题词表的最小词汇单元。主题词包括正式主题词和非正式主题词两种。正式主题词是规范化的、用于标引和检索的词或词组;非正式主题词是收在主题词表中,提供从非规范词指向规范词的检索入门的引导词。主题词或主题词集合是浓缩程度最高、涵义最明确的替代文献形式[7]。
关键短语是具有强文本表示功能的特征短语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来[8]。通常所说的短语范围很广,包括自由短语、固定短语和半固定短语3类[8]。术语是各门学科为确切表达本领域内的概念而创造和使用的专门词语[9]。
可以看出,“关键词”概念比较模糊,有的关键词本身就是关键短语。图1给出了术语、主题和标引词的关系。根据文本描述颗粒度不同,可将信息描述粗分为自然语言和控制词表两种方法,其中自然语言途径主要有全文、文摘、标题、关键短语、关键词等,控制词表途径主要有标题词、元词、分类款目、主题词等。如图2所示。
图1 术语、主题、标引词包含关系图[10]
图2 信息描述的颗粒度(注:该图来源于文献[11],略有改动)
需要指出的是,本文对自动标引中的标引对象界定为关键词、关键短语或主题词。
3 自动标引的五十年研究历程
3.1 自动标引研究的3个阶段
从Luhn于1957年进行自动标引后开始,到目前为止,自动标引研究经历了50年的发展历程。一直到20世纪90年代初,关于关键词自动提取的研究一直就没有停止过。
20世纪90年代初到90年代末,自动标引研究渐渐减少,主要有以下原因:
(1)全文索引逐渐被人采用,并且基本上能满足用户需要;
(2)传统的自动标引方法的效率到了极限;
(3)网络兴起之初的冲击与信息需求环境的改变。
20世纪90年代末一直到现在,关键词自动提取的研究逐渐深入,产生该现象的主要原因有:
(1)全文索引的功能越来越难以满足实际需求,用户需要更加精确的结果;
(2)互联网的很多服务,例如自动摘要、文档分类与聚类、文本分析、主题检索等都要依赖于关键词自动提取的结果,只有这样才能从根本上提高信息服务质量。
3.2 五十年研究的代表方法
根据自动标引研究现况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,笔者归纳出1957-2007年50年时间里比较有代表性的自动标引方法。
1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位[12];
1958年,Luhn提出基于绝对频率加权法的自动标引方法[13];P.B.Baxendale提出从论题句和介词短语中自动提取关键词[14];
1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法[15];
1960年,Maron与Kuhns提出基于相关概率的赋词标引方法[16];
1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题[17];
1970年,Lois L.Earl利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词[18];
1973年,Salton等提出基于词区分值的自动标引方法[19];
1975年,Salton等将VSM模型用于自动标引中[20];
1983年,Dillon等提出一种基于概念的自动标引方法,研制了FASIT系统[21];
1985年,Devadason提出基于深层结构标引方法[22];
1990年,Deerwester与Dumais等提出潜在语义分析标引法[23];
1993年,Silva与Milidiu提出基于相信函数模型的赋词标引方法[24];
1995年,Cohen提出N-Gram分析法的自动标引方法[25];
1997年,简立峰提出基于PAT树的关键词提取方法[26];
1999年,Frank等人提出基于朴素贝叶斯(Naive Bayes,NB)的关键词提取方法[27];Turney利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究[28];
2001年,Anjewierden与Kabel提出基于本体的自动标引方法[29];
2003年,Tomokiyo与Hurst提出了基于语言模型的关键词提取方法[30];Hulth利用Bagging算法进行了基于集成学习的关键词抽取[31];
2004年,李素建提出基于最大熵模型的关键词提取方法[4];
2006年,张阔提出基于SVM自动标引模型[32];
2007年,Ercan,G.与Cicekli,Ⅰ提出基于词汇链的自动标引方法[33]。
4 自动标引研究路线图与方法分类
通过对自动标引研究的综述,本文总结出自动标引的研究路线图(Road Map)如图3所示。主要有3个领域的研究者对自动标引进行了不同角度的研究,即:图书情报领域主要从资源构建角度进行研究,为主题标引提供了丰富的词表资源;语言学领域从语言分析的角度研究了主题提取的机制与方法,利用词法知识、句法知识、语义知识以及篇章知识进行不同层次的主题提取研究;人工智能领域主要从机器学习角度对自动标引进行了大量的研究,如利用启发式知识、标记数据的机器学习、无标记的机器学习、集成学习等方法的运用。
图3 自动标引研究路线
这3个领域分别从两个维度对自动标引进行研究,即:自动化程度维度,先后经历人工标引、机器辅助标引、自动标引等阶段;知识复杂程度维度,先后经历字、词、短语、语块、句法、语义、篇章结构等不同颗粒度的多种知识。
4.1 自动标引方法分类
根据标引结果的来源不同,可以将自动标引分为抽词标引和赋词标引。表1对抽词标引和赋词标引方法做了详细的分类,描述了具体的方法,并给出了各种方法的优缺点。
4.2 抽词标引方法的详细分类
根据标引的词语的来源不同,可以将自动标引分为自动抽词标引和自动赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及到如何从原文中抽取能够表达其实质意义的词汇,以及如何根据这些词汇确定标引词[46]。赋词标引是指使用预先编制的词表中词来代替文本中的词汇进行标引的过程。即将反映文本主题内容的关键词(欲用作标引的关键词)转换为词表中的主题词(或叙词等),并用其标引的方法[46]。自动抽词标引,可以进行如下的大致分类。
(1)从机器学习角度分类
监督学习:将关键词自动提取看成一种分类问题:如NB、SVM等;
非监督学习:利用非监督学习方法,如聚类方法获取关键词。
图4给出了基于机器学习的自动抽词方法的逻辑视图。
图4 基于机器学习的自动抽词方法逻辑视图
(2)从所使用的特征分类
规则信息:多为语言学特征,如标题、章节名、名词等作为关键词的概率大,相应地对这些特征赋予较高权重。其他的规则信息还包括对首次出现位置(DEP)靠前的、词性(POS)名词性成分高的词语赋较大权重等;
统计信息:TF-IDF[38]、长度,短语的独立性等。
4.3 赋词标引方法详细分类
通常的赋词标引方法是借助于外部资源,如后控词表(包括同义词、上下位词、相关词等)、叙词表、本体等资源,将自动赋词过程转换为主题词的分类过程,或将文本的关键词转换为主题词。如图5所示,根据赋词标引所依据的外部资源对赋词标引方法进行详细分类。
图5 用于赋词标引的资源[47]
5 自动标引存在的问题与研究展望
5.1 自动标引存在的问题
自动标引中存在的问题包括标引数据集不平衡问题、标引代价敏感问题、标引数据标注瓶颈问题、标引颗粒度问题、标引关键词数问题、标引结果评价问题、标引系统实用化问题等7个方面的问题。下面分别对这7个问题进行说明。
(1)标引数据集不平衡问题
对于一个文本来说,通常标引的关键词词数为3-5个,标引的关键词词数要远小于标引的非关键词词数。从自动分类角度来看,这个问题一般被称为分类数据集不平衡问题。在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易被大类淹没而忽略小类,分类不平衡问题是导致分类效果不理想的一个重要因素[48]。
(2)标引代价敏感问题
在实际的关键词标引中,人们一般不希望将关键词误标为非关键词,一个关键词漏标的代价比将一个非关键词标为关键词的代价高。这个问题一般被称为代价敏感问题。
(3)标引数据标注瓶颈问题
机器学习算法需要大量的标引样本,但已标引的样本所能提供的信息有限。另一方面,容易获得的未标引样本(如互联网上的网页)数量相对于标引样本较多,且更接近整个样本空间上的数据分布。提供尽可能多的标引样本需要艰苦而缓慢的手工劳动,制约了整个系统的构建,这就产生了一个标注瓶颈的问题[48]。因此,如何用少量的已标引样本和大量的未标引样本训练出一个好分类器,逐渐引起人们的关注[48]。
(4)标引颗粒度问题
一般说来,较专指的词适合作关键词,但专指度并不是越大越好。过于专指,不仅增加了自动标引的难度,而且在实际应用中,比如信息检索中,由于该词过于专指,不被一般用户所接受,使得该词作为检索入口的概率就会减小。在文本聚类中,专指越多,则特征向量越容易稀疏,增加了聚类的难度。因此,应该根据应用的场合,进行专指度自适应式的关键词自动标引。
(5)标引关键词数问题
对标引的关键词数有限制。根据应用场合选择合适的数目。在信息检索中,关键词作为一个揭示文本主题的单位,标引的关键词数适合定在9个词以内。主要原因为:首先,根据“7±2”认知规则,“9”是一般用户不需要特别努力就能够记住的词条个数[49];其次,文献的关键词手工标引词一般为3-5个,最多小于10个。值得注意的是,在某些文件自动处理(如自动分类、自动聚类)应用中,为了增加特征数目,同时又不至于产生高维数据问题,一般将关键词数目控制在50左右即可达到很好的特征选择效果[50]。
(6)标引结果评价问题
传统的做法是对照人工标引的结果或者专家打分的方式,如“863自动文摘测评”中关于关键词提取的评估方法,这种方法比较主观,成本也比较高。因此,构建一个自动标引的通用评价模型,以减少自动标引的主观性,节省评价成本,是一项有意义的工作[51]。
(7)标引系统实用化问题
绝大多数标引系统不是完全自动的,标引技术仍然处于实验阶段。正如十几年前Wellisch的比喻:“自动标引系统的研制在某种意义上恰似机械鸟的制造,经过20多年的试验,有些外貌开始像鸟,有些能够模仿几声鸟鸣,有些能扑打一番翅膀,但至今还没有一只会飞、会鸣”[52]。10多年过去了,标引系统的进一步实用化依然是人们追求的目标。
5.2 自动标引研究与应用展望
从自动标引研究路线图可以看出,自动标引的研究主流方法为统计学习模型与语言知识(如词类、句法、语义、篇章结构等)的结合。今后的研究方向主要有:
(1)本体的自动构建,并用于自动赋词标引中
从自动标引的研究历史可以看出,绝大部分研究集中在抽词标引上面,图书情报、语言学、人工智能3个领域的研究者都对抽词标引进行了大量的研究与应用。由于资源的匮乏或词表造价昂贵,使得赋词标引研究与应用相对较少。即便如此,机器辅助编制词表的研究一直没有停止过,该研究成果可以直接用于赋词标引。近年来,随着本体学习研究的不断深入,本体有望自动或半自动地被构建,并且可用于自动赋词标引当中。基于本体的自动赋词方法是在概念层面上对文本进行标引,并能识别概念之间的关系,标引结果可以用于语义检索当中。
(2)多种标引方法的集成学习、更理想的机器学习方法的运用
标引是一项富有智能性的工作。可以借助认知理论对标引任务进行分析和理解[53]。自动标引模型从最初依据启发式知识进行标引,发展到后来利用监督学习与非监督学习方法进行标引,都只是从一定程度上对标引行为进行拟合。目前还没有一种方法能完全能模拟并达到标引员的标引能力。多种模型或方法的集成,能在一定程度上提高自动标引的质量。多种标引模型或方法的集成学习要求每个标引模型标引结果存在差别,同时保证标引结果优于随机猜测的结果。因此,寻求更加理想的机器学习方法,并用于自动标引任务中,是今后自动标引研究的趋势之一。
(3)深层语言知识的获取及其在自动标引任务中的运用
自动标引主要依据候选对象的若干特征进行分析,将主题表达能力强的候选对象作为标引结果,如本文的标引结果为“自动标引;抽词标引;赋词标引”。在所使用的特征当中,绝大部分是通过词法分析或少量的句法分析而来。随着深层语义分析和篇章分析研究的不断深入,这些研究成果可用于自动标引任务,提高标引质量。
(4)自动标引的应用领域将不断扩展
最初,自动标引被用来解决文献缺少关键词这一问题。自动标引发展到今天,应用早已超过这一范围,它已经被广泛用于文本检索、自动问答、文本知识发现(或称文本挖掘)等领域。今后,随着互联网海量数据规模的进一步扩大,“信息爆炸”问题将变得更加紧迫。对信息资源进行基于主题的自动标引,并进行后续的数据挖掘,不仅能解决高维数据计算问题,并且能从主题或语义层次上对信息资源进行揭示和控制。随着语义网的不断深入研究和应用,作为一个传统的研究课题,自动标引将不断被赋予新的含义和特定任务。同时,自动标引的应用领域将不断扩展。
收稿日期:2007-09-13
标签:主题词论文; 文本分类论文; 特征提取论文; 文本分析论文; 自然语言处理论文; 主题模型论文; 关键词分类论文;