自然语言处理与信息检索,本文主要内容关键词为:自然语言论文,信息检索论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G354.4
1 自然语言处理
1.1 概念
自然语言是指人们日常生活中所使用的语言,如汉语、英语等,它是千百年来在社会生活中自然形成的语言。计算机的程序设计语言如PASCAL、C等则是由人工设计而成的语言,故称为“形式语言”。
自然语言处理(naturallanguage processing,简称NLP)也称为自然语言理解,是语言信息处理的一个重要分支。所谓语言信息处理,在我国就是中文信息处理。它是指用计算机对包括汉语(字)的形、音、义等信息及词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理。其中,自然语言处理侧重于研究计算机对于句子、篇章的处理。
美国认知心理学家G.M.Olson曾提出4条准则作为衡量计算机理解语言的标志,它们是:
能成功地回答输入语料中的有关问题;
在接受一批语料之后,有作出该语料摘要的能力;
能用不同的词语复述输入的语料;
有将一种语言翻译为另一种语言的能力。
无论使用什么机器,或采用何种算法,只要具有这4种功能之一,就可以说该机器实现了自然语言理解。
1.2 研究内容
计算机要理解和处理自然语言,必须像人一样具有词法、句法、语义和语用等知识。就人自身而言,对语言文字信息的理解和处理大约有6个层次,与此相应的,自然语言处理也有6个层次,它们是:①语音学层次,是关于对声音的识别、理解与合成;②形态学层次,涉及对各种词形和词的可识别部分的处理,如前、后缀、复合词等;③词汇学层次,其重点在于全词操作和词汇系统的控制;④句法层次,它与语言结构单元的鉴别有关,具体而言就是对输入的单词序列进行分析,看它们能否构成合法句子,如果能则给出相应的合法句子结构;⑤语义层次,指对自然语言文本意义的识别、理解和表示,它涉及各级语言单位(单词、词组、句子、句群)所包含的意义及其在语言使用过程中所产生的意义;⑥语用学层次,这是对涉及上下文和语言交际环境以及背景意义和联想意义的语义分析。
由于自然语言处理侧重于句子、篇章,因而句法分析、语义分析、语用分析3方面便构成了自然语言处理研究内容的基础部分。
一般认为,自然语言处理主要有以下4个应用领域:机器翻译、信息检索、人机接口、篇章理解。因此,这4个方面的技术构成了其研究内容的应用技术部分。
2 自然语言处理与信息检索的关系
自然语言处理和信息检索发生联系与信息检索的计算机化及自然语言化有着直接的关系。信息检索是一种“语言的游戏”,为了从某信息集合中搜索出特定信息,检索者需构造合适的语言集合以作为提问。随着检索的计算机化和自然语言化,这项工作便将从检索者转移给机检系统内部,这就给机检系统提出了更高的要求。而自然语言的处理则使得其应用成为必要与关键。这里要区别的是信息检索中提到自然语言是指文献作者或文摘提要的作者原来使用的语言,而非与形式语言相对应的那个概念。
2.1 从信息检索的过程看
信息检索有这样几个步骤:信息源处理、提问信息处理、匹配过程、结果排序输出。自然语言处理可以运用在任何一个或全部步骤中,至于应用多少,是否深入则要视实际情况而定。
在信息源处理阶段,自然语言处理的应用能够对信息源做更精深的分析提炼,其它如数据挖掘的应用亦如此,它朝着知识管理的层次发展。
在提问处理及匹配阶段,运用自然语言处理有两个明显的好处:用自然语言提问,用户更容易传达他们的信息需求;自然语言处理的全面应用有利于消除一些问题,如用户的提问未将潜在的有用信息包括在内、用词正确却导致检索与意义不匹配等。这样对查全率与查准率都有好处。
在信息排序输出阶段,能提高信息排序的质量,因为它能更确切地理解用户的提问和意思倾向。
2.2 从自然语言处理方面看
如前所述,信息检索是自然语言处理的4个应用领域之一,因而也构成了其研究内容的一个方面,关系十分紧密。从自然语言处理的6个层次的技术来看,应用到信息检索领域较多的是形态学、词汇学这两个层次的技术,属于前者的如自动标引中的词汇识别、联机检索过程中的截词检索和字顺浏览式检索;属于后者的如自动标引时的停用词排除、检索键自动替换、拼写错误的检测与改正、缩略语的处理等。其它如在语音、句法、语义、语用等层次上的应用则很少。比较特殊的是语用学层次,自然语言处理目前在这一层次上有很大困难,而信息检索领域采用的一些方法如引文索引法、同引聚类以及动态词关联显示技术等则似乎走在了前面。
3 自然语言在信息检索中的应用
自然语言很早就被纳入到情报检索语言中,但在手工条件下其应用很困难,因而已逐渐被规范语言所替代。随着信息检索的计算机化和文献数量的急剧增加,规范语言的缺陷日益明显而自然语言的应用成为可能,并形成了新的趋势。自然语言在信息检索中的应用方式主要有以下几种:
关键词法。可用于编制印刷本的关键词索引,数据库的倒排档等。
以自然语言作为入口词。利用计算机的换词功能,以自然语言辅助规范检索语言的使用。
自由标引。标引人员在对文献情报内容进行主题分析的基础上,按一定规则自拟标引用词。
自动赋检索词和自动赋分类号。利用计算机的自动换词功能,根据从文献题名、文摘中自动抽出的关键词,通过自然语言与分类表或词表的对应表,赋予文献检索词或分类号。
自动标引。由计算机实现文献标引,分为抽词标引和赋词标引两种类型,前者是从文献中自动抽出能表征文献主题的词作为标引词,而后者则在此基础上引入预先编制的词表来规范自动抽取出的词,不过这种词表从其生成来看与规范语言词表本质上是不同的。
自动文摘。利用计算机来完成文献文摘的编制。其一般过程如下:①原始文献的录入,使之转化为机读形式;②确定每个单词和句子的“意义”与权值的测量标准;③通过计算每个单词和句子的权值来分析输入计算机内的文献,选出一组最能代表文献主题内容的句子;④排列和打印句子,形成文摘。
可以看出,自然语言及其处理技术虽在信息检索中得到了充分应用,但其难度是较大的。目前,自动文摘方法基本上是建立在统计规律基础上的,如何解决自然语言及其处理技术在信息检索中的应用问题,还有待于自然语言处理技术的深入发展。
文本检索。文本是文献题名或文摘、文献的正文。文本检索就是不对文献进行标引,而是以自然语言表达检索课题。它需要借助计算机的自动匹配功能,直接在篇名、文摘、正文中查找。文本检索要掌握字符串匹配、截词检索、位置逻辑检索等技术。
如果是在正文中查找,则也称为全文检索。对于全文检索而言,全文数据库的建立以及文本检索功能的实现是其两大技术支持。与传统检索方法相比,全文检索的主要优点体现在以下4方面:①避免了自动标引过程中的不准确和选词问题;②用户可以直接浏览最终检索结果,从而为实现反馈检索提供了条件;③能有效地克服假组配,有较高的查全率;④可以达到任意的专指度。
全文检索存在不少有待解决的问题,如存贮空间、误检率较高、文本匹配的算法优化等。对于中文全文检索而言,汉语切分问题则是一个关键问题。
单汉字检索。以单个汉字作为标引和检索基本单位的检索即为单汉字检索。其实质也是文本检索,不同点在于它将文本中的每个汉字以字为单位全部做成倒排索引,检索时,用单汉字组配法查找。因而也被称为“全标引”。从另一个角度看,因单个汉字绝大多数不能独立表达文献主题概念或作为索引项,又等于没有标引,故也属于“无标引系统”。
单汉字检索的优点有:①具有实现检索词的左截断、右截断、中间截词(通配符)功能;②组配灵活,可任意调整检索专指度水平,有利于“字面成族”检索;③能节约人工标引的大量劳动,避免标引的主观性和不一致性;④可用于文献内容的统计、分析和研究。
单汉字检索的缺点表现在:①加重了检索者构造检索策略的智力负担;②难于处理文本中的隐含概念主题;③单汉字自动标引会使无检索价值的虚字或分辨力很差的常用字在索引中占很大比例。
虽然单汉字检索有上述缺点,但由于它回避了汉语分词这一问题,故目前仍有不少系统在使用这种方式。
这里需要指出的是,上述应用方式中,自由标引与单汉字检索虽然都应用了自然语言,却并未涉及自然语言处理技术。前者由人工进行,后者则根本回避了自然语言处理方面的问题。其余的各种方式则不仅引入了自然语言,更引入了自然语言处理技术。
4 自然语言处理在信息检索中的应用与自然语言检索
4.1 自然语言处理在信息检索中的应用
自然语言处理在信息检索中的应用方式大致有以下两种:
对传统规范语言检索的自然语言化。它又分为两种:①对规范语言检索中的叙词表增补大量入口词;②在叙词表之前增设一个自然语言接口。无论哪一种都使得在标引和检索阶段可使用自然语言,而检索系统却仍然是由严密的叙词语言所控制。
信息检索与自然语言处理的有机融合。它也分为两种:①在无标引的检索系统中,以关键字、词、词组作为检索用语,在文本中直接进行匹配查找。这种方式实际上就是融入了自然语言处理技术的全文检索;②在检索系统中,标引采用的是自动标引、抽词标引或赋词标引技术,目的是赋予文献自然语言标引词,以使检索时直接用自然语言词进行匹配查找。
自然语言接口在技术上并不复杂,目前的主要问题是缺乏自然语言与情报检索语言的对应转换词典,包括汉语的对应转换词典和外语与汉语的对应转换词典。这种对应转换词典以专业性的比较适应,综合性的不仅编制困难,使用效果也不理想。而全文检索在有限地采用了一些自然语言处理技术,有待于进一步开发利用更多自然语言处理技术的同时也向自然语言处理领域提出了新的要求,如现有的句法语义分析技术效率低、覆盖面小,不适应检索需要。需要进一步开发对段落和篇章的深层次的分析技术,特别是对文本结构和会话模型的研究等,这些研究将有助于更好地理解全文。标引系统中自动标引的抽词、选词问题,也有待于进一步研究解决。
可以看出,上述两种方式虽都是信息检索与自然语言处理的结合,然而其性质却是不同的。第一种方式实际上是对传统规范语言检索的改良,它虽然加入了自然语言及其处理技术,但却并未改变其规范语言检索系统的性质。后一种方式则是将自然语言处理技术有机地融入到信息检索中,从而产生了一种与规范语言检索系统根本不同的自然语言检索系统。
4.2 自然语言检索
4.2.1 概念 目前,关于自然语言检索还没有一个精确的定义,我们可以从3个方面来界定它。从检索语言来讲,自然语言检索就是在为文献检索标识时,使用文献作者、文摘编写者原来所用的语词或标引人员自拟的词语,而不是取自词表的语词;从技术上讲,就是将自然语言处理技术应用于信息检索系统的信息组织、标引与输出;从用户来讲,就是用自然语言作为提问输入和对话接口的检索方式。
4.2.2 自然语言检索的优、缺点及面临的问题
——自然语言检索的优、缺点。
优点:①符合客观需要,可以不受限制地随时输入新词,因而可以跟踪学科发展,加速机检数据库的建设;②相对受控语言来讲易用性强,检索方便简单;③更好地体现了文献保障原则;④完全是专指的;⑤相对于受控语言统一性好。
缺点:①不能反映概念词间的一一对应关系,也不能反映概念关系的隐含性,无法排除同义词、近义词、多义词等词间的含糊现象,影响查全率;②由于选词没有严格限制,词量过多过杂,造成主题分散,影响查准率;③相关文献不能相对集中,容易漏检。
——面临的难题:
如何从文中抽出最能准确、充分地表达文献中有价值的词以及这些词与检索课题的有效匹配问题。其复杂性在于文献作者的用词无明显规律性,而自然语言不可能用纯自然科学的方法去研究解决。这一问题的解决还有待于自然语言处理技术的进一步发展。
怎样克服自然语言由于不规范和缺乏语义关联性而对检索不利的问题。这种不规范及其结果正是自然语言检索的缺点所在。在这点上,它与规范语言具有天然的互补性,也说明纯自然语言的检索是不可能也是不可行的,必须对其施加一定的控制。目前较一致的看法是对其采用后控词表的控制方式。后控制词表的性质类似于入口词表,作为一种转换工具和扩检工具,它罗列了供选择的自然语言检索标识。其特点是:其中的控制词(或分类号)并非直接用于标引,而是对作为文献检索标识的自然语言词进行控制(建立等同、等级、相关关系)。因此,在后控制词表中,标引—检索用词是自然语言,而非标引—检索用词却是人工语言,与一般词表正好相反。
针对自然语言检索存在的这些问题,目前需要在自动抽词及抽词词典、改进全文检索系统和单汉字检索系统、后控制词表编制自动化等方面加强研究。
5 系统实例
5.1 军用主题词表应用管理系统
该系统就其主要方面而言是一个优秀的叙词机助标引系统。它是一种改良型系统,具有自然语言入口功能,属于第一种应用方式。在用该系统标引文献时,若表达文献主题概念的自然语言词与词表中的叙词一致,或与词表中的入口词(同义词或被组代词)一致,都可立即自动转换成叙词,并自动将叙词登录入标引结果字段;若表达文献主题的自然语言词在词表中没有对应的叙词或入口词,该系统便会对自然语言词进行词素分析,利用词素相似性匹配原理,自动推荐一批有相同词素的叙词供选择;通过人工判别,选定合适的叙词(或组配)进行标引;若所推荐的词均不合适,则可将自然语言词作为自由词进行标引,并同时作增补记录。
该系统在应用词的相似度匹配原理时,以相同词素的个数为统计单位,并结合叙词词素的位置特征(如词素在词尾、在词首、在词中)及长度特征进行加权,可调整权值来扩充或压缩推荐词的数量以便选择,并加入同义词素避免遗漏等,从而使所推荐的词更具针对性和全面性。这种方法提高了词表的入口率,使标引工作更为容易。该系统所用的词素词表(称为知识库)采用在叙词表自身词汇和语义关系的基础上进行自动、滚动切分,辅以少量人工干预的方法,切分效率较高。
5.2 France Telecom的研究系统Telmi.
France Telecom作为各种服务和用户之间的中介,提供名为Minitel Server的服务,它旨在通过一个视频文本终端给用户(社会公众)提供选择各种服务途径(包括银行、电子出版物、医药或法律咨询等)。它开发的Telmi.系统是一个带有语言、语义数据的信息检索系统,包含3个模块:自然语言处理模块、自动标引模块、检索匹配模块。其中,自然语言处理模块和自动标引模块用于分析文献信息并构建被标引的文本数据库;而自然语言处理模块与检索匹配模块则用于分析提问信息并从文本数据库中抽取相关文献。自然语言处理对于消除系统中文献信息标识用语的歧义和不确定性以及概念化地表达文献信息起着重要作用。
在其自然语言处理模块中,含有词汇、句法及语义网分析工具,它们是构建在开放型、宽领域的知识库基础上的,因而无论工具还是数据都可重复利用。其中:词汇层负责处理如误拼写、打字错误等问题;句法层用于消除词汇的模糊性并形成概念化的表达;语义层的作用在于完成句法层无法做到的消除句子的歧义性和模糊性。
不难看出,这一系统属于第二种应用方式,即它是一个与传统规范语言检索系统不同的自然语言检索系统。
Telmi.是为中型短文本数据库设计的,France Telecom将其用在信息的中介服务中。所有边界在Minitel网上的服务项目都有对自己服务的一个介绍,它包括标目、标题、文摘。标题和文摘就是与每项服务活动对应的自然语言文本。这些信息经过Telmi.的自然语言处理工具的处理形成语义表达,所有的语义描述经过处理后汇集成文本数据库。同样,用户提问也经过这样的处理。最后,通过匹配得到的就是经过相关排序的服务项目的代码集。
标签:自然语言处理论文; 信息检索论文; 自然语言论文; 语义分析论文; 文本分类论文; 文本分析论文; 机器学习论文;