智能信息检索研究_自然语言处理论文

智能信息检索研究_自然语言处理论文

智能化信息检索研究,本文主要内容关键词为:信息检索论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 传统信息检索面临的问题

信息检索的主要任务是解决信息集合和需求集合的匹配与选择问题,以达到尽量满足用户的信息需求的目的。一个完整的信息检索系统应完成信息的收集、表示、存储,同时形成信息集合;提供能表达用户信息需求的检索模型,进而形成需求集合;按照一定的匹配算法进行信息集合与需求集合的一致性比较,并把最终结果返回给用户;用户对检出的结果进行相关性判断,调整或修改检索策略,重新检索,直到满意为止。所以,信息检索系统的基本功能模块包括:文本处理、数据存储、匹配机制和人机接口部分。

当前的系统和实验中,常用的检索模型包括布尔检索、向量空间模型、概率检索和模糊集合模型等。这些检索模型存在的共同问题有以下方面:文献标识是根据词频统计得出的,标引时只利用了文献的字符形式,未涉及文献的内容本身,所以标识往往不能反映文献的真实含义;不能很好地处理主题概念、标识之间的各种联系和因果关系;检索系统要求用户用规范化的语言来表达其信息需求,并规定了严格的输入格式,从而造成信息需求表达不完整或有偏差;检索结果只是一些文献线索,指引用户去获得原始文献;缺乏适当的人机交互。

由于以上问题,导致了传统信息检索中主题概念相同或相似的文献不能完全被检索出来,或检索结果中包括了很多关键词一致但主题相去甚远的文献。随着用户对检索过程的要求越来越高,传统信息检索的缺陷也越来越明显。为解决这些问题,人们开始寻找新的途径来弥补这些缺陷和不足,智能信息检索被提了出来。

2 智能信息检索的基本理论

2.1 智能信息检索的概念和特点

智能检索把现代人工智能的技术与方法引入到信息检索系统,使后者具有一定程度的智能特征,在更高的层次上完成其功能。智能化信息检索的目的是使信息检索系统“理解”文件包含的信息内容和用户的信息需要。它在对内容的分析理解、内容表达、知识学习、推理机制,决策等基础上实现检索的智能化。具体地说,智能信息检索具有以下特点:

2.1.1 智能检索系统是建立在大规模的知识库基础之上的,能够处理自然语言文本,它利用知识库的有关知识进行语法、语义分析,从内容上真正理解并准确描述文献所论述的主题。

2.1.2 智能信息检索则可以在知识库中使用语义网络、框架等各种知识表示方法来充分体现各主题概念和标识之间的分、属、交叉的复杂关系。

2.1.3 智能检索系统能理解、分析用户的自然语言提问,检索过程中用户和计算机之间可以不断地进行自由、充分、多方面的反馈交流,具有较高的人机交互水平。

2.1.4 智能检索系统中的检索结果是用户可以直接加以利用的信息,而且系统可以将部分文献内容以知识形态存放于目标知识库中,通过对知识库的搜索和推理,得出用户能够直接加以利用的信息。

2.1.5 智能检索系统的智能特性还体现在提问模型的形成过程中,即用户对问题的描述,借助于知识库里的有关知识,推断出他的真正需求,产生合适的提问模型。

2.2 智能信息检索的系统结构

一般来说,智能信息检索系统由知识库,文本处理和智能接口三部分组成。

2.2.1 知识库部分:知识库是智能检索的核心。它又由知识库系统、数据库系统和检索推理系统三个子系统构成。

2.2.2 文本处理部分:文本处理系统就是利用计算机自动处理自然语言形式的文本输入。它利用知识库中的语言学知识、科学知识和其他知识,对文本进行语法、语义分析界定,从内容上理解文献所论述的主题,并把它们表示成知识库中的知识单元和数据库中的数据元素,不断的丰富知识库和数据库。

2.2.3 智能接口部分:智能接口是用户与系统之间的通道。它的主要功能是对自然语言进行查询和处理;并作为智能终端建立用户兴趣档案;加工提取结果。

3 智能信息检索的主要方法

智能信息检索的实现可采用不同的方法,这些方法主要有以下类型。

3.1 统计方法

信息处理和信息检索中,统计方法是一种最基本的方法。最典型的统计方法是词频统计法,其最早的理论依据是Zipf定律。早在20世纪50年代Luhn就注意到Zipf定律,并在此基础上提出自动抽词标引的思想。指出标引词应该在某特定文献中的发生频率较高,在整个文献集合中出现的频率较低的特征词。现在许多自动标引的工作都是在Luhn频率统计思想的基础上展开的,如自动标引的矢量空间模型、概率标引原理等。统计方法也是智能信息检索的基本方法。

3.2 文本分析方法

智能信息检索的文本处理离不开文本分析。进行文本分析时,首先处理文本源,这种文本源可能是几个词组、句子、段落乃至篇章。计算机首先通过文本上下文中的一些线索来识别文本源所使用的语言。对于汉语文献,一个难点在于汉语的分词。汉语的分词涉及到汉语的词法、句法、语义各个层面上。由于汉语的多义性,语义消歧成为文本分析自始至终都面临的难题。汉语分词后,文本分析需要确定各个词在文本源中的重要程度;以及多字词、缩写词和其他词汇,如日期和流通数量,而汉语分词及特征词提取的方法决定文本分析方法的质量。

3.3 人工智能方法

利用人工智能进行信息检索主要涉及以下方法。

3.3.1 知识表示和处理的方法

知识表示是将关于世界的事实、关系、过程等编码成为一种合适的数据结构,是人工智能研究中涉及的重要内容。知识表示方法有许多种,在人工智能传统研究中,常见的知识表示有产生式表示法、框架式表示法、语义网络表示法、面向对象的表示法等几种。

语义网络是知识表示中最重要的方法之一。语义网络利用节点和带标记的边构成的有向图描述事件、概念、状况、动作及客体之间的关系。采用语义网络表示的知识库的特征是利用带标记的有向图描述可能事件。结点表示客体、客体性质、概念、事件、状况和动作,带标记的边描述客体之间的关系。采用网络表示法比较合适的领域大多数是根据非常复杂的分类进行推理的领域以及需要表示状况、性质以及动作之间的关系的领域。

产生式表示法又称产生式规律表示法,是用来表示具有因果关系的知识,其形式是P→Q,或者如果P,那么Q。即当前提P所指条件满足时,应该得到的结论或应该执行的操作为Q。

框架式表示法是以框架为理论基础发展起来的一种结构化的知识表示,它是描述对象属性的数据结构。框架是一种关于某个体类的结构化表示法,通常由描述事物的各个方面的槽组成,每个槽可以拥有若干个侧面,而每个侧面可以拥有若干个值。一个框架系统常被表示成一种数形结构,树的每一个节点是一个框架结构,子节点和父节点之间用isa和AKO槽连接。框架的一个重要特性是其继承性,所谓框架的继承性,就是当子节点的某些槽值或侧面值没有被直接记录时,可以从其父节点继承这些值。

面向对象知识表示是一种最有结构化的知识表示方法。用面向对象知识表示如同用框架表示知识一样要进行描述其对象一类,并可以按照一定层次形式来组织,因而面向对象知识表示具有结构化和模块化的特点。

3.3.2 基于自然语言处理的方法

在自然语言理解过程中,对语言的理解和生成都是对语言进行正确分析的结果。各个自然语言处理系统其结构各不相同,但是对语言的分析总是要包括词法分析、句法分析以及语义和语用分析等几个阶段,句法分析和语义分析是自然语言处理的基础。

句法分析是自然语言处理中的一个重要组成部分,句法分析的任务是要对输入的单词序列进行分析,并在此基础上构造出相应的句法树。所谓句法树是用来表示句中各成分之间句法关系的树状结构。

在句法分析理论方面,自然语言处理最早采用的方法是上下文无关语法(也叫短语结构语法)。由于其中的上下文无关语法既有一定的描述能力又比较简单,并能成功地根据这类语法来实现各种计算机程序设计语言的编译与解释系统,所以早期的自然语言处理系统都试图采用上下文无关语法来实现自动句法分析。后来人们逐渐发展出一些其他句法分析的语法,其中较著名的有:扩充转移网络语法、词汇功能语法、广义短语结构语法、功能合一语法、定子句语法,这些语法大大扩充了短语结构语法(即上下文无关语法)描述与生成自然语言的能力,同时又保持了短语结构语法表达简洁、处理效率高的优点,因而得到较广泛的应用。

语义分析是在句法分析的基础上进行的。语义分析的结果是语义网,而语义分析的工具之一便是语义关系。系统在进行信息处理过程中进入句法分析后,可以从全解中得到一个优化的有用解,然后进入句法语义分析。在这一阶段,对语言自身结构和句法属性进行综合分析,这包括:语法分析是句法结构、句法属性、句法关系的分析与确定,语义分析是对句子的语义分类、语义属性、语义关系的分析与确定。在句法分析的过程中分成三个层次,即短语子树层、谓词框架之内层以及谓词框架之间层,与句法分析的这三个层次相适应,每次句法分析后都相应地产生一个语义分析结果。因此,语义分析的过程也相应地分成三个层次,即短语子树的语义子网内的语义关系、谓词框架形成的单网内的语义关系以及各个谓词框架之间形成的多网间的语义关系。在语义分析理论方面,研究也在不断深化,其中比较引人注目的是语义网络,格语法,概念从属理论。

在自然语言处理的研究领域中,传统的方法是基于规则的方法。规则包括句法知识、语义知识、语用知识的表示及相应的推理知识。这是一种模拟人类理解语言的方法。由于自然语言是一个开放系统,用这种方法实现语言理解要求建造庞大的句法、语义知识库,庞大的专业知识库以及复杂的推理机制。因此自20世纪80年代以来,有些自然语言处理学者主张用基于语料库的方法理解自然语言。这种方法的特点是,分析方法主要依赖于对语料库中语言结构成分的统计特征,而不完全依赖于语法规则。因此基于语料库的方法不要求建造很完备的知识库和复杂的推理机制,这是其优点,但需要建造庞大的语料库,而建造具有一定规模的语料库不仅要输入大量经过精选的语料,而且还要对这些语料进行多种不同层次的加工,如自动分词、标注语法属性乃至语义属性等,这些语料才有利用的价值。

4 语料库方法

4.1 语料库方法解决问题的思路

语料,又被称为素材,是自然发生的语言材料的集合。而语料库(Corpus)是一个由大量在真实文本经过词法、句法、语义等多层次加工形成的语言材料库。这些加工的方式包括在语料中标注各种记号,标注的内容包括每个词的词性、语义项、短语结构、句型和句间关系等。随着标注程度的加深语料库逐渐熟化,成为一个分布的、统计意义上的知识源。语料库本身不能直接应用于自然语言处理中的句法或语义分析,但因为语料库包含了语言或者语言变体的词汇、语法结构、语义和语用信息,为语言学的研究提供了无穷无尽的资料来源,是计算机对文本进行各种分类、统计、检索、综合、比较等研究的基础,可以帮助语言学家揭示语言的词汇、语法、语义和语用规律,由这些语言学的规律汇集成词法、语法、语义词典或知识库等文本分析的工具,然后利用这些工具进一步对其他大量新文本逐词标注词性,划分句子成分,进行语义标注等。

4.2 语料库方法在信息检索中的应用

语料库包含了大量的文本,字数常常超过百万、甚至千万。人工维护、管理语料库所需的时间、资金是无法想象的,更不要说利用语料库进行语言研究,实现语料库的语言学理论和应用价值了。语料库的魅力来自语料库自动检索系统。借助于计算机的强大运算和信息处理能力和自动检索系统,语言学家可以迅速查找例证、对文本进行分析。正是语料库检索系统的开发和完善才使得语料库的应用价值得以体现。语料库检索系统一般有下列功能:选定一个或者多个检索文本;建立词汇表;查找关键词;排序并显示检索结果,等等。由语料库检索系统提供的检索结果为词法分析、句法分析和语义分析提供工具,从而实现在信息检索中的文本分析功能。

4.3 基于语料库方法的信息检索系统的实现

随着语料库的发展,语料库在信息检索和自然语言处理中起着越来越重要的作用,为克服传统的基于理解的理性主义的方法的局限,在中文分词,词性标注、句法分析、语义分析等过程中引入语料库的方法。语料库方法基于统计,在方法上是经验主义的。目前,对语料库至少可以做以下检索和统计;词项的频率分析,即将语料中所有的单词按字母顺序、或按出现频率的高低、或按单词的长短排列成表;上下文语境的共一分析,即将某个单词或某种词组形式在语料中每一次出现的前后语境全部列出,并且可以按需要设定其前后语境延伸的长度。同时将检索出来的项目自行作统计分析。在自动分词方面,有人利用语料库用统计的方法自动建立起附有相关度的切词词典,用于自动分词,提高了分词准确率。有人利用语料库生成汉字的二元语法关系,解决汉语自动分词中的交集型歧义问题,在词性标注方面,一般采用N元模型(N-Gram)来计算词性标记串的概率,选择概率最高的一个标记串作为输出。在本例中,“元”就是指词性标记,N元模型的意思是,当前词的词性取决于它前面已经出现的N-1个词的词性,为了计算每个可能的标记串的概率,就需要从训练语料库中统计每个长度为N的标记串的出现次数,如要统计任意两个标记的出现次数。可以把“长度为N的标记串的概率”看成是对语言知识的一种描述,跟规则形式的描述相比,具有以下优点:可自动获取(无需人工干预),能反映,小颗粒知识,这种知识在人写规则时常常被忽略。

目前,越来越多的人开始参与基于语料库的研究之中,语料库的研究渗透到自然语言处理的各个环节,与基于规则的自然语言处理方法相结合,从而进一步促进基于自然语言处理的信息检索的发展,加深对被检索文档和用户提问的理解和知识表示,实现信息检索的智能化,提高查全率和查准率。

5 智能信息检索目前的困难和问题

5.1 智能技术本身的不成熟

人工智能技术本身还有许多不完善的地方。主要体现在两个方面:

5.1.1 知识的获取与表示。其中较难解决的问题就是如何把复杂多样的专业知识形成系统化。此外,如果把人工智能技术应用到一个多学科综合的检索系统中,那么如何辨别某个多义词当前的具体含义,如何辨析用户特定的需求,这些都有待于继续研究。

5.1.2 受来自自然语言处理技术方面的局限。要想使计算机准确地分析、表达并传输知识,就必须使计算机具备理解自然语言的能力。目前对自然语言的处理,虽然已从语法阶段上升到语义阶段,但对自然语言的理解能力还限制在一些规范的语句和语法规围内,这就决定了智能信息检索系统所能具有的智能化表达程度。

5.2 信息检索系统本身的障碍

就检索而言,信息检索系统是一个复杂的系统,检索过程本身存在着以下难题:

5.2.1 信息检索系统所面对的用户来自不同专业领域,知识层次也各不相同,要使计算机对其进行合理定位是一个难题。

5.2.2 信息检索系统涉及的专业知识丰富,将诸多知识形式化较为困难。

5.2.3 信息检索专家系统不易建立。不仅这些专家的经验和技术很难准确地表达出来,而且不同的检索专家很可能对同一问题持不同的观点,这对专家系统的建立提出了难题。

6 结束语

智能信息检索是信息检索未来的发展方向。在智能信息检索算法的构建、信息检索的建设中,一些常用的基本智能方法和技术,如基于统计的方法,对文本分析将发挥一定的作用。同时,由于智能信息检索的关键在于对文献对象内容和用户提问的理解,所以,自然语言理解成为智能信息检索的基础。实践证明,句法分析和语义分析方法虽然仍有其价值,但语料库方法将成为文献对象内容理解和用户提问理解的重要方法。尽管目前智能信息检索的实现还存在着很多问题和困难,但这些问题的解决途径却在逐步明朗和清晰,随着这些问题的不断解决,信息检索中智能化程度会不断提高。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

智能信息检索研究_自然语言处理论文
下载Doc文档

猜你喜欢