信息检索语言的研究与发展趋势_自然语言处理论文

信息检索语言的研究与发展趋势_自然语言处理论文

情报检索语言研究及其发展趋势,本文主要内容关键词为:发展趋势论文,情报论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1.情报检索语言的概念和研究现状

情报检索语言是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统,其职能是作为情报检索系统的语言保证,它的核心问题是检索效率。这是传统环境下的情报检索语言的定义。我国情报检索语言是在20世纪80年代借鉴国外检索语言的基础上产生和发展起来的,并在理论和实践研究上取得了丰硕的成果,情报语言学逐步走向成熟,对一些热点问题,如分类主题一体化、自然语言应用等问题在理论上进行了探索,在技术上进行了实践。90年代以来,随着国际互联网络的发展与延伸,情报检索语言面临的信息环境已发生了深刻的变化,如信息资源类型复杂多样,网络数据库数量急剧膨胀。这就要求情报检索语言要突破传统的束缚,开拓研究思路,适应新的网络检索环境,但是情报检索语言在网络环境下的发展趋势是一个非常值得研究的课题,也是面向21世纪情报语言学的发展方向。

2.情报检索语言在网络环境下的发展趋势

关于在网络环境下的情报检索语言(人工语言),有的专家认为人工语言不适用于网络环境。有的专家认为采用自然语言,自然语言会完全取代人工语言。笔者也认为采用自然语言是一种必然趋势,但是自然语言和人工语言在网络信息环境下都不可少,情报检索语言发展的大趋势是两者的融合。情报检索语言与自然语言各有优点,也各有缺点。如人工语言在对保证网络信息资源的标引和检索的质量比自然语言具有优势,采用人工语言的成本也要远远高于采用自然语言的成本。自然语言的天生弱点是“无语义关联”、“无控制”,达不到检全和检准的满意检索效率,这就需要大量编制自然语言与人工语言的对应表,自动对应转换。对应词表编制得越细致,系统的智能程度越高。大量编制对应词表,既改善了人工语言的滞后,也克服了自然语言的弊端。情报检索用语言发展的大趋势,是情报检索语言的自然语言化和自然语言的情报检索语言化,是两者的初级结合到完全融合的过程。所以,情报检索语言的未来与自然语言的未来在某种意义上可以说是同一个问题。张琪玉先生认为在自然语言与情报检索语言两者完全融合的新型情报检索语言普及以前可能是下列三种情况并存:情报检索语言与自然语言在同一个检索系统中并用,情报检索语言增加自然语言成分,自然语言适当引进情报检索语言的原理与方法。

吕娟、袁相琴两人提出第四种情报检索语言理论,她们认为第四种情报检索语言是自然语言与人工语言结合的一体化语言,第四种情报检索语言系统是一种基于网络的信息检索系统,比分类主题一体化情报检索语言系统更高级更新颖,它是一种能将知识再组织并产生新信息的超前系统。它是一种与单一功能(如查找、复制)的规范化语言完全不同的模式,这种模式有自我学习的知识库(或称思想基因库)及完善的专家系统,是我国21世纪情报检索语言系统研究的方向。

3.情报检索语言适应网络环境的发展对策

情报检索语言在网络环境下应该积极采用以下对策来发展自己:

3.1 处理好网络环境下情报检索语言的兼容性问题

建立统一的搜索引擎的分类体系要实现分类体系的规范,建立统一的搜索引擎的分类体系。正如《中图法》作为图书的分类标准一样,搜索引擎也应有一套成熟的分类标准,以适用于各搜索引擎的使用。这不仅对知识的组织,信息的交流,而且对用户的熟练掌握,都是有利的。

积极采用国际标准检索语言标准的制定和实施不仅提高检索语言编制和使用质量,而且为兼容与互换提供了必要条件。积极采用国际标准是世界各国检索语言标准化发展的普遍趋势。编制多语种检索语言也与网络化趋势相适应,当前世界上多语种检索语言持续增长,采用多语种检索语言,可同时完成不同语种检索语言的标引工作,便于读者用不同语种检索,实现不同语种的检索语言之间的兼容,便于国际交流和共享。我国应编制一些多语种的检索语言,可先将《中图法》、《汉语主题词表》等进行改造,使其成为多语种的检索语言。利用国家叙词库,走语言兼容之路建立国家叙词库是为实现汉语叙词表的统一和兼容而采取的一项重要措施,利用叙词库,可以作为兼容中心,成为各种词表词汇协调转换的媒介,《中图法》和《汉语主题词表》在国内有着“权威”标准的独特地位,有最广泛的影响和最众多的用户,实际上已经起到在不同程度上兼容各种专业分类表和叙词表的作用。《中国分类主题词表》是《中图法》和《汉语主题词表》二者有机结合的一体化系统,并在我国推广应用近10年,《中国分类主题词表》属于集成词表兼容模式,易建立、易扩充和发展,而且适应面广。为了在网络环境中发展,《中国分类主题词表》必须不断完善,目前最有效的措施是必须提供一个自然语言接口。

自然语言与其它类型检索语言的兼容性问题。任何一种检索语言,无论其体系多么完善,方法多么先进,一般来说它都不可能适用于一切检索系统,满足一切要求。虽然自然语言较之受控语言在贴近文献实际、标引、检索、与计算机合拍等方面有明显优势,但对其不利因素的控制和知识组织功能较差等缺点,仍需利用检索语言的某些原理和方法进行研究与完善。

3.2 自然语言引入后控词表

自然语言后控机理表现为通过在检索系统中实有的自然语言检索标识的基础上编制后控制词表,并利用计算机生成基础词汇表加上一定的人工干预,对作为文献检索标识的自然语言词进行控制,建立等同、等级、相关关系等各种语义关系和充分发挥转换功能,促使检索用词组配及检索入口实行规范化,以达到自由扩检的目标。自然语言引入后控机制,可以扬长避短,充分发挥自身的优势,克服由于非规范化导致的痼疾,更好地体现出自由化的特色,编制自然语言与情报检索语言即人工受控语言的转换对应词典,或者充分利用入口词表技术建立良好的自然语言入口,并可在适时条件下编制专家词典和相应的词典程序,充分发挥自然语言后控机理之功效。建立一种能充分适应以人工智能技术和神经网络技术为主要依托背景的智能情报检索的后控词表,并充分利用通过链表形式形成的知识库和文献信息库,罗列出可供选择的各种自然语言检索标识,组成一个能很好地显示语义关联和非线性跳跃式映射关系的检索标识系统。

3.3 建立网络专业指引库

网络专业指引库是指将Internet网上某一专业或特定主题相关网址中的页面信息、网址信息和数据库信息(主要是数据库信息)进行二次加工和组织起来的网络信息数据库,使用户能通过最简单的操作方式,以接近或完全自然语言形式的专业语言,通过Internet网对专业指引库进行专业信息的检索。根据网络专业指引库所揭示的内容不同,网络专业指引库可以分为两种:第一种网络专业指引库是以主题树的形式提供给用户相关信息资源的分布,并指引用户查找。第二种网络专业指引库,将各相关Web站点数据库或页面中的特定专业或主题的信息定期或不定期地进行二次加工后,再发布出去,并提供很方便的检索入口,供网络用户使用。其最根本的特点是向用户指引的不仅有URL地址,而且包含具体的相关信息。从信息检索理论的角度看,网络专业指引库的理论构建基础应是传统的定题信息检索服务(简称SDI)。网络专业指引库可以看作是基于网络的定题信息检索服务。

3.4 移植模糊性原理

模糊理论给出了一套表现自然语义的理论和方法,使自然语言能够转化成机器可以“理解”和接受的东西,提高了机器的灵活性。在计算机情报检索实践中使用的人一机结合的题内关键词索引就是一例,人一机结合的题内关键词索引采用的是一种“含糊抽词”的办法,它不需把关键词完整地从题名中分离出来。所谓“含糊抽词”是指只要能分辨出题名中哪个词或词素具有检索意义,也就是可以作为检索入口和能字面成族的,就把它作为关键词排到检索入口位置,而不需再考虑一个词抽到何处结束的问题。具体做法是:在题名中插入一个表示该处要轮排的符号,计算机就复制一个条目并按符号排入相应位置。插入多少个轮排符号,就复制多少个条目,轮排多少次。模糊控制具有许多传统控制无法与之比拟的优点,如使用很方便近似的语言方法,易于掌握。对过程参数的变化具有较强的适应性,操作人员易于通过人的自然语言进行人机界面联系,这些模糊条件语句很容易加入到过程的控制环节上等。由于模糊控制的这些独特优点,模糊逻辑可使电子计算机模拟人的直觉,并依据不确切信息做出决定。因此,模糊理论在计算机情报检索系统中有着非常广阔的应用前景。

3.5 充分利用自然语言理解技术

自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。自然语言理解技术大致可分为机器翻译、语义理解及人机会话技术几个方面。其中机器翻译(machine translation),又称机译(MT),是利用计算机把一种自然语言转变成另一种自然语言的过程。智能搜索引擎在这一领域的研究将使得用户可以使用母语搜索非母语的网页,并以母语浏览搜索结果。人机会话技术可以为计算机提供下一代的人机交互接口,实现从文字接口、图形接口到自然语言接口的革命,同时在家用电器的人性化设计方面有着广泛的应用前景,其技术内涵主要包括语音识别、语音合成两个核心部分。语义理解通过将语言学的研究成果和计算机技术结合在一起,实现了对词语在语义层次上的理解。在语义理解的整个过程中,智能分词技术是最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。尤里卡的智能分词避免了传统分词技术在拆分时产生的歧义组合。从而为语义理解的处理提供了良好的原始材料。同时,在分词的过程中,知识库当中的同义词会被逐个匹配并同时提交给语义理解模块使用,这样处理过的句子,不仅提供了原始的句型,还同时搭载了语句的概念部分。吕娟、袁相琴认为汉语分词技术难题的进一步解决是加快我国第四种情报检索语言系统研究的关键。计算机如何能够自动识别汉语自然语言词并把它们自动搜集起来编制成汉语自然语言词表,以《中国分类主题词表》为核心的第四种情报检索语言系统是在其各个专业体系逐步完成情报检索语言自然语言化的基础上实现。

4. 结束语

目前,对于情报检索语言的研究特别是对自然语言应用的研究有的项目仍然在试验阶段,仍需进一步深化。但随着网络信息技术如人工智能、网络信息检索、计算机网络、知识挖掘、自然语言处理等的发展,必将为情报检索语言的研究和开发应用提供更为有力的支持,情报检索语言也必将充分利用网络信息技术,来更好地为用户服务。

标签:;  ;  ;  ;  

信息检索语言的研究与发展趋势_自然语言处理论文
下载Doc文档

猜你喜欢