网络信息检索语言的发展趋势_自然语言处理论文

网络信息检索语言的发展趋势_自然语言处理论文

网络信息检索用语言的发展趋势,本文主要内容关键词为:发展趋势论文,用语论文,信息检索论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 G254.0

首先对本文中所用的两个名词说明一下:(1)情报检索用语言=情报检索语言(属人工语言范畴)+自然语言(在情报检索中的应用);(2)网络信息检索用语言,指情报检索用语言在网络环境下的应用,并非指情报检索用语言的一种特殊类型。

1 网络信息检索采用自然语言是必然趋势

关于网络信息检索用语言的发展趋势,几乎所有研究者都认为是采用自然语言。我也认为采用自然语言是一种必然趋势。事实上,自然语言目前在国外网络信息检索中的应用,就其普遍性而言,可以说是占着主要的地位。所有的网络信息检索工具几乎都提供关键词检索,关键词就是自然语言。搜索引擎软件可自动从用自然语言编写的网页中收集关键词,建立索引数据库,提供关键词检索途径。这可以说是一种自动标引方式,建库效率非常高,建库成本非常低,特别是建库速度非常快,这正适应网络信息资源数量庞大且增长迅速的状况。所以,网络信息检索工具采用自然语言检索的必要性是不容置疑的。问题在于,网络信息检索工具是否可以唯一地使用自然语言,人工语言(情报检索语言)在网络环境下是否已失去其使用价值,自然语言的发展将取代人工语言的预言是否会实现,我们可以放弃或削弱人工语言在网络环境下应用的研究吗?

2 网络信息检索不能唯一地使用自然语言

大多数研究者之所以认为采用自然语言是网络信息检索用语言的发展趋势,是因为他们认为人工语言(即情报检索语言)不适合标引网络信息资源。其理由归结起来是:使用人工语言标引速度慢(因而远远跟不上数量庞大的网络信息资源的增长速度)、处理时差大(不能及时反映最新发布的信息)、对标引人员要求高、标引成本高、一般用户使用困难。与自然语言的自动标引相比,这些缺点确实是不容争辩的事实。许多研究者正是根据这些人工语言不及自然语言之点以及计算机技术可以解决一切问题的信念而断定:人工语言在网络环境下已不再具有发展前途,最终将被自然语言取而代之,因而不再具有研究价值。

这种观点的正确性是值得怀疑的。网络信息检索不能唯一地使用自然语言,也必须使用人工语言。

我们在看到人工语言种种不足的同时,绝对不可忽略了人工语言的一个重大优点,那就是:使用它标引的数据库检索效率(检全率和检准率)相当高,是使用搜索引擎软件建立的数据库所不能比拟的。储荷婷等在《Internet网络信息检索——原理工具技巧》一书最后一章的“网络信息检索技术的发展”一节中指出:“一些经过信息工作者标引的专业数据库……它们的检索功能和效果都是现有网络信息检索工具望尘莫及的”[1]。而对于需要在网上寻找针对自己需要的网络信息资源的用户来说,检索效率却是首要的。

由搜索引擎软件自动建立的网络信息资源索引数据库所支持的关键词检索,其致命的缺点就是检准率太低,往往达到使人无所适从、无法容忍的地步。检索结果常常是“想找一棵树,可给了一片森林,要挖一块宝石,却指向整座矿山”,面对几千、几万甚至十几万条的检索结果,虽然“其中必有一条适合你”,但怎样从其中找到真正适合需要的那几条或几十条呢?

虽然,国外的网络信息检索工具采取了方式繁多的增强关键词检索功能的措施(我归纳了一下共有二、三十种,见《网络信息检索工具增强关键词检索功能的措施》一文)[2],但其检索效率仍很不理想。关键词检准率很低,这几乎是一致公认的。以至流传着这样的幽默:“令您苦恼的是,即使使用这些检索工具,您往往得到的是成千上万条似是而非的网站名称,面对它们您不得不承认‘因特网信息检索定律’:在因特网上您总能找到(甚至只能找到)您不需要的东西”[1]。这则幽默当然是针对关键词检索(也就是自然语言检索)的缺陷说的,因为分类浏览检索不可能出现这种情况。正因为如此,国内外的网络信息检索工具目前除提供关键词检索功能外,几乎都提供分类浏览检索功能。而分类浏览检索功能恰恰是人工语言。

另外,目前正在大力推广的“元数据”,它与MARC的记录项目(或者说著录元素)类似,是一种文献著录标准。元数据的提出,首先是为了鼓励作者和出版者或网页制作者以搜索引擎软件(自动资源发现工具)能收集的形式来提供元数据元素,鼓励包含有元数据元素模块的网络出版工具的创造,从而进一步简化元数据记录的创建工作。元数据可以规范网页的格式和项目的内容,通过修饰词丰富项目内容,并便于各种格式之间的转换,从而提高用搜索引擎软件自动建立的网络信息检索工具的索引数据库的质量,最终提高网络信息关键词检索的质量。我认为元数据中的“主题”项尤为重要,该项目规定要使用某些种比较通用的分类表和词表,也就是情报检索语言。这实际上是对“人工语言不适用于网络环境”的观点的否定,说明自然语言和人工语言对网络信息资源的检索都不可少,并隐含着人工语言比之自然语言对保证网络信息资源的标引和检索的质量具有更大重要性的意思。因为采用人工语言的成本远远高于采用自然语言的成本,如果人工语言不比自然语言重要,那末,为什么还规定要采用它呢?[3]

3 自然语言检索达到完满程度的两个难题

自然语言在情报检索中的应用所面临的两个难题:①是如何从自然语言文本中抽出最能准确、充分地表达文献有价值内容的词,以及这些词与检索课题有效匹配的问题。这个问题的复杂性在于文献作者的用词无明显的规律性,以及作为人类社会现象的自然语言不可能用纯自然科学的方法去研究解决。这个问题同机器翻译的性质类似。如果去追求百分之百的自动化,至少在短期内是无希望解决的(当然,自然语言自动处理现有的一些中间成果还是有实用价值的);②是克服自然语言由于不规范和缺乏语义关联性而对检索不利的问题。克服这个难题也是不能完全用自动化方法的。除此以外,对中文来说还有一个汉语分词的问题。而这个问题的解决,只是达到了拼写文字国家的起点水平,拼写文字中未解决的上述两个问题仍有待我们去解决。[4]

从研究四、五十年后,目前所达到的水平看,克服这两个难题的难度实在很大,仅仅凭借计算机处理技术的纯粹的自然语言检索(或者说不利用情报语言学原理控制的自然语言检索)“在短期内(例如二、三十年)的完满实现”是不大可能的。所以,自然语言的发展将取代人工语言的预言也有待以后的历史去证实。

4 人工语言真难用,自然语言真易用吗

许多文章作者的一个重要论据是,人工语言难用而自然语言易用,因为使用人工语言需要学习而使用自然语言不需要学习。这个论据是缺乏事实基础的。事实上,无论使用哪种语言或哪种方法进行检索,如果要获得较好的检索效果,检索者都是需要经过一定的学习过程的。从目前网络信息检索工具所采取的各种增强关键词检索功能的措施看,其复杂程度比之分类浏览检索更甚。而人工语言如果采用一些易用化措施,则会比使用自然语言检索要容易得多(当然是指取得较好的检索效果而言要容易得多)。

5 自然语言与人工语言发展的大趋势是两者的融合

应该说,情报检索语言(人工语言)与自然语言各有优点,也各有缺点。情报检索用语言发展的大趋势,是情报检索语言的自然语言化和自然语言的情报检索语言化,是两者的初级结合到完全融合的过程。所以,情报检索语言的未来与自然语言的未来在某种意义上可以说是同一个问题。情报检索过程绝对不能没有控制。完全无控制的自然语言检索在理论上固然说不通,在实践中也未见证明其在主要方面,即在检全率和检准率方面,确实优于情报检索语言的事实。这就是说,自然语言不可能全面取代情报检索语言,淘汰情报检索语言。但从另一方面看,在计算机检索特别是网络检索的条件下,自然语言有许多重要的优点,故它也必然会更进一步得到发展。

在自然语言与情报检索语言两者完全融合的新型情报检索语言普及以前可能是下列三种情况并存:情报检索语言与自然语言在同一个检索系统中并用,情报检索语言增加自然语言成分,自然语言适当引进情报检索语言的原理与方法。[5]

6 检索用语言以外的问题

6.1 网络信息检索工具是否能覆盖全部网络信息资源

持网络信息检索用语言只能是向自然语言发展的观点的研究者的一个论据是,只有用搜索引擎软件在网上搜索和自动建库,才能适应网络信息资源的庞大数量和增长速度,从而达到网络信息检索工具完全覆盖的网络信息资源,这样的网络信息检索工具才是最具实力的,最能满足网络用户需要的。对于一个理想的网络信息检索工具而言,这个论据确实不容置疑。网络信息检索工具的覆盖率总是越高越好。

但在现实中,就一个网络信息检索工具而言,要达到完全覆盖网络信息资源是不可能的,这正象没有一个图书馆能够收藏齐全当今世界上所有一切文献一样。只能是,世界上所有图书馆收藏的总和,可接近全世界现存文献的总量。目前覆盖率最大的网络信息检索工具,据估计也只占网络信息资源总量的20%左右。综合性网络信息检索工具不可能剥夺专业性网络信息检索工具生存的权利。专业性网络信息检索工具收录数量不大,但在专业领域内有其优势。

从另一点来看,网络信息检索工具完全覆盖网上的信息资源也是不必要的,而且并不一定是好事。因为网络信息资源实在太多了,而其中却混杂了很大比例低质量的信息和“信息垃圾”以及重复的信息。所以,许多网络信息检索工具提供所谓“限定首先在经专家选择的网页内检索”或“限定首先在5%最优站点范围内检索”。由此可见,在建立网络信息检索工具时应该对其收录的网络信息资源进行评价和筛选。而对网络信息资源的评价和筛选,却是自动搜索软件难以做到的。

6.2 时差要求缩短到什么程度

持网络信息检索用语言只能是向自然语言发展的观点的研究者的另一个论据是,只有用搜索引擎软件在网上搜索和自动建库,才能使网络信息检索工具最及时地反映网上信息资源现状特别是最新发布的信息资源,保证所提供的信息的时效性。这个论据一般地说来也是不能否定的。

时差决定于网络信息检索工具的更新周期。各种网络信息检索工具的更新周期目前一般为一周,最短的不到一小时,最长的则为一个月。

时差并不是全部网络信息资源都要求非常短。也就是说,更新周期可随信息资源的性质、类型而异。例如,对于股票行情信息,最好能实时反映;新闻的时差最好不超过一日,而象文艺作品,则一个月的时差也无妨。所以,一个网络信息检索工具若能保证股票行情、新闻、天气预报、商情之类信息能及时反映外,大多数信息时差稍长也是可以的。

6.3 Yahoo!的成功告诉我们什么

Yahoo!是网络信息检索工具中办得最成功的一个。它获得广大网络用户的青睐,获得极高的访问率和声誉,从而也获得极高的广告收益。仅6年多的发展,目前资产已达40多亿。

Yahoo!的覆盖率并不是最高的,其关键词检索也并不被认为是独特的。它之所以获得极大的成功,主要是依赖于它用人工标引的供分类浏览检索的数据库,具有很高的检索效率,而且,用户对分类浏览检索,感觉更为易用。这充分说明,建立人工标引的人工语言数据库虽然成本很高,但有其不可取代的优点。

目前,国外的网络信息检索工具在提供关键词检索(即自然语言检索)功能之外,一般都提供分类浏览检索功能,也即使用人工语言。

7 在网络信息检索工具中人工语言与自然语言并用是现阶段较合理的模式

从以上分析可以得出结论:目前在网络信息检索工具中,人工语言与自然语言并用,兼取两者的优点,是较合理的模式。

尽管使用人工语言建库成本很高,时差较大,数据库的覆盖面也较小,但其检索效率较好。用户检索网络信息资源,是希望以较少的努力准确地获得对自己真正有用的信息,因而检索效率较高的人工语言具有重要价值。

但人工语言确实也有不足之处,如用人工语言建库覆盖面较小,时差较大,因而不易满足某些最新、最专指的检索要求,等等,同时采用自然语言,就可补人工语言之不足。

当然,这只是人工语言与自然语言结合的初级模式。

8 顺应情报检索用语言发展的大方向

上面分析了在网络信息检索中,人工语言和自然语言都起着不可取代的使用,因而对两者的研究不可偏废。目前,亟待从情报语言学的角度来深入研究自然语言检索中存在的问题(这是自然语言检索研究中的薄弱环节),把情报语言学的原理和方法引进自然语言检索的研究,并要重视利用情报检索语言已往所积累的成果(例如分类表和词表对概念和术语的整理)。也要积极研究情报检索语言在网络环境下应用中所遇到的新问题,寻找改进方法,特别是吸取自然语言的优点来弥补情报检索语言的不足之处。这两方面的研究,应朝着并且必然会朝着从两者的初步结合到完全融合的目标前进。

(收稿日期:2001-02-25)

标签:;  ;  ;  ;  

网络信息检索语言的发展趋势_自然语言处理论文
下载Doc文档

猜你喜欢