因特网信息检索工具的十大发展方向,本文主要内容关键词为:十大论文,因特网论文,发展方向论文,信息检索论文,工具论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G354.47 [文献标识码]A [文章编号]1004-325X(2001)01-0075-02
1 万维网检索工具主流化
为了帮助人们充分和有效地利用因特网的信息资源,网络工作者先后开发了多种信息检索工具,如FTP(文件传输协议)、Telnet(远程登录)、Gopher(金花鼠)、WAIS(广域信息服务器)等。与上述几类检索工具相比,WWW(万维网)检索工具的出现,使用户获取信息的手段有了跳跃性的进步。由于具有联网简单、超文本连接、标准格式、规格大小可伸缩、多媒体、浏览界面、易用等优点,万维网检索工具已成为目前因特网上最先进的网络信息检索工具。万维网检索工具的发展速度和规模,是其他现有因特网检索工具所不能比拟的。据报道,有75%的因特网用户是通过万维网检索工具获取信息的。
2 搜索引擎的集成化
最初出现的WWW搜索引擎为独立搜索引擎,独立搜索引擎也叫单一搜索引擎,是指只能在自己搜集的信息或数据库中查找用户所需的资料和信息的搜索工具,如Altavista、Yahoo等就属于这一类。独立搜索引擎的缺陷是检索范围狭窄、无法利用别的工具搜索信息。随着独立搜索引擎数量的不断增加,它们各自使用的检索方式也日益复杂,其缺陷暴露也越来越明显,于是集成化的搜索引擎应运而生。
集成化的搜索引擎也叫多元搜索引擎,它是多个独立搜索引擎的组合。它在检索时要调用其它多个独立搜索引擎,并能将从多个独立搜索引擎检索到的结果进行不同程度的处理。运用集成化搜索引擎,用户可以同时对几个搜索引擎进行检索,从而避免了在不同搜索引擎上所做的重复劳动,节省了检索时间。
3 服务区域的全球化
因特网上的信息检索工具最初主要是针对美国国内用户以及使用英语的用户而设计的,它们对检索网上其他语种的信息无能为力,而其它国家及语种的用户在使用这种工具时也感到十分不便。随着因特网的迅猛发展,网上其他语种的站点和信息越来越多,其他国家和地区的上网人数也大幅度增加,这就使原来存在的这种矛盾暴露得更加突出。而网络通讯设施以及检索工具自身性能的日益提高,则为解决这些矛盾提供了技术等方面的保证,于是,就促使了网络检索工具向全球化发展的趋势。例如,Infoseek除了在美国本土设有站点外,又在巴西、丹麦、德国、意大利、日本、英国、墨西哥等11个国家分别设立了Infoseek的国际站点。另外,著名的网络检索工具Yahoo除了它最初的英文版外,在五大洲都设有它相应的子站点。尤其值得提出的是,随着网上中文信息影响力的增强,很多检索工具如上面所说的Infoseek、Yahoo以及AltaVista、Globepage等都推出了中文版本。
4 服务领域的两极化
从服务领域与内容上看,因特网信息检索工具呈现出两极分化的发展趋势,即综合化与专业化。
因特网上最初出现的检索工具,如Gopher、WAIS、Archie等,只是单一的信息检索工具,并不能提供其它的信息服务。发展到万维网检索工具后,则除了提供信息检索服务以外,还能够进行软件下载、免费电子邮件申请、新闻浏览等,可以从多方面为用户提供便利,实际上它们已经演化为以信息检索工具为主的综合性网站。另外,为了进一步增强自身的实力,谋求更大的发展,提高自己的竞争能力,许多检索工具网站开始与别的公司合并与联盟,并进而扩大服务领域,开拓其他方面的业务。如Infoseek与著名的电信巨人AT&T签订了协议,在主页上加入了AT&T链接,既提供传统的电信服务,也包括一系列基于因特网的语音服务等。
在一些检索工具服务领域综合化的同时,另一些因特网信息检索工具的服务领域则向专业化方面发展。这是因为,随着网络信息的迅猛膨胀,检索工具无法做到面面俱到,它不可能收齐每个学科的信息;另外,每个学科都有自己独特的词汇及用语,同一术语在不同的学科中具有不同的定义,通过综合性的检索工具检索到的信息在准确度和专指度方面是难以保证的。于是,一些专业性的网络检索工具在工程、哲学等几个领域应运而生。
5 检索语言的一体化
网上信息数量与种类的剧增、用户检索行为的自助化、检索模式从“提问检索式”向“浏览检索式”的转变以及信息检索技术的提高,给传统环境下的各种信息检索语言带来了很大的冲击,使它们原来那种自立门户、各自为政的局面很难维持下去,促使它们向一体化、兼容化方向发展。这种一体化主要体现在分类语言与主题语言的一体化、自然语言与受控语言的一体化、各语种检索语言的一体化等。
与传统检索系统划分为分类检索与主题检索一样,网络检索工具也分为按范围层次检索和按词语检索两种。为了弥补各自的不足,实现功能互补,现在越来越多的范畴层次检索开始加上关键词索引,而越来越多的词语检索也带有范畴层次索引,如Infoseek就同时支持导航和查询两种方式,很好地将分类检索和主题检索结合到一起。由此可以看出,实现分类语言与主题语言的完全兼容,发挥最佳的整体效应,是网络信息检索工具发展的必由之路。
随着自动翻译软件水平的提高,检索工具所使用的不同文种的语言将可以互相转换,这样有助于用户克服检索工具的语言障碍。
6 检索功能的多样化
针对网络信息分布无序、难以规范化和结构化、内容特征抽取复杂等特点,网络信息检索工具的功能也将进一步向多样化方向发展。检索功能的多样化具体体现在以下几个方面:
一是检索角度的多样化。目前网络信息检索工具提供的检索点主要有文件名、文件标题、作者、网址名、日期等可检字段。从这些角度还不足以充分满足网络信息检索的需要,目前,专家们正尝试着从信息的表现形式(如图表、图形、声音、影像等)、内容性质(如理论、实验、产品综述、方法、新技术的应用等)、数字符号(如温度、频率、化学符号等)等角度进行网络信息检索。
二是检索途径的多样化。既可以满足一般用户的浏览检索,又可以满足专业用户的专指检索。
三是检索手段的多样化。作为一个整体,网络信息检索工具具有的检索手段主要有:布尔检索、词语检索、截词检索、字段检索、概念检索、邻近度检察、区分大小写等。当前,检索工具普遍支持的是布尔检索和截词检索。
四是检索结果输出形式的多样化。为了满足用户的不同需要,检索结果趋向多样化的输出形式,它可以按照详简程度、相关程度、词语顺序等多种形式排列,也可以在返回的结果中进行二次检索,还可合并返回结果、删除重复的链接等。
7 检索内容的深入化
在现阶段,网络信息检索工具大多实行的是相关性检索,其检索结果多数不直接指向某条相关文献,而是指向某个相关的网页。网页下有众多的文献及指向相关网页的超链,用户可以根据自己的需求,按照线索,找到自己需要的信息。这种检索模式在某种程序上符合人们的思维习惯。但由于网上的海量信息,它有可能使用户沉溺其中,不断误入歧路而背离了原来的检索目的。为了避免这种情况的出现,需要我们在保持非线性检索优势的基础上,提高检索深度,由对文献线索的检索发展到全文检索,由相关性检索发展到直接性检索,由文献整体检索发展到信息单元检索。
8 系统维护的动态化
网上信息资源具有很强的动态性特征,其产生、更新、消失往往不易预测,这就要求网络信息检索工具系统本身也要有很强的动态性。
每个网络检索工具都是由索引及检索机制两个基本部分构成的。索引的更新频率决定了检索结果的时效性。目前,大多数索引为每周更新一次,也有每月甚至更长时间更新一次的。为了提高检索结果的时效性,现在很多检索工具都在准备进一步加快索引的更新频率,以便尽可能缩小检索工具信息库与网上信息的时差,用最短的搜索周期将已经发生变化的网页信息加以标引,追加到数据库中,并及时剔除已成死链的链接。另外,为了适应网上信息的快速变化,一些专家正在研究如何更及时地将检索工具构建的知识组织体系和术语系统进行动态性的更新维护。
9 检索技术的智能化
因特网的飞速发展,对检索工具的智能化程度提出了更高的要求。智能化程度高的检索工具在竞争中将明显地处于有利的地位。目前,除了新兴的自动标引、自动文献、自动跟踪、自动漫游等智能化检索技术正在逐步走向完善外,网络专家们又推出了智能浏览器、学习智能体、知识共享智能体等最新的网络信息高度智能化检索技术。
10 用户界面的友好化
由于因特网是一个开放的网络,网络上的信息检索工具也越过了传统的检索中介(如图书管理员)等而面向所有终端用户。在这种情况下,用户界面的易用性成为评价检索工具性能的极其重要的指标。一个友好的用户界面要能支持用户多种语言、多种逻辑方式、多种角度等进行提问检索,尽可能使用户付出最小的努力就能掌握对检索工具的使用。在这方面,许多网络检索工具都有许多工作要做,如配备详细、通俗、查询方便的关于自身的介绍帮助文件等等。
[收稿日期:2000-08-27]