网络环境中信息检索理论与实践的发展,本文主要内容关键词为:信息检索论文,理论论文,环境论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G201 [文献标识码]A [文章编号]1003-2797(2001)01-0002-05
信息检索作为一门学科,其历史可追溯到20世纪中期。自20世纪90年代以来,以Internet为核心联接起来的全球计算机网络,使传统的相对集中和规范的文献数据库及其检索系统面临挑战。在网络环境中,传统的“提问—检索”模式已逐步被“浏览—查询”模式所取代。与此同时,网络环境中信息检索的理论与实践研究也都围绕这一模式展开。
1 检索语言兼容与整合的研究
检索语言是建立和利用检索系统必要的语言。传统的文献检索系统是采用对自然语言事先规范而形成的受控语言(如分类表、主题词表),来描述文献信息特征、生成概念及其概念标识系统,人们通过分类表中的分类符号或主题词表中的主题词(或叙词)作为控制检索的入口格式进行检索。在网络环境中,文献尤其是非文献信息数量急剧增多,受控语言的专业性太强、应用范围有限及更新维护困难等不足日益突出,而自然语言恰恰可以解决这些困难。所谓自然语言,是指作者的书面用语。采用自然语言,可以减少概念间转换产生的误差,检索入口词多,操作简单、方便、灵活,也适合专业人员之外的广大用户群。但从网上自然语言使用的情况看,问题并不那么简单。如选词不加严格控制,会导致词语量过大,过多占用磁盘空间,从而影响主题的集中,降低查准率。同时,由于自然语言对多义词也基本不加控制,往往使相关主题内容的文献分散,从而造成漏检。受控语言与自然语言存在的这种互逆相关性,恰好说明它们在网络环境中兼容、整合的必要性。近年来,国内外学术界提出的检索语言兼容、整合措施与方法,主要有以下一些:
(1)对自然语言进行适当控制的方法。文献[1]提出的控制方法有:①事先控制法。当检索要求输入时,即加以控制,而对输出不加限制。这样,用户可以先选择自己所需要的词汇,再通过一种入口词表将提问词转换成受控词汇,以提高查准率。事先控制法能减轻标引人员和检索者的负担。②事后控制法。此法与上述方法相反,它既不对检索提问词进行任何控制,也不对输出结果进行太严格的控制,是一种在很大程度上接近自然语言,又保留受控语言许多特点的控制方式。
(2)对各种数据库采用的不同检索语言进行综合、集成的方法。网络检索实践表明,试图用一种检索语言统一各种数据库的不同分类体系及叙词法是不现实的。G.Riesthuis提出了词语、句子和主题三个层次的兼容方法;D.Soergel提出将多个叙词表集中起来构建同一个数据库软件模式。国内外关于这方面的研究成果较多,如艾奇逊的《分面叙词表》、《中国分类主题词表》、张琪玉先生的“学科—事物概念—组配”模式、美国的UMLS(一体化医学语言系统)等。
(3)采用中介语言来实现多种检索语言之间的兼容。国内外不少专家提出建立一种转换系统,即中介语言来实施网络检索系统中多种数据库查询语言的兼容。如Dahlberg所进行的以《情报编码分类法》(ICC)作为转换系统与国际著名分类法UDC、DDC、LCC、LBC等兼容的可行性研究,A.P.Chamis研制的词表转换系统(Vocabulary Switching System),兼容了物理、商业、社会科学、生命科学等专业领域的12部叙词表。
(4)通过标准化手段实现各种检索语言的兼容。标准化是检索语言兼容的最高层次。Soergel、Modholt等学者建立了一种开放式、多功能、多种语言的分布式概念和术语知识库,来集中和规范概念间各种关系及其使用规则;C.Moore和J.Chain等学者对多文字/多元化环境下的标题表数字化问题进行了研究。
随着自然语言处理技术的发展,跨国语言的检索将越来越普遍。在对检索语言兼容、整合进行研究时必须看到,受控语言仍有自然语言无法取代的优势,多种检索语言(受控语言)和自然语言的多种使用方式的结合,将共存于信息检索系统之中。
2 网络信息资源组织与揭示的研究
目前,关于网络信息资源组织与揭示的研究主要包括以下几方面:
(1)自由文本组织方式。自由文本以全文数据库存储为基础。它将一个信息源的全部内容(而不是信息的线索),转化为计算机可以识别、处理的信息单元而形成数据集合,适应了对Web网页中非结构化信息处理的需要。它必须对全文数据库进行词(字)、句、段落等深层编辑、加工,允许用户用自然语言表述、检索,直至直接查看一次信息。由于自由文本组织方式占用的空间大,系统响应速度慢,因而关于全文数据库压缩技术的研究,关于超高密度磁盘、光盘及芯片技术的研究,以及关于自然语言后控机制的研究和给标引短句加权的研究等,将是自由文本组织方式中需要解决的问题。
(2)超维组织方式。这是一种基于知识单元的新型信息组织与揭示方式,它借助超文本技术来实现。超文本技术将文本信息存储在无数节点(node)上,一个节点就是一个相对独立的“信息块”,节点之间用“链”(link)联接,由此组成信息网络;它也可以链接声音、图像(形)、影视等多媒体信息,构成超维检索点。在这种超维系统中,用自然语言分析、抽取知识单元,不仅减轻了专业标引人员的负担,而且打破了传统系统线性序列的局限性,允许用户按个人兴趣和熟悉的语言浏览、查询信息。目前,国外研制的基本理论参考模型有:①Dexter——超维交换格式的标准模型,它由运行层、表现层、存储层、锚定及内成员层等构成。该模型中用于标准化的主要层次是运行层、存储层和内成员层。运行层与存储层之间、存储层与内成员层之间的接口分别采用规范、锚定机制。运行层显示多媒体信息以及用户与系统的交互;存储层由成员和链组成超网;内成员层描述成员的内容和结构。它在保持系统各层次之间的充分独立性、面向全局、有效的接口机制,以及层与层之间的通信交流方面有突出的优势。②适用于多种类型的超维系统模型(HAM)。该模型包括数据库层、超媒体抽象机层(HAM)和表现层。数据库层主要处理信息存储中的传统问题,保证信息的存贮对高层的透明度。抽象机层决定节点和链的基本特征,记录节点和链的关系,并保存节点的结构信息。表现层则处理抽象机层中信息的表现,作为人机交互的窗口。
(3)FTP组织方式。FTP是以文件系统保存和组织网上信息资源的最简便方式。它传送的文件包括文本、图像、声音、多媒体、数据库以及可执行二进制的代码文件,其操作类似于在网络上两个主机间拷贝文件。
(4)主题树组织与揭示方式。主题树方式主要是通过人工发现信息,选择并对其进行粗浅归类(包括网址主题类及子类、子子类等),从而构建一个层次分明的等级结构体系。主题树方式由于采用人工编制,具有科学性、专题性特征,能较好地满足人们按类浏览专题信息的需求。
(5)计算机索引数据库组织与揭示方式。这种方式与主题树方式的主要区别是非人工构建,即主要依据于Spider或Robots的计算机软件程序的运作,是目前网上二次信息组织的主要方式之一。其组织方式有:①Spider根据数据网络协议在网上漫游,发现新的网址、网页信息,抽取、排序、归并建立网络索引数据库;②数据库按一定方式、结构存储,提供特定处理系统需要的相关信息(包括网址及相关描述性信息、计算机可识别的字段标识符)。这种方式的自动化程度高,更新速度快,并可提供位置检索、概念检索、截词检索、嵌套检索等。
(6)指引库组织方式。指引库常用于组织网上专题性强的二次信息。它是一个由语义信息、文献信息、链接信息组成的语义—文献双层数据结构。其中语义信息与语义链集合构成双层结构的第一层;文献信息和结构链构成另一层;链接信息由不同的语义节点的语义链、不同文献节点的结构链以及链接于语义节点和文献节点之间的链组成,穿行于第一、二层之间。指引库不是有关网址的堆积与拼凑,而是对网上专业信息资源的重组和开发,在内容上必须符合专业人员研究的需求,在功能上具备动态性,能及时更新数据,反映学科前沿的情况。
3 网络信息检索机制及应用的研究
储荷婷教授针对WWW站点资源的组织过程与方式,提出了检索机制的三个组成部分,即采集标引机制、数据组织机制和用户检索机制。其中,以Robots为核心的网络信息资源自动采集,旨在以HURL、HTTP为基础,集中不同类型的信息产品(纸质型、缩微型、计算机可读型、录像带、光盘等),使全球范围内的各种信息资源能实时及时地进入信息系统。其自动采集机制提供的网页样本,为网络检索工具的量化标引、量化评价提供理论根据。数据组织机制以数据采集为依据,直接对网上索引数据库系统的动态维护与管理产生影响。用户检索机制涉及用户界面友好、检索策略的合理程度、检索执行以及检索结果的相关性处理等。因此,完善检索机制可以说是网络信息检索领域的核心课题,国内外许多专家学者主要围绕下列有关检索机制问题开展研究。
(1)网络信息检索工具分类研究。网络检索工具处在发展之中,从不同角度对其进行类型划分的研究很难统一。信息检索专家曾民族先生提出了网络搜索引擎的三种划分方法:①按信息内容组织方式划分为分类范畴搜索引擎和词语搜索引擎两大类。前者主要包括Yahoo、Infoseek、Galaxy、GNN,以及WWW Virtual Library;后者主要有Webcrawler、Lycos、Alta vista、excite、Open-Text等(刘静的划分方法与此相一致)。②按专业范畴划分为通用性和专业性查询引擎两类。③按检索功能划分为常规(或单一)查询引擎与多元查询引擎。后者是多个单一搜索引擎的集合,又称元搜索引擎或集成搜索引擎。元搜索引擎是网络检索工具的后起之秀,它没有独立的数据库,主要依靠系统提供统一界面,构成一个一对多的分布式且具独立功能的虚拟逻辑机制。主要的元搜索引擎有W3 Search Engines、Savvy Search、All-in-one、Best Search、Metacrawler等。此外,雷燕、曹红兵认为网络搜索工具从功能角度可划分为目录式、索引式、指南式三大类;黄晓斌将其划分为分类主题目录式、搜索引擎式、主题式及多元式;符绍宏则按网上信息资源组织方式,将网上信息检索工具划分为Web式搜索引擎与非Web搜索引擎两种类型等。目前,对网络信息检索工具的研究已从上述的类型划分进入深开发阶段,即在更高程度上优化检索工具。例如,关于构建网上专业指引库的研究、网上资源自动跟踪与发现技术的研究等。
(2)网络信息检索工具比较评价研究。对网上信息检索工具的比较研究主要集中在系统功能设置、用户界面、数据库内容结构与更新,以及对国内外搜索引擎的准确性、易用性、可选择性、检索效果的分析、比较等方面。分析、比较的目的,一是帮助用户选择优质检索工具,二是为网上信息检索工具的量化评价提供理论依据。除了元搜索引擎外,大部分搜索引擎都有自己独立的数据库。因此,评价研究主要是数据库资源和搜索引擎性能的评价。对于数据库资源的定性评价,应该说用于印刷型资料的标准同样适用于网络信息资源(包括数据库资源)。目前,定性评价研究主要侧重在:①热门或精选站点推荐;②设立网络编辑或网络评价员。定量评价主要包括:①学科站点分布;②用户访问数量;③站点被引用情况。在评价数据库资源的指标体系方面,Hinchlife提出的内容范围、适用对象、编排方式、权威性及价格,R.M.Gurn强调的可存取性、权威性、交互性与愉悦性,董小英提出的信息发布的权威性、信息的广度与深度、主页链接的可靠性、版面设计质量、信息时效性、主页的可操作性及读者对象等,都是可参考的指标。在搜索引擎性能的评价方面,曾民族认为Lancast提出的针对传统系统的涵盖范围、查全率、查准率、响应时间、用户方便性、输出格式等标准,基本上适用于网络信息检索工具性能的评价。在此基础上,他提出了数据库规模与内容、索引方法、检索功能、检索结果(相关排序、内容显示、输出数量选择、显示格式选择)、用户界面、检准率和响应时间等评价指标。
(3)网络信息检索策略研究。从文献[2]、[3]、[4]、[5]中可以看出,网络信息检索策略与网络信息检索工具的功能并没有什么两样。“功能”强调其静态性,“策略”则强调其动态性。网上各类型搜索引擎所采用的检索策略除个别特定符号规定外,大部分都认同布尔逻辑、截词手段、相邻度检索、位置逻辑检索、字段检索、加权检索以及自然语言检索、相关信息反馈等的使用。全面了解这些策略对检索入门至关重要,但灵活运用主要取决于用户的直觉、经验而不是逻辑思维。用户可以采用网上各种搜索引擎规定的特定检索策略标记符号及组配原则,浏览、查询自己需要的信息。如黄晓斌提出的策略是:一般性查询选用Yahoo,自然语言查询用Infoseek,不确切知道关键词时用excite进行概念检索,全文检索用Open-Text和excite,反向检索用Webcrawher,短语检索用Open-Text,查期刊论文选用The Electric Library等。雷燕则从检索方向、检索细节、最可能查到相关信息、搜索站点评论、搜索标题和URL、检索用户小组等6个方面,归纳了可选用的搜索引擎及其策略。
智能化是网络信息检索工具的发展方向,即由“智能代理”充当用户与检索工具的中介,包括用户的检索工具选择、策略的灵活运用、搜索并整理检索结果等。
4 网络信息检索服务的研究
对现代信息技术的深层次开发,创建和支持以用户为核心的服务模式,是网络检索服务研究的重要内容。在这方面,以“推”(push)技术为基础的网上主动信息服务机制的研究,正成为国内学者关注的热点。
所谓“推”技术,是指根据网上用户个人需求的特征,运用“筛选”、“过滤”机制,将信息不断、主动地提供给用户的一系列软件技术的总称。“推”技术是相对“拉”(pull)技术而言的。一般情况下,“拉”方式由用户来控制信息的查寻或获取,而“推”则是由信息的生产者或信息系统来控制信息的流向。从信息传递角度看,“推”服务方式的意义在于:①改变了用户与信息相互作用的传统模式,即信息找用户而不是用户找信息。②经过“过滤”与“筛选”的信息更符合用户的需要。③直接推送至桌面的信息避免了不必要的广告手段。④锁定网上特定的用户群,有利于促进信息机构开展专题信息服务。⑤按一定定制组织与发送信息,缩短了用户在网上浏览的时间,节省了带宽,减少了无效信息的流量。目前,美国华盛顿大学图书馆、加州洛杉矶分校图书馆、北卡莱罗大学图书馆等正在进行“推”技术及其服务的模型试验。其相关技术主要涉及:网络用户的个性化描述、主动网页专业性描述及编程技术、智能浏览器技术、不同载体的信息再现技术、加密数字化出版物传送技术等。
5 网络信息检索的发展趋势
(1)网上信息资源类型复杂多样,信息系统的异构性给用户统一访问接口及访问网上所有与自己需求相关的信息带来困难。因此,对网上不稳定的信息进行规范非常重要。在数据资源描述方面,都柏林核心元数据(Dublin core)的推出,使网上数字资源著录内容与标引格式的标准化迈上了一个新台阶。所谓元数据,是描述数据本身基本特征的数据,其内容类似于图书馆编目记录。其目的不在于取代AACR2/MARC编目规则中的详细描述模式,而是为编目人员或非编目人员进行信息资源描述提供一个核心的描述机制,即一个共同遵守的描述信息资源的标准,使网络资源的创编者在信息资源的生产阶段就可以同时完成其特征描述,并使自动索引软件随时发现和搜集到这些记录,有效地实施网上资源组织管理与检索。最近版的元数据由15个描述款项组成。其中,1~7项用于信息资源内容的描述,8~11项用于信息资源产权的描述,12~15项用于辅助性特征的描述。在使用过程中,元数据仍然存在问题。例如,由于允许任何背景的信息提供者自己为数据赋值,人为性太大;又如,网上用户查询时因不可避免的选词差异等,使元数据描述机制本身也需要相应的标准来补充。未来的发展是从控制词表入手,去解决自动控制语言中的规范问题,以便为信息资源提供者与用户双方提供透明的规范体系。在检索手段方面,Z39.50是一种用于规范客户机与服务器之间信息交换格式的网络信息标准。这一标准在互联检索开放系统中,为解决异构检索发挥了重要作用。目前,它已广泛应用于联合编目、馆际互借、馆藏检索、信息检索等方面。从发展角度看,它还将对CD-ROM检索产生重要影响,并在网上主动“推”技术的推广方面大有作为。
(2)检索手段的智能化。目前,网络检索工具研究的重点正向某些“中间件”或“智能代理”方向发展。其最终目的是用智能索引软件判断用户行业及使用网络的情况,在较高程度上去分辨、识别、理解用户的检索需求及其特征,并整理检索结果。实现检索手段智能化的技术包括:①爬虫(spiders)软件的智能化,它可以对网页上文献的相关性及其所含链接的质量作出判断,筛掉不相关的网页。②智能搜索引擎技术(如Ask Jeeves),其功能是:先通过模拟传统检索过程的咨询协商,索取有关检索数据,再到大型知识库中进行检索。智能搜索引擎还具有推理能力、调整用户检索策略、提高检索效率和提供用户定制服务等功能。Alta Vista采用了智能技术,开发出了"Ask Altavista"智能检索服务,收到了较好的效果。
(编者注:此文第一作者焦玉英教授系武汉大学信息管理学院博士生导师,第二作者索传军现为该学院的博士研究生。)
(收稿日期:2000-11-08)
标签:自然语言处理论文; 信息检索论文; 自然语言论文; 搜索引擎技术论文; 用户研究论文; 数据库系统论文; 网络节点论文; 数据库语言论文; 系统评价论文; 信息发展论文; 国外搜索引擎论文; 语言描述论文;