数字图书馆检索工具探析,本文主要内容关键词为:探析论文,数字图书馆论文,工具论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 关于数字图书馆的设想
1.1 国内数字图书馆的建设现状
目前,关于数字图书馆还没有一个被公认的定义,从现实建设工作来看,其形式也是多种多样,有时它是一项国家数字资源系统工程(比如中国数字图书馆工程),有时它更像是一个网上书店(如超星数字图书馆、书生之家数字图书馆),而有时它更接近于传统图书馆的数字化、网络化(如上海数字图书馆等)。近几年,我国图书馆的数字化工作和数字图书馆的建设进行得如火如荼,的确取得了很大的成就,极大地丰富了中文网络信息资源,尤其是学术信息资源,为用户查询和利用信息资源提供了方便。
然而,无论是工程浩大的中国数字图书馆[1]、 上海数字图书馆[2]、还是清华大学建筑数字图书馆[3]等等,都仅仅忙于将馆藏信息资源数字化、网络化,而忽视了对信息量巨大的网络信息资源的组织。
我们处在一个信息爆炸的时代,因特网信息资源以几何级数的速度增长,导致几个问题的出现:(1)信息过多,用户难于寻找所需信息。带着一定需求的用户在因特网这个信息的海洋中常常迷失方向;(2)信息更新速度快,具较强的实时性,使人工标引难以跟上信息的增长;(3)信息类型多样,除文本信息,还有图像、音频、视频等信息, 给在传统文献信息资源组织方面经验丰富的图书馆编目员提出了新的课题。
很多高校图书馆和公共图书馆意识到网络信息资源的重要性,在图书馆门户网站的首页中设立“网络导航”或“搜索引擎导航”栏目,提供国内外著名搜索引擎门户网站(如Yahoo、Excit、Altervista、google、百度、天网等)的链接以及学科网络资源导航,对用户查询网络资源起到了引导作用,而不是利用数字图书馆自身的资源为用户提供服务全面的服务,可以说这还不是真正的数字图书馆。
1.2 我的数字图书馆理念
到底怎样的数字图书馆才是真正意义上的数字图书馆?从根本上来说,数字图书馆是为了解决网络环境下数字化信息的组织、查询与服务问题[4]。笔者认为判断数字图书馆必须具备这样三个指标:
第一,数字图书馆具有丰富的数字化资源,包括OPAC书刊目录库、全文数据库、多媒体数据库、网络数据库、网络信息资源库等等。
第二,数字图书馆能够向用户提供多种类型的信息资源的检索,如书目信息、书刊全文,各种音频、视频信息,还可提供网络信息资源检索服务,如因特网上Web、FTP、Gopher、Wais、Usenet等信息资源。
第三,数字图书馆将所有信息资源进行整合,实现跨库检索,向用户提供统一的检索界面,检索各种类型的信息。检索到的相关信息在统一的界面中显示。
参照以上三个指标,发现目前国内建设数字图书馆已经具备的一定的资源和技术基础,比如OPAC书刊目录库的标准化已经实现,自建和购买的全文数据库资源在高校图书馆已经十分丰富,以上海数字图书馆为代表的图书馆在多媒体信息资源建库和检索方面成就显著,而且信息资源的整合和跨库检索在技术上已经不成问题,目前亟待解决的问题是加强和完善对网络资源的组织和管理。
然而,如果采用图书馆贯用的人工标引的方式,面对浩如烟海的网络信息资源,别说对所有的网络信息进行标引,就是能达到0.01%的标引率也几乎是不可能的。因此,数字图书馆必须采用新的策略和方式对网络信息资源进行标引,向提供信息检索服务。
1.3 设想的提出
以上提出的问题是:建设真正的数字图书馆必须实现对网络信息资源的全面搜集、合理组织和有效利用,但传统的人工标引方法面对浩繁的网络资源只能“望洋兴叹”,如何解决此矛盾?以笔者之见,在建设数字图书馆的过程中应引进搜索引擎技术,对网络信息资源采用自动标引和人工标引相结合的方式。
1.3.1 搜索引擎原理
搜索引擎是因特网上最重要的应用之一,它能够在浩如烟海的因特网信息中找到用户所需的信息,因此深得广大用户的喜爱。搜索引擎的工作原理是:利用Robot、Spider、WebCrawler等搜索软件, 即能够从因特网上自动收集网页的数据收集系统,将收集所得的网页内容交给索引和检索系统,索引和检索系统通过扫描每一个网页中的每一个词,建立以词为单位的倒排文档,再根据关键词在每一个网页中出现的频率对包含这些关键词的网页进行排序,最后输出排序结果。页面生成系统再将结果高效地组装成因特网页面。我们就可以通过浏览器看到检索结果了[5]。
在国内,人们习惯于把一些能够提供搜索的门户网站称作搜索引擎(比如Yahoo),实际上这是一种误解。从原理上来说, 真正意义上的搜索引擎是基于因特网的搜索引擎,这种搜索引擎收集因特网上几千万到几亿个网页,并且每个网页上的每个词都被搜索引擎所收录,是基于整个因特网的全文检索,其返回的结果可以具体到一个个相关的网页,所以我们称之为网页搜索引擎,或全文搜索引擎。
利用搜索引擎自动搜集、标引网络信息,这种方式省时、省力,投入小,形成的数据库覆盖面广,可提供关键词、主题词或自然语言等多种检索途径;但由于未经过人工干预,信息加工的质量往往不高,从而使得检索的查准率较低,检索效果不佳。
1.3.2 值得借鉴的作法——雅虎的信息组织方式
雅虎的分类目录体系是采用人工标引的方式对网络信息进行组织的成功典范。人们常常把雅虎的目录服务认为是搜索引擎,其实目录服务和搜索引擎是两个完全不同的概念。目录服务是由编辑人员将各种网站按主要内容进行分类,组织成一层一层的分类目录。当我们要查找某类网站时,就按照其属性进入相关类目,一层一层地查找。这类目录服务同时也提供一定的搜索功能,但它的搜索范围仅局限在这个人工编制的目录系统内,当用户提交搜索请求后,这个搜索引擎就会在该目录系统中寻找相关网站,然后作为搜索结果提交给用户,象这种目录服务附带的、基于该目录系统的搜索引擎,我们一般称之为目录搜索引擎,由于其最后返回的结果是一个个相关网站的地址,我们也称之为网站搜索引擎。雅虎分类目录能够克服由机器自动标引带来的诸多问题,因此一时成为其他商业门户网站学习的典范。
但是,雅虎如果仅仅依靠人工标引的分类目录提供搜索服务,也存在许多无法克服的弊端。比如人工编制主题索引效率低,因而造成建立的数据库规模较小,有些类目下的文件数量有限,有价值的新站点,新内容反应不及时等。因此,雅虎与专门做搜索引擎的公司进行合作。
虽雅虎公司以“搜索引擎”闻名全球,实际上它只做网站目录,它只有搜索自己网站目录的目录搜索引擎。而雅虎网站上基于整个因特网的全文搜索引擎是由其他专做搜索引擎的公司提供的,以前是Inktomi,现在是Google。其实大多数商业门户网站的搜索引擎都是引进的,如美国在线、微软的MSN都采用“Inktomi”公司的搜索引擎技术和服务;国内的中国人、硅谷动力、广州视窗均采用百度的搜索引擎服务;第一华人中文网站新浪在去年11月23日宣布采用百度提供的中文网页搜索服务,推出新的综合搜索引擎系统,在与百度结束合约后,今年8月7日它又宣布与搜索新军慧聪合作,采用该公司的网神搜索引擎服务。
相比较而言,雅虎将自身的目录服务和Google搜索引擎结合得相当完美。从显示格式来看[6],雅虎将检索结果分为“相关分类”、 “相关网站”、“相关网页”、“相关新闻”四项,其中“相关分类”、“相关网站”的内容来自雅虎自己的分类目录,“相关新闻”的内容来自雅虎资料库,而“相关网页”的内容则是Google的搜索结果。在用户输入检索词,点击搜索后,雅虎的搜索工具实际上进行的是跨库检索,同时通过接口技术要求Google搜索引擎进行搜索,然后雅虎将所有的检索结果以统一的界面显示,看起来就象是从一个数据库中得到的结果。其响应性能很好,在不到一秒钟的时间里就能提交结果。
雅虎引进Google搜索引擎,是采用手工方式与机器辅助相互配合对网络信息进行组织,提供统一的检索界面和显示格式。它具有人工标引和自动标引两方面的优点,值得我们在建设数字图书馆中学习、借鉴。
1.3.3 数字图书馆采用搜索引擎技术的设想
图书馆的编目人员在长期的工作实践中积累了丰富的对信息资源进行分类的理论和经验,在网络信息资源逐步发展成为一个巨大的、不断迅速增长的资源库以前,图书馆工作人员对传统文献信息资源的组织是相当成功的。然而,一旦面对网络信息资源,这种人工标引方式就显得力不从心了。以CALIS网络重点学科导航库[7]为例,它是“211工程”立项高校图书馆共建项目。其目的是建立在INTERNET网上的导航库,收集整理有关重点学科的网络资源,为这些已立项高校重点学科服务,让在重点学科领域的师生,以较快的速度了解本领域科技前沿研究动向和国际发展趋势。重点学科导航库的建设工作进行了近2年,共有48 个图书馆参加该项目共建,各图书馆都投入了大量的人力来完成该校重点学科导航库的建设。目前已完成213个重点学科导航库建设,共收录了6万多个较重要的学术网站。导航库网址的搜集和摘要都是由人工完成,耗费了大量的人力、物力,而导航库的资源只是整个网络资源库中微不足道的一小部分。所以,在数字图书馆资源建设中引进搜索引擎技术,可以节省人力、物力、财力,保证资源的完整性、全面性。
2 数字图书馆检索工具
2.1 定义
仅仅是引进的搜索引擎,还不能作为数字图书馆的检索工具,所谓数字图书馆检索工具,是基于因特网信息资源和数字图书馆的信息资源库,利用统一的检索平台和用户界面,提供各种类型信息资源的检索服务的系统。
数字图书馆检索工具与搜索引擎的区别在于:搜索引擎只能提供因特网资源的检索,而数字图书馆除此之外,同时兼顾对数字图书馆各个资源库的检索。
2.2 功能
数字图书馆检索工具能够配合人工标引方式,对网络信息资源进行标引和组织,面向用户提供网络信息资源和数字图书馆信息资源库的检索服务。
2.2.1 网络信息搜集功能
面对整个英特网信息资源,数字图书馆检索工具利用搜索软件自动搜集网络信息,结合人工方式进行标引,按照人工编制的分类目录将被标引的网络信息收入网络信息资源库。
2.2.2 检索功能
(1)跨库检索功能
数字图书馆检索工具提供跨库检索功能,用户在使用过程中可以选定多个资源库进行检索,在重新选择数据库时,还可以保存以前的检索式用于新的资源库的检索中。
(2)支持全文检索
数字图书馆检索工具的对网络信息资源进行搜集时,每遇到一个网站时,会将该网站上所有的网页全部获取下来,将其内容标引后收入到网络信息资源标引库中,只要用户输入查询的关键字在用户选定的网络信息资源标引库或者其它数据库中出现,含有这个关键字的记录就会作为匹配结果返回给用户。
(3)提供多途径检索
支持自然语言、关键词、主题词三种检索语言,当用户输入一个短语时,系统根据禁用此词表过滤掉禁用词,将有检索意义的词保留下来重新构筑检索式。
提供高级检索界面,支持布尔逻辑运算,支持特征字段检索(如题名、作者、摘要、来源、年代等等),支持权重检索和相邻检索。
(4)支持目录式分类结构
分类目录具有类聚功能,尤其对于非专业用户能起引导作用。数字图书馆的分类目录与以yahoo等商业门户网站的区别在于, 它需要涵盖的范围更广,除了网络资源,还有数字图书馆收藏的数字化资源。
(5)支持多媒体信息检索
在能够提供检索的资源类型上,不仅能够提供文本信息资源检索服务,对于图像、声频、视频等多媒体信息也能提供检索服务。
2.2.3 结果显示功能
(1)支持检索结果排序
在检索结果排序方面,不仅能按时间排序,而且用户可以选择相关性排序。所谓相关性排序,是指进行自然语言检索时,其检索结果集由包含提问式中任意词的记录组成,以包含提问式中检索词的多少作为相关性指标对检索结果进行排序,提问式中的词在文章中出现的越多表明它与检索要求越接近,在显示时就排在最前面。
(2)提供统一的显示格式
检索结果的著录格式清晰明了,系统使用统一界面,对检索结果采用按类别、分层次显示方式。系统虽然对用户选定的数据库采用跨库检索方式,但是在结果显示时候还是分数据库类型一一列出匹配记录的提录或摘要信息,用户在浏览题录后,在进一步选择是否需要全文。
(3)提供超文本链接
在显示结果中,对摘要或全文中出现的某一些主题词提供链接点,比如人名“杨振宁”、机构名“CNNIC中国互联网信息中心”、 专业术语“后控词表”等等。
2.3 工作原理
2.3.1 信息搜集
利用自动搜索机(如Robot),自动收集网页上的元数据。 首先,输入起始网址,一般是一个网站的主页,搜索从这个网址开始。另外,需要同时输入一定的限制条件来限制搜索范围,因为整个网络有成千上万个网址,如果不加任何约束,搜索几乎是没有尽头的,并会耗尽机器的资源。所以,要通过IP过滤、限定从起始网址出发向下搜索的层次等方法来加以限制,如只在图书馆的内部网、某一专业网站上等进行搜索。工作时,先从起始网址读入此网页的HTML源文件,并在其头部搜索(meta)标签内的元数据,如果发现有符合都柏林核心集的定义和格式,则再检查此网页的元数据是否已在前次搜索中存入数据库,如是,则用新的元数据覆盖现在的元数据,否则在数据库中加入新的网址和元数据。接着,找出该网页上所有的链接地址,将它们按顺序存入一个先进先出地址队列的末尾,下一个循环开始后,从地址头取出一个网址,如它符合限制条件,且和已搜索过的网址不重复,则再次开始搜索此网页的元数据和链接地址,否则,跳过此网址,从地址队列中取出下一个网址。整个过程周而复始,直到地址队列中所有的网址都被搜索一遍。
网址的收集和处理由机器自动完成,但必须由人工最后审定。为此必须有一个明确的选择标准和策略,任何可以访问的可靠的数据源都在选择范围之内。更新及时,发现题目或标题有所改动,就应该进行更新。同时,对其它有关信息资源(如网络数据库、书刊目录信息等)进行收集,最终建立一个以学术信息为主的检索工具,这也是数字图书馆区别与商业门户网站的地方。
2.3.2 索引和检索
因特网的所有网页都在被索引范围之内。应用搜索引擎技术分析网页中所有句子以确定关键词,这些关键词将与某一词表相兼容,并形成一个后控词表。摘要将由关键词所涉及的网页内容组成。同时,索引人员将对记录进行审查,以确定其是否符合选择标准,所有关键词和所做摘要是否恰当,后控词表是否得到正确应用。然后这条记录才被增加到网络信息资源库中去。在检索过程中,检索工具对符合检索策略的命中记录做出标记,显示检索结果。
本文基于网络搜索引擎技术,提出建立数字图书馆检索工具的设想。检索工具的实现除了需要技术支持外,还需要信息量丰富的资源库和合理的图书馆的结构模型作为支撑。开发数字图书馆的结构模型时,必须坚持该结构具有良好的兼容性、公共性、灵活性和可扩展性,能够方便地将各供应商开发的应用程序(如搜索引擎技术)集成进来。数字图书馆结构模型在坚持上述原则的同时,主要目标是为网络环境下信息资源的发现、描述、组织、查询、检索和为以网络为依托的知识、信息交流,提供一个支撑结构和环境,这首先需要解决异构系统间的互操作、各种转换和翻译(不同规范的元数据、查询请求之间)等技术问题。对于这方面的研究还有待进一步深入。
标签:数字图书馆论文; 搜索引擎论文; 目录搜索引擎论文; 搜索引擎原理论文; 网站目录论文; 资源搜索引擎论文; 图书馆论文; 互联网论文;