传统图书情报技术在网络信息资源组织和检索中的应用,本文主要内容关键词为:信息资源论文,情报论文,传统论文,组织论文,图书论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着网络上信息量的爆炸性增长,一方面,搜索引擎的重要性越加明显,成为网络信息资源组织的典范和工具;另一方面,检索这种信息的检索费用相应地也在增加,也就是说,尽管用户现在能用自由检索服务来找到感兴趣的信息,但是他们也不得不把宝贵的时间更多地花在费力地筛选大量的不相关的结果以得到他们真正需要的信息上。网络信息资源的大爆炸已经大大超出了纯自动化工具有效地组织信息资源的能力。
网络在本质上是一个异构的、分布式的大型数据库;网络检索工具(或者是搜索引擎)是对信息的采集、加工、建立索引库并供世界上最广泛网络用户检索的信息检索系统。网络是一个复杂的数据库,是一个无所不包的超大型“图书馆”,而对于数据库、图书馆信息资源的组织,传统的图书情报部门已经积累了颇为丰富的经验,网络信息资源的组织应该积极借鉴图书情报技术来组织和管理网络。面对着因特网上海量的信息资源,许多专家呼吁,我们应当用“图书馆员的思维方式”对这些资源进行管理。有鉴于此,本文对现有网络信息资源组织检索工具中借鉴的传统图书情报方法、技术作一些探析。
1 传统检索语言思想的应用
1.1 分类思想在网络检索工具中的应用分类法是将各种知识领域(学科及其研究问题)的类目按知识分类原理进行系统排列并以代表类目的数字、字母符号(分类号)作为文献主题标识的一类情报检索语言。它是直接体现知识分类的概念标识系统,是对概括文献情报内容及某些外表性的概念运用逻辑方法进行系统排列而成的。人们制定分类法的一个重要目的不只是为了检索方便,也是为了从宏观的角度了解信息资料的知识内涵,为检索用户提供一张“知识地图”。随着因特网的不断发展,这种目的在网络上正在变得越来越重要。同样地,我们也可以为因特网构造一张“网上知识地图”。通过类似分类法这样的习惯性知识体系描述,或者说这种对信息知识的内涵表达,人们可以沿着这张“网上地图”逐步浏览直至定位到所需的信息,并俯瞰网上的相关信息,触发边缘信息。这是解决目前网络知识组织混乱局面的一项重要措施,是实现科学浏览检索的必然要求。
另外,随着多媒体技术的迅速发展,非文献型信息在网络信息资源中的比重将越来越大,如数值、图像、图形和空间对象等,而分类法独有的聚类功能及其代码标识为组织和揭示这些非结构化的信息资源提供了一条可行的途径。
网络检索工具几乎从一开始,其检索机制中除了采用基于“提问-检索”的关键词检索功能之外,绝大部分检索工具还采用了基于“浏览-检索”的分类目录。更有甚者,使用纯粹的传统经典分类法,如采用DDC(杜威十进分类法)分类目录体系NETFIRST、Cyberdewey、Niss等;采用CLC(中国图书馆分类法)类目体系的教育网搜索引擎
网络指南针;还有包括一些图像搜索工具也采用了分类思想。分类目录是在普通用户不能正确表达自己的信息需求时,为其提供一种导航工具或者说是提供一个检索的入口,同时它也是信息检索初级阶段实现信息过滤的一种有效手段。
只是我们发现,绝大部分搜索引擎的分类目录是计算机专业人员制定的,因而从科学分类的角度来看有些不是很合理,因而不能算有效地组织起网上庞杂的信息资源。但是也不能把传统的分类法不加删节地“拿来”,而是应当根据网络信息的特点作必要的转化和变形的改造,以适应网信息的实际情况和情报检索的实际需要。
1.2词表技术在网络信息检索工具中的应用。网络信息组织中引入传统信息检索机制——主题词表。主题词表的最大优点,就是利用词汇关系链来获取领域知识从而提高检索效率,或者说其功能是消除自然语言的不确定和不准确性的因素。主题词表产生于自然语言,因此自然语言最直接的近邻必然是主题词。
目前在众多的网络检索工具中也出现了各种借助于词表功能提高检索效率的检索工具。主要有以下几种方式:(1)借助于网络化的叙词表,优化检索策略,如SOSIG检索系统内置的HASSET叙词表;另外在医学领域检索工具中见得较多,如UMLS;(2)借助同义词表,如Alta Vista;(3)借助非用字典,如Ask Jeeves,Excite,Inquizit。从原理上来分析,其实后两种都是后控制技术在检索中的运用。
一致公认的观点是,后控制技术可以为网络检索中自然语言检索存在的歧义问题,通过其独特的控制,从而提供有效的解决方法。目前,后控制技术的当务之急是编制后控词表——入口词表,我们可以首先从某限定领域试验。
目前,有关叙词表(thesaurus)、语义网络(semanticnetwork)的研究已经是网络信息检索领域的重要内容。包括自动建立词表、语义网技术,可视化技术、检索中的自动扩展查询技术等等。
2 编目技术的应用——元数据的介入
编目工作是图书情报部门的一项核心工作内容,目的是按照既定标准著录馆藏资源,是提供用户检索使用的前提。编目技术的发展源远流长,较为完善。
网络也是一个馆藏丰富的巨型“图书馆”。分析Web搜索引擎检索效果不理想的原因归根结底是:没有建立完整有效的信息索引机制,而这种标准化的信息索引机制的建立必须以一个通用的、合理的、规范的网络信息资源著录规则为基础。如果每个电子文档有一个编目记录或其等价物,那么检索接口就能提供一次内容信息的检索(自由检索模式)和经加工、过滤过的信息(图书馆模式)的检索。这就要求在信息加工过程中引入编目思想。
基于网络信息的特点,参考图书情报组织在1990年制定的SGML(通过置标语言)的基础上,国际上制定了可扩展的XML元数据标准和适合各专业特点要求的元数据标准,这是一种简化,也是一种扩展,如XML,EAD,DC……追根溯源,MARC才是最早的元数据。促进因特网信息资源的组织和检索是元数据最基本的功用,也是产生元数据的原因。
网络资源发现领域的元数据(以DC为代表)是公认的网络信息的著录规则,为网络资源的描述提供最基本的著录项。资源发现(Resource discovery)包括两个含义,资源组织和资源检索。基于资源发现的元数据标准的基本目的之一是向众多的非图书馆专业人员提供一套简单易用的电子资源描述格式,并且尽量降低制作成本,以适应网络资源巨量增长的需要。也就是说对网络资源的描述性编目主要由资源的发布者在制作资源的同时提供。在资源制作者描述的基础上,信息工作者把主要精力放在对质量较高、稳定性较好的网络资源的标引和规范控制上,为用户构建方便、高效的检索系统。
“元数据”在网络信息组织中的功效已经得到公认。对Dublin Core,XML.,RDF在网络和数字图书馆(网络的一个子系统)资源组织中的应用的研究如火如荼。不仅如此,XML也已成为电子商务的核心技术。
3 引文索引思想的应用
引文分析就是在传统的图书情报工作中用来测试文献被参考引用的频次计量分析。作用有:(1)通过著者与著者、文献与文献之间的引用和被引用关系,可反映学科间的相互交叉和渗透。(2)可以了解一篇文献发表之后的继承和发展,找到与某一主题密切相关的文献。(3)可以对引文作统计分析,用以评价期刊、预测人才、规划科研项目和了解科技前沿动态。
在网络信息资源中,也有一个引文的引用问题——“链接评价”。如图1:
{L1M102.bmp}
图1 基于超链的相关度排序
基于超链的相关度排序,就是引文索引在网络信息资源组织和检索中的应用。这种引用在形式不再是传统的这篇文章参考引用另一篇文章,而是用户通过网络点击某信息源的次数及在上面滞留的时间,测度这个信息源的重要性和对用户的使用价值。一个网页的重要性取决于它被其他网页链接的数量,即被用户点击次数最多、滞留时间最长的信息,可以说明这个信息源具有相对较高的利用价值。著名的搜索引擎Google的创新之处就是这一传统引文思想的体现。事实证明,这一技术是非常有效的,Google的检索结果质量相当高。难怪有业内人士评论Google“集中了所有Web的智慧,从而使人们找回了失去已久的对搜索引擎的忠诚”。目前这一技术已经被广泛应用于Altavista、Excite、Fast、NorthernLight等著名搜索引擎中。
4 传统的检索服务方式——定题情报服务(SDI)在Internet网上的应用
定题情报服务(Selective Dissemination of Information,SDI)是图书情报机构围绕一定的科学研究和生产项目,针对固定的用户长期提供有关情报服务工作。SDI是20世纪70年代随着联机信息检索(如 Dialog)的发展而兴起的一种适应联机作业环境的一种信息服务方式。SDI的服务工作原理就是:联机信息代理机构征询用户的检索需求,为其定制检索策略,经用户同意将用户的这一信息进行存储,当系统有了新的符合用户先前的检索需求的信息时,在定期的时间内主动将最新信息反馈给用户。SDI服务为广大联机终端用户提供了及时而且相对准确的信息。
而在Internet网上,信息过滤技术的研究成了提高网络信息质量的一个热点问题。信息过滤技术在本质上是一种信息检索技术。所谓的信息过滤技术的一种方法就是通过利用某种检索模型和用户兴趣描述数据来减少检索结果的冗余度,也就是Push技术的比较初级的应用。其工作原理是用户以格式化的电子邮件或者从网页表格提交“订购”要求(定制用户信息需求),接到用户的要求后,系统对之进行处理,当有有关新增信息时,系统就把用户的兴趣和新增信息进行比较,符合要求的就获取并存到该用户的一个目录下,等到一定时间就根据电子邮件地址发给用户。在原理上,和SDI有异曲同工之妙。
5结语
其实,似乎没有组织了的Web和组织了的图书馆这两个世界在网络信息资源管理领域有着许多可以相互辅助的成分: Web世界能为检索一次信息提供自动化工具;而图书馆世界则能提供组织和理解各种类型信息的经验。结合两者的优点和技术,这两个世界对解决信息组织、维护和提供高效检索这些问题能带来强有力的对策。因此,搜索引擎的发展到了一个需要突破的发展阶段,须进一步结合网络的特点对信息的组织和检索的各方面加入图书情报工作的方法加以规范和控制。
标签:元数据论文;