一种新的网络信息服务模式_信息检索论文

因特网信息服务新模式,本文主要内容关键词为:信息服务论文,因特网论文,新模式论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

网络信息服务以网络信息查询为基础。网络信息查询的特异性在于网络环境下引起的资源分布化和数字技术带来的信息资源多媒体化[1]。信息检索技术从总体来看向两方面发展:一是传统信息检索向全文本、多媒体、多载体、多原理等新型信息检索发展,从深度上提高组织和管理信息资源的能力;二是信息资源的网络化和分布化,从广度上提高组织和管理信息资源的能力[1]。

针对因特网信息纷繁芜杂的内容形式和组织方式,为了准确、高效地发掘信息资源,人们对网络信息查询技术进行了深入的研究,开发出性能优越的查询工具,并力求以合理的模式提供信息服务。在计算机和信息管理人员的共同努力下, 出现了一大批诸如Archie 、 WAIS 、 Veronica等查询工具。虽然它们使因特网信息服务的友好性、易用性得以加强,但因仍属于基于文本信息的查询系统,提供信息资源范围有限。万维网搜索引擎(Search Engine,SE)的出现为网络信息查询带来了生机和活力,Yahool、Infoseek、Lycos横空出世, 使网络信息获取方式产生根本变化。SE以超级文本方式提供世界范围内的多媒体信息服务,既包括文本,又包括图像、影视和声音信息,彻底改变了过去只靠浏览挖掘信息的情况,用户可以进行目标明确的检索。

可以说,SE已经成为目前网络信息系统建设的核心和关键。但是由于其基于传统信息系统检索的模式,不能完全适应因特网广域信息查询的特点,有不可避免的缺陷。

1 因特网信息系统的特点以及SE的缺陷

1.1 因特网信息系统的特点

因特网信息系统与传统信息系统不同,具有以下特点。

1)因特网本身的动态性。因特网是一个扁平结构的系统, 没有权威的中央管理机构,任何人都可以提供信息和服务,其范围、数量都是不可知的。信息的获取由提供驱动向需求驱动转移。而相对而言,传统信息系统则完全处于管理员的管辖之下,信息的数量、范围、格式都是明确的。

2)因特网信息的动态性。因特网信息是无管理的,今天可以从某个站点获得的信息,明天就可能被更改或删除,信息也可能转移于多个站点之间。用户无法判断网上有多少信息与自己的需求相关,查全率、查准率等评价标准也要重新定义。

3)因特网信息以不同的格式和类型存贮, 导致对信息的处理也不能使用相同的方法。网络拥有大量的多类型、非规范、跨时空、跨语种的多媒体资源,存贮格式各异,信息内容特征抽取复杂化,信息查询更加复杂。

为了提供全方位的信息服务,必须对传统的以集中和规范为特征的数据库资源检索作根本变革,采取崭新的信息处理方式。为了标示这种区别,国外称传统信息检索为“信息检索”(Information Retrieval),而称网络信息检索为“信息查询”(Information Searching)。

1.2 基于传统检索方式的SE的缺陷

目前流行的SE都是用以下方式工作的:

1)利用Robot漫游因特网,尽可能多地获得元数据(Meta- information)。

2)对获得的信息利用大量关键词或附加信息进行标引, 存入数据库,向用户提供基于分类的范畴层次查询引擎(list-based SE )和基于关键字的主题词查询引擎(words-based SE)。

3)查询者利用分类思想,由总类到子类查询所需信息, 或输入一个或多个提问词从数据库中定位信息,利用返回的Web 页面反映检索结果,通过点击超链到达信息所在的服务器。

SE的缺陷体现在以下几方面:

1)网络信息是大量的、动态的。Robot只能在由系统管理员确定的一定时间间隔内跟踪特定信息,不能保证信息的及时更新,产生“错”链接和“死”链接。随着网络信息数量的指数级增长,引擎数据库急剧膨胀,检索速度将会更加不可忍受,如果不能保证创造出更高效的检索算法,SE将被人们所遗弃。

2)SE将信息的收集和查询截然分开。 系统在收集信息时不知道用户究竟需要什么样的信息;当用户向系统查询时,系统也并不知道哪些信息对用户是最新信息,哪些是过时和无用的信息,信息的收集和查寻缺少有机的结合[2]。

3)网络信息内容覆盖面很广,形式各异,而SE 对所有用户提供相同的界面和检索策略。实际上不同用户、同一用户在不同时刻对信息需求的侧重是不一样的,SE不能体现用户的信息需求个性。

4)基于主题的SE较少,在容量和整合性上也不理想。非主题SE 不能揭示全部信息的主题内容特点;每个SE仅能覆盖分布式信息的一部分,如果要提高查全率,必须对所有的SE全部检索,不可遗漏。为了弥补这一缺陷的元引擎站点的效率低下有目共睹。

5)SE对资源视图的管理功能很弱, 仅能提供分类浏览的查询方式和关键词全文检索方式,缺乏其他有效途径,不能实现真正的概念检索。分类方式查询按类层层查询,方式虽简单,但容易漏检,查全率低;关键词全文检索匹配模式单一,会查到大量无关信息,查准率降低。

6)SE对多媒体的检索不能令人满意。 信息已从单一文本向多媒体发展,SE必须能接受、处理、存贮、显示图文一体化的信息资料,检索从标准文本到图像、图形、视频、音频信息,从而形成文字、图片、声音的统一管理、存贮、检索和输出,为用户提供方便、快速、全面的信息服务。

7)SE信息服务仍未摆脱“Pull”方式, 而未来的信息服务一定是基于特定查询要求的“Push”方式。

2 ASK理论与领域分析理论的影响

2.1 ASK理论与“面向用户”的信息查询

Belkin的ASK(Anomalous State of Knowledge,知识非常状态)理论认为,用户之所以有情报需求产生,是因为用户认识到自己存在知识的非常态,以致于无法面对某种问题的情境;而且用户一般也无法精确描述需要什么来解决这种非常态。因此情报检索的目的就在于描述、理解和解决知识的非常态[3]。

ASK 理论在信息检索领域中奠定了“情报检索认知沟通系统”(Cognitive communication system of information retrieval)模式的基础[3]。体现了从系统观向认知观的转变, 认为情报检索只有把信息提供与用户的概念结构结合起来,才能得到最佳效果。

2.2 领域分析理论与“面向主题”的信息查询

领域分析及其所代表的社会学与情报学的结合可视为90年代情报学发展的一个重大事件。传统的信息检索都隐含一个基本的、未言明的假设:信息的属性结构是普遍性的,信息的个人利用也是普遍的。而领域分析认为信息检索是基于用户的作为“思想和过程体的知识领域,它是社会劳动分工的一部分”。[4]

I.J.B.Mote 1962年研究了科学家情报需求的变化原因,从学科领域类型的角度研究情报需求,认为“主题领域的类型决定需求的类型。”[4]

M.J.Bate发展了上述研究,认为“信息检索行为随专业领域而变化,建议不同的专业领域采用不同的信息检索策略。”[4]

T.J.Froeblich 认为信息检索基于的相关性“在普通情形下对输入作判断是合适的”,信息使用者应该利用自己的“解释模式和准则类型”建立一个“给定目标或给定主题的领域的情报系统”。[4]

根据上述理论,可见传统信息检索模式有以下问题:

1)传统信息检索要求有明确的信息需求,而用户可能没有, 或由于知识非常态而无法表达。

2)用户检索时,组织自己的问题是分步骤逐步提出的, 并非一开始就有明确的概念范围,而且查询中用户的需求还可能不断变化。

3)用户的每次检索都是基于某个领域知识主题的, 如果信息系统不是按照固定的主题来安排,必然会降低信息查询的质量和效率。

4)SE 的信息检索对于不同领域的用户都有完全相同的界面和检索方式,不能体现专业信息需求者的不同要求。领域分析的基本观点认为信息检索系统应和一定的知识领域结合,成为面向特定主题的新型检索系统。

由此可见,服务系统对用户需求的理解工作不是一两个关键词就能完成的,检索的本质是组织问题的过程,是在用户需求模型基础上面向主题的查询过程,而不是针对一个明确需求下的文件匹配。未来的信息查询系统应该是既面向用户,又面向主题的。

3 建立面向用户、面向领域的新型检索模式

Dataquest公司的Bob Johnson称:“智能代理将是未来搜索因特网信息的唯一方法,因为不论因特网被组织得如何完美,它都不能跟上信息的增长。”

为了改善信息服务质量,针对SE的缺陷,我们提出一种新的因特网信息服务模式,将网络信息查询与收集有机结合起来,建立面向用户、面向主题的基于智能代理的新型信息服务系统。智能代理是人工智能技术实用化的具体体现,代表了信息技术最前沿的发展方向。智能代理的代理性、自主性、智能性以及交互性使之成为因特网上的核心技术之一[5]。

3.1 因特网信息服务新模式

新的服务模式包括两个方面:一是面向用户的个人信息查询助理(Personal Information Searching Assistant,PISA); 另一个是面向主题的主题信息代理(Subject Information Agent,SIA),每个SIA仅提供某个领域的主题服务,SIA和用户之间的业务通过PISA来实现。具体结构见图1。

图1 因特网信息服务新模式结构图

信息系统的运行方式如下:

1)PISA通过与人的交互,逐步了解用户的信息需求, 发现用户兴趣,建立用户模型,并将信息需求按领域主题提交给相应的SIA。

2)SIA作为搜索代理本身是面向主题的,SIA为它负责的PISA 实时搜集因特网某领域的信息,“即使在用户脱机时仍可以进行查询活动。”[6]SIA收集、管理和维护着该领域内有关站点的信息,并随着信息的动态改变而改变,及时发现产生的站点,删除关闭的站点,跟踪信息的转移。SIA利用启发式技术优先查找和索引最权威的站点, 不仅能处理所有格式的文档,从中抽取索引,而且提供各种商用数据库、声音、图像等多媒体的接口,处理关系数据库、面向对象数据库中多种媒体的信息索引。

3)PISA之间可以动态交流信息。对于用户模型相似的用户, PISA互相通告对方关注的主题知识,从而促进用户潜在主题需求的表达,为SIA建立新的PISA连接。

实践中,例如一个企业里,每个网络信息用户都有自己的PISA,描述用户的特征信息, 而为从事技术开发的用户群建立有关技术信息的SIA,为从事经济管理的用户群建立有关经济信息的SIA,为从事法律事务的用户群建立法律信息的SIA等。 同时某个经济管理工作者可能对法律信息感兴趣,则通过用户特征分析建立PISA与提供法律信息的SIA 之间的服务关系。

3.2 新模式的优点

1)充分表达用户信息需求。PISA是利用智能代理技术建立的, 是在长期积累的用户模型基础上智能化的查询接口,可以优化更正用户提问,充分实现基于上下文、基于概念的检索。真正实现“面向用户”。

2)信息查询目的性强,效率更高。一方面,PISA和SIA基于C/S结构,由专门为用户服务的PISA部件驱动SIA进行信息收集, 查询全部由用户需求驱动,减少了信息查询的盲目性;另一方面,SIA 信息查询是“面向领域”的,搜索智能代理对查询某一领域信息有丰富的经验,对此类信息的位置、格式、类型有完全的把握。信息代理机制本身也降低了重复信息在网上的传送,信息利用率提高[7]。

3)信息服务的智能性强。 服务系统采用分布式智能代理和动态知识获取技术,不仅深刻理解用户需求,根据用户对获取信息的处理情况不断调整知识库,并在以后的检索中使用优化的检索词和方法,而且可以监控网络流量,避开流量高峰。未来的智能代理能够与其他智能代理(如中间层智能代理)交流与合作,实现多线程处理,检索将更加快速高效,同时实现智能化的信息过滤技术。

4)具有更高的用户友好性。PISA 为每个用户定义了个性化的检索界面,用户可根据需要优化查询方式,及时通知SIA;SIA根据新的方法组织查询,分析出新颖的、急需的信息,即使用户脱机时仍可以进行查询活动,并在上线时把结果“Push”给用户。而且PISA是客户端程序,无须担心查询要求不能及时提出,用户还可定义在多长时间段内重新激发查询。PISA之间可根据用户模型相似性相互传递相关主题信息,相互合作,共享信息资源。“人们不需花费时间在网上搜索信息,而是相关信息自动流动到用户面前。”[2]

5)有利于数据进一步深层次分析。由于查询是“面向领域”的, 信息按主题存贮在一起,因此自动分类、自动翻译、自动文摘效果更好,可以通过信息自动化技术为用户提供更完善、深入的服务。面向主题的信息集合也是“数据仓库”(Data Warehouse)技术实施的前提, 如果引入“数据仓库”技术,进一步实现数据挖掘(Data Mining),就可以建立基于因特网信息的决策支持系统(DSS),见图2。

图2 基于因特网信息的决策支持系统

不仅如此,新型信息服务模式还改变了传统SE信息服务模式仅局限于万维网服务,而不能查询利用Telnet访问的数据库的状况。用户不用担心在哪儿以及怎样获取信息,SIA只关心需求信息的提问, 并处理所有剩下的问题。

建立在先进情报学理论基础上的新型网络信息服务模式,突破了传统的基于SE的信息服务系统的误区,能够真正减轻用户因特网信息查询的负担,体现了网络信息查询的特色,为下一代信息服务系统的建立提供了新思路。

收稿日期:1999-08-24

标签:;  ;  ;  ;  ;  ;  ;  

一种新的网络信息服务模式_信息检索论文
下载Doc文档

猜你喜欢