信息发现与数字资源重组探讨,本文主要内容关键词为:发现论文,数字论文,资源论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 个性化服务的发展背景
在信息时代,人们往往面临一种困境:一方面在Internet上业已存在大量的可供使用的信息,另一方面人们又无法及时地、有效地获取所需要的信息。这种困境的原因主要是:(1)信息源的广泛性和异构性,如Web文档、数字化资料等;这些信息不仅异构,而且它们分布在整个Internet空间中;(2)信息量巨大,以Web文档为例,随着网站的不断增加,正以惊人的速度递增;(3)缺乏行之有效的工具,来帮助人们从如此浩瀚的信息海洋中获取所需信息。因此如何实现信息发现是有效提供个性化信息服务的关键之一。
随着Internet技术和数字化技术的快速发展和广泛运用,期刊文献、会议文献、专利文献等被数据库集成商按文献类别或信息类型制作成网络数字资源。多数国家的高等院校或研究机构为这些网络资源建立了本地镜像站点,为它们各自的用户提供服务;但由于这些网络数字资源来源于不同的厂商,其提供的网络环境和检索手段又各不相同,往往使用户对于网络环境设置和检索方法的运用无所适从,上网查询往往事倍功半。这对于价值昂贵的数字资源来说也是一个很大的浪费。因此,用户界面集成将成为图书馆数字信息服务必须加以解决的问题。
计算机技术发展已经进入网络时代,网络用户的需求各不相同,网络用户希望信息资源提供者能够提供个性化的服务,为每个用户提供他们自己设定的网页,在这个网页中含有自己的风格(My Style)、自己的资源(My Resource)、自己的链接(My Link),通过My Style体现网络用户的个性化及人性化;通过My Resource既能方便地查询到所需的信息资料,而不需要在不同的网站之间来回穿梭,又能通过信息代理来实现信息获取的自动化和智能化;通过My Link可以快速链接到自己所定制的网站,不需要经常为记不住网站地址而烦恼。因此个性化服务将成为网络时代一道亮丽的景观,而网络信息发现和资源重组是实现个性化服务的有效手段,才能满足用户的个性化服务。
2 个性化服务的现状和问题
个性化服务是根据网络用户的需求,定制相应的网页、信息资源,并根据用户的请求实现信息代理,以达到服务的个性化和智能化。在美国的华盛顿大学、北卡州立大学和康纳尔大学图书馆已采用了用户个性化服务,国内图书馆未开发出此类服务系统。随着我国网络资源建设步伐的加速,图书馆数字资源将日益充实,为提高数字资源的利用效益,个性化服务问题应当引起图书馆界更多的关注。
目前,制约图书馆数字资源个性化服务的因素较多,从技术角度来分析主要有以下三个因素:
(1)缺乏有效的信息发现工具,目前Internet上提供了很多的搜索引擎,例如Altavista,Yahoo等,用于帮助用户发现和收集Internet上的各种信息,但是,从信息覆盖度、检索精度、检索结果可视化、可维护性等诸多方面来看,其效果都不能够令人满意;同时由于这些搜索引擎不能自动记录用户的请求,搜索引擎每次发现并更新信息库后,并不能将这些新的信息发送给曾经提出请求的用户,用户还需重新输入关键词进行搜索,并要从一大堆很多已被搜索过的信息中查找最新更新的信息。
(2)数据格式的异构性和检索途径的差异性。数字资源开发集成商在建立数字资源时,出于经济利益、版权保护等原因,没有采用统一的或国际的标准。由于数据格式的异构性、检索界面的差异性和浏览器的单一性,往往导致检索途径和方法的差异性。从而使得数字资源的集约化程度较低、数据无序化和数字资源的交叉关联程度较低,直接导致某些资源的使用效率偏低。
(3)用户界面的复杂性和差异性。随着图书馆数字资源的增多,检索不同数据库的软件也随之增多,使得图书馆网络服务的WEB界面变得日益复杂,每增加一个数字资源,就必须修改网页,添加相应的检索界面。网络用户在使用时需首先了解如何使用检索软件,有些数据库还需进行一些必要的参数设置。如果能够提供一个统一的、包含多个检索方法和途径的用户界面,将极大地提高用户的使用兴趣,从而提高资源的使用率。
为解决以上的三个因素,真正实现个性化服务,我们必须开发有效的信息发现工具,来完成Internet信息空间的信息发现,同时必须建立统一的数据格式标准,对无序的、交叉的数字资源进行重组,对相同学科或专业的、来自不同数据集成商的数据重组成一个新的数据库或镜像数据库,提供统一的、智能化的用户界面,一方面根据用户的需求提供相应的资源,生成用户自己的数字图书馆,另一方面,通过记录用户的需求实现信息代理功能。
3 信息发现实现机制
所谓信息发现是以帮助用户从大量信息集合中找到与给定查询请示相关的、恰当数目的信息子集。信息发现对实现个性化服务相当重要,不能有效地发现信息就谈不上个性化服务。Internet信息空间中的很多信息以WEB文档存在,本文将以WEB文档作为信息源来分析信息发现的实现机制。
3.1 信息组织形式
Web文档通常采用VSM(Vector Space Model)作为其特征的表示方法,将信息组织划分为文档集合、文档、标引词三个级别,满足:文档集合={文档};文档={标引词}。
3.2 信息取值方式
解决基于Internet的信息发现问题,首先我们要对信息进行量化处理,即根据用户给出的标引词的范围来确定用户所需要的信息的范围。假设有n个标引词,设D是一个包含m篇文档的文档集合,即:
3.3 信息相似度计算方式
上面我们给出了信息的量化取值方法,在处理信息发现的过程中,如何来判断两个文档的相似程度,是实现信息发现的关键。这里我们采用矢量方法来处理文档的相似度问题。
假设两个文档d[,i]、d[,j]的矢量表示为:
d[,i]=(d[,i1],d[,i2],…,d[,ik],…,d[,in])
d[,j]=(d[,j1],d[,j2],…d[,jk],…,d[,jn](3-3)
有了相似度这个量,就可以判断出文档之间的相关性,从而可以根据这个量作为信息发现的依据。
3.4 信息过滤
信息是否符合用户的需求,就必须对信息进行相似度计算,然后再对其进行筛选处理,筛选处理一般采用信息滤波算法,对于智能化的信息发现可同时采用相关反馈算法。
信息滤波算法的主要功能是:过滤与用户需求不相关的文档;对与用户需求相关的文档,按相似度的大小排序,并进行进一步过滤。通过信息滤波,与用户需求不相关的文档或用户不感兴趣的文档过滤掉了,剩下的是基本符合用户需求的文档,并且按照相似度的大小排序,从而可以提高检索的精度。
相关反馈算法是根据用户最新的需求检索出符合用户需求的信息,与该用户需求的历史数据进行反馈式学习生成新的有关于用户信息需求的数据集合。这个数据集合的生成有两种方式:一种是自动的过程;另一种就是用户在线学习的方法。
4 资源重组模式探讨
所谓资源重组是将多个不同的数据资源按相同的学科类别重新编排,形成一个新的只含该学科类别的镜像数据资源库。本文探讨了资源重组的可行性分析、数据存储和处理方法研究以及它的特点。
4.1 可行性分析
随着社会的发展,各行各业的分工越来越细,也越来越专业化,资源的分类也随之细化,同时学科与学科之间的关联程度将变得越来越紧密。所以在寻找某一个学科的资源时,将不得不对该学科下所细分的子学科进行逐个寻找的办法。如学科A有n个相关子学科A[,1]、A[,2]、……A[,n],那么要查全学科A的整个相关资源,就必须经过n次查询,如果有m种数据资源库都含有学科A,同时包含学科A的子学科数目为n[,i](i=1…m),那么必须经过
式(4-3)中B[,i]表示在第i个数据库所包含类别k的记录集,且满足B[,i]∈A[,i]。
从上式(4-3)可看出,重组后的数据记录是包含了有关学科K的所有记录集,因此通过资源重组后,其理论查全率为100%。从以上的推断可以得出对网络资源进行重组是可行的。
4.2 数据存放和数据处理
假设Li表示第i个数据库中所包含的字段数;Hi表示第i个数据检索途径数;则第i个数据库的字段集合为:Fi={f[,i,l],f[,i,2],…,f[,i,Li]};途径集合为:Mi={M[,i,1],M[,i,2],…,M[,i,Hi]}。
假设第i个数据数据库检索方法为S[,i];数据库的唯一索引值为W[,i]。
为了实现重组后数据资源的可移植性和可扩展性,我们引进了对象(Object)概念,用于对数据进行存放和处理。每个学科或专业以对象的方式对重组后的数据记录进行管理,建立分类对象(以下简称Tclass)的模型是一个涉及数据存储格式的值得深入研究的问题。每个对象有数据存放格式(properties)、数据处理方法(methods)。
(1)数据存放格式由:①Description(对一些属性和处理方法的描述);②Syntax(用于显示数据格式的结构);③DataType(数据存储类型);④Permission(数据访问权限)等组成。在数据存放格式组成中我们主要探讨对象的数据类型部分。根据以上一些假设(注:所谓假设,其实是一些可以明确知道的一些值,如通过开发商提供的软件知道检索方法和字段数及字段名。),可以设置Tclass对象的数据类型:
type Tclass.Datatype
{ Databases:记录数据库数目,如n;
Resource[n]:记录n个数据库的数据库名;
Search[n]:记录每个数据库的检索方法,Search[i]=S[,i];
Keywords[n]:记录每个数据库的唯一索引值,keywords[i]=W[,i];
Item[n]:用于存放所有记录集,如D[,k];为此我们还定义了Titem类;}
type Titem{Fields[]:记录每个数据库的字段名;即fields[]∈F[,j];
Methods[]:记录检索途径;如作者、题名等;即Methods[]∈F[,i]
Values[]:存放整个记录值;即Values[]∈A[,i,j];}
(2)数据处理方法由:①Description(方法描述);②ReturnValue(返回值及其类型);③Syntax(显示方法的结构);④Parameter(参数)等组成。在这里可以归纳出以下几个方法:
① NewRecord():新增一条数据记录;
② Update():修改一条数据记录;
③ DeleteRecord():删除一条数据记录;
④ GetSearch():获取检索方法;
⑤ GetMethods():获取检索途径;
⑥ Execute():执行检索过程;
通过以上对资源重组的可行性分析和数据类别对象的剖析,初步说明了资源重组的模式。但是具体的实施细节还有待于作进一步的深入研究。
4.3 资源重组的特点
资源重组之后所形成的数据对象的记录集来自多个数据库,因此资源重组具有以下几个特点:①专业性强:因为资源重组模式是根据学科或专业来重组资源,因此它具有较强的专业性;②知识覆盖面广:由于重组后的资源来自不同的数据库,因而它具有较广的知识面;③可扩充性:由于重组后资源以对象形式存在,随时可以给对象增加新的资源,因而它具有可扩充性;④可移植性:对象可以在不同的操作平台使用,因而它具有可移植性;⑤同一性:资源重组后每种类别都以对象的形式存在,大多都拥有共同的结构类型,因而它具有共同的检索方法和友好的用户界面。
5 结束语
信息发现和资源重组是网络个性化发展和资源多样性发展的产物。随着数字资源的迅猛发展,可借利用的信息资源层出不穷,为解决用户的需求,信息发现和资源重组将势在必行。但是一方面缺乏行之有效的信息发现辅助工具,人们面对丰富无序的网络信息显得力不从心,花费很多时间却所获甚少;另一方面由于数据库集成开发商为了维护公司的利益,在制作数据资源过程中往往对数据库进行了种种限制,如对数据库进行加密,使一般人难以读懂和理解它的数据格式;同时还存在一个版权问题,这给资源重组带来了一定的限制。目前,信息发现和资源重组还是一个新的课题,从信息利用角度来看它们是相辅相成的,实现资源重组首先要进行信息发现,本文对这两方面进行了粗浅的探讨。由于对这一课题的研究还处在萌芽状态,涉及数字资源重组的研究报告和论文很少,因此本文尚有不少地方有待于进一步的深入研究和细化。同时也希望数据库集成开发商在销售数据库时,提供有关数据库的结构、方法等一些基本资料,允许用户在购买协议范围之内进行资源重组,让用户充分享受到网络资源的高效性,实现数字资源的超值效用。
(收稿日期:2001-04-10)