网络环境下高校图书馆数字资源主动推送系统框架研究_图书馆论文

网络环境下高校图书馆数字化资源主动推送系统的框架研究,本文主要内容关键词为:框架论文,主动论文,图书馆论文,高校论文,环境论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着图书馆数字化资源的日益丰富,从这些海量的数据中迅速、准确地找到有用的知识信息已变得越来越困难。由于用户并非都具有专业的检索技能,这使得有时候检索到的信息并不总是有用的信息,而收集信息的成本往往又超过了信息本身的价值。如何使图书馆的数字化资源得到更为有效的利用,提高信息的质量,更好地为高校师生的教学科研提供更快更优的信息服务,已经成为一个备受关注的课题。

为此,文章引入高校图书馆数字化资源主动推送系统,它是根据高校图书馆数字化资源和用户群的特性,以高校校园网络为依托,主动提供具有针对性的信息内容和系统功能。

1 高校图书馆数字化资源和用户的特性分析

图书馆作为高校的信息资源中心,它的主要功能是为本校师生提供信息服务,因而其数字化资源与用户有它自身的特点,主要体现在:

(1)每个高校都有自己的办学特色,由于院系设置、专业方向很明确,使得图书馆数字化资源的购买自始至终都围绕着学校的专业构成来开展,因此资源具有很强的专业性、针对性,这一点与Internet上包罗万象的信息不同。各高校有代表性的数字资源有:CNKI、万方、维普、超星、书生、Springer Link、ProQuest等等。另一方面,图书馆的数字资源大都是结构化的,且都已建立能适应快速检索的数据结构,这就使通过开发统一的跨库检索工具,快速搜索所需的信息,进而存储到自定义的数据库中成为可能。

(2)高校用户的主体是教师和学生,用户相对稳定且数量一定。由于专业方向明确,其需求有很强的针对性,因而使得在高校校园网的环境中,主动向师生推送其所需资源,并保障信息的质量及推送的效率成为可能。

2 界定高校图书馆数字化资源主动推送系统

目前,高校图书馆的信息服务从根本上来说还是一种被动的服务方式。因为虽然师生可以直接从图书馆站点进入相应资源库的检索界面或使用跨库检索平台获取信息,但是它使用的技术从信息的传输方式看,是由用户通过Browser(浏览器)向图书馆资源库或已购买的网上资源库的Server(服务器)发出服务请求,Server在所拥有的信息资源中进行查询处理,然后把查询结果返回给Browser。在这种情况下,主动的一方是Browser,Server只是根据Browser的请求,被动进行信息发布。换一种说法,也可以表述为主动的一方是用户,而图书馆只是被动地提供信息服务。

这种以“拉”技术为基础的被动式信息服务模式,主要的缺点在于:一是假如N个用户用同一个关键词进行检索,那么服务器端将进行N次检索,这将导致服务器效率的降低,甚至可能崩溃、瘫痪;二是假如同一条信息被N个用户所需求,那么它将在网上传输N次,这样会大大降低网络效率,随着用户和信息量的增加,必然会对网络带宽提出最高的要求;三是用户往往不具备专业的检索技能,由于用词不规范,对各数据库不熟悉等原因,造成检索不到所需信息或使检索的成本过高,结果是图书馆的数字化资源得不到有效的利用。因此,利用计算机技术和网络技术,结合现有的图书馆提供信息服务的模式和经验,使高校图书馆的信息服务更加主动,在更高层次上满足用户的信息需求,提高图书馆资源的利用率,节约用户获取信息的成本已成为一种迫切的要求。

高校图书馆数字化资源主动推送系统正是结合高校图书馆数字化资源和用户的特点,通过专用的检索工具,自动查找用户所需的信息资源,并利用“推”技术,采用多种信息传送形式,将信息推送给用户,以提高信息的可用率和可用信息的获取效率的主动信息服务系统。所谓“推”技术,是与“拉”技术相对而言的,就是服务器(Sener)根据事先获取的用户需求信息,而不是根据用户即时要求,主动把用户所需信息递送给用户的技术。它与“拉”技术最大的不同之处在于:“拉”技术条件下用户自己检索所需信息,主动方是用户;而在“推”技术下,检索过程由系统实现,并自动把检索到的信息随时推送给用户,用户不用进行任何检索操作。该系统不但提高了信息服务的效率,节省了用户查询信息的时间,而且在某种程度上还大大提高了图书馆资源的利用率,减少了网上部分无效信息的流量,节省了宝贵的带宽资源,使得图书馆能更快捷地为用户提供服务。这无论是对图书馆的信息服务还是对网络管理都有着积极的意义。

3 主动推送系统的框架

本文对高校图书馆数字化资源主动推送系统的设计,是在考虑到校园网的支撑、图书馆数字资源和用户群的特点基础上,应用已有的信息检索和数据库等技术,以实现信息的主动推送,从而使系统的设计更有实用性和可行性,也使该系统具有了一些鲜明的特点。主要表现在:①在获取用户的需求后,系统将所有需求进行分类合并,这样不用用户干预,系统就会定期按类搜索图书馆各资源库,避免重复搜索,从而保证搜索的效率,也在一定程度上减轻了服务器的负荷。②系统采用邮件推送与网页推送相结合的方式,使用户能及时了解并获取最新的信息,由于推送的及时性,既节省了用户成本,也提高了图书馆资源的利用率。③由于系统传送的信息都是有效信息,从而避免了垃圾信息对网络资源的大量占用,用户直接面对的信息亦可以得到控制。

高校图书馆数字化资源主动推送系统的总体框架如图1所示,该系统由以下3个子系统组成:

3.1 用户子系统

用户子系统主要完成两个功能:一是用户将在这里提出获取主动推送信息服务的申请(仅第一次获取服务时提出),系统会发送一个申请表让用户填写自己的信息需求,系统将利用自然语言处理模块处理用户的信息,并规范用户的需求,最终形成用户需求信息库和用户基本信息库。二是接受系统推送给用户的信息,用户可根据需要,随时修改自己的信息需求。该系统由五个功能模块组成。

图1 高校图书馆数字化资源主动推送系统框架图

3.1.1 用户接口

用户接口的作用是获取用户的基本信息和信息需求,并接受向用户推送的信息。通过用户接口,用户可及时地看到服务器推送过来的最新信息,也可以方便地修改自己的信息需求。

3.1.2 自然语言处理模块

用户可以利用自然语言来表述自己的信息需求,自然语言处理模块对这些自然语言进行处理,以获取适合检索用的关键词。首先,利用切分词系统将输入的字符串切分成若干个词语,然后再结合词典对这些词语进行规范与扩展,主要包括三个方面:一是舍弃对检索无意义的词语;二是如果切分出来的词语中含有词典无法解释的词,则通过用户界面由用户来定义,定义后的词语如果词典中没有,则把这些词的定义加入到用户专用词典中;三是对这些词语按它们的语义进行扩展,以获取其同义词或近义词,以保证检索的查全率。

3.1.3 词典

系统中的词典分通用词典、专用词典和同义近义词典三种。通用词典中包含与专业领域无关的词,如连词、代词、冠词等。专用词典包含各个领域的重要术语和名词,由于高校专业明确,使得建立适用于本校师生的专用词典成为可能。同义近义词典主要包括各种近义词、同义词,如水与H20、计算机与电脑、英语与English等。由于词典对准确获取用户需求有着直接的影响,进而又决定了系统检索的查全率与查准率,因而词典在整个系统中有着重要的作用,它的质量是保证用户对推送服务满意度的关键,也是整个系统质量的关键所在。

3.1.4 用户基本信息库

用于存储用户的基本信息,如姓名、Email地址、要求推送的时间、专业、研究方向等。

3.1.5 用户需求信息库

用户需求信息经处理后将存储在用户需求信息库中。系统将根据需求信息库的信息,定期进行搜索,以获取所需信息。用户可根据需要,随时修改自己的需求信息。该库是按类来组织的,各高校图书馆可根据各校专业情况,参照分类法等工具,把专业词典中的词语进行分类,在获取用户的信息需求后,直接把其需求分到相应的类中,这样做的好处在于:一是如果多个用户有同一种需求,那么系统将保证只进行一次搜索,因此能避免重复搜索,减轻服务器负荷,提高效率;二是系统搜索按类进行,可缩小搜索的范围,同样可提高搜索的效率。

3.2 信息搜索子系统

信息搜索子系统负责从用户需求信息库提取需求信息,界定搜索范围,自动定期进行搜索,并将结果按照用户的专业等特征信息进行“筛选”、“过滤”,以确保信息与用户的相关性,最后将信息存放到搜索结果信息库中。该子系统由三个功能模块组成。

3.2.1 信息检索模块

信息检索模块将依照用户信息定期从图书馆各数字化资源库中搜索所需资源。搜索的时间间隔,系统管理员可根据本馆资源的更新情况、服务器的性能等进行设置。

信息检索模块的核心是要实现图书馆各异构资源库的跨库检索和分布式集群检索。由于图书馆各资源库都有其独立的检索平台,这给用户的检索带来了诸多不便,并且图书馆的数字资源分布在不同的服务器上,由不同的信息服务公司和出版社提供,或由图书馆自建,成为各具不同特性的异构数据库,因此提供统一的检索平台,实现各异构数据库的跨库检索和分布式集群检索,成为近几年来的研究热点,并取得了一批成果。其中最具代表性的有国外的WebfeatPrism、Metalib和国内的TRS资源整合门户、CALLS统一检索平台、TPI系统等。这些系统大都能消除资源孤岛,有效实现异构、分布式多样化电子资源的跨库检索和开放链接,并提供分布式集群检索功能。在图书馆数字化资源主动推送系统中可利用这些技术,以实现对图书馆各资源库的检索。

3.2.2 信息过滤模块

该模块负责对搜索到的信息按用户需求进行过滤。因为本系统的检索是基于关键词的检索,而关键词本身并不能反映出用户的个性化需求,比如用“全球化”作为关键词检索,系统将把所有与之相匹配的信息都找出来,但这些信息并不一定恰好都是一个经济学专业的特定用户所需要的信息,因此还需要结合用户的其它需求进行信息过滤。在这里,我们用R代表用户需求,代表关键词集合(i=1...n),代表针对的搜索结果,假如用户的一种信息需求可切分成两个关键词,则

3.2.3 搜索结果信息库

搜索结果信息库用于存储信息检索模块搜索到并经过过滤的信息,它是建立在关系型数据库系统的基础之上的,它将创建一个数据模型来组织从图书馆各资源库中搜索到的信息。存储在搜索结果信息库中的信息是按用户组织存放的,其目的是为了方便按用户进行推送。信息搜索子系统负责维护搜索结果信息库的动态变化。

除了系统本身搜索的信息外,高校图书馆的专业咨询人员也可根据用户需求,参与到搜索结果信息库的构建中来,可以删除信息库中不再需要或与该用户需求匹配度不高的信息,也可以添加对用户有用的信息,以提高主动推送的质量,进而提高用户的满意度。对于用户而言,图书馆咨询人员的参与完全是隐性的。

3.3 信息推送子系统

信息推送子系统将根据用户的要求以及网络的负载情况,及时地将用户信息库中的信息推送给用户。

目前常见的推送技术主要有网页推送和邮件推送两种方式。而网页推送又可细分为频道式推送和个性化网页推送。频道式推送是将某些网页定义为浏览器中的频道,用户可以像选择电视频道那样去选择收看自己感兴趣的信息的一种推送方式;个性化网页推送方式则根据用户的登录信息,向该用户推送相关的信息。邮件推送是用电子邮件的方式主动将有关信息发送给用户的推送方式。从推送方式上来看,频道式推送适合向特定的用户群推送信息,而邮件推送和个性化网页推送则适合向个人推送信息。由于高校用户都有其电子邮箱,大多数高校还有自己的邮件系统,结合图书馆主页,本系统将采取邮件推送与网页推送相结合的方式,以实现向用户主动推送其所需信息。具体操作如下:首先从用户基本信息库中提取用户的Email地址和要求推送的时间等信息;再根据网络和服务器状况,在适当的时间,将搜索结果信息库中该用户的信息推送到用户的邮箱中。另一方面,用户一旦通过图书馆主页登录后,系统将根据用户信息生成动态网页,通过网页将信息推送给用户。邮件推送与网页推送各有分工,邮件推送由于不受时空的限制,且不会影响用户访问的速度,因而适合推送主体信息,而网页推送由于要保障系统服务器的响应速度,适合推送题录信息,主要是向用户揭示系统最新的推送情况。

4 实现图书馆数字化资源主动推送的关键技术

4.1 中文信息处理

由于高校图书馆的数字化资源都是经过加工后的信息资源,这使得本系统的中文信息处理相对简单,只需解决用户需求及信息检索等问题,但由于汉字系统的特殊性,故对中文信息的处理又成为一个难点问题。

在英文系统中,词与词之间在书写上用空格隔开,计算机处理时可以非常容易地从文档中识别出一个一个的词。而在汉语系统中,书写以句子为单位,句间有标点隔开,在句内,字和词则是连续排列的,它们之间没有任何分隔。这样,如果要对中文语句进行基于词的处理,必须先要进行词的切分处理,以正确地识别出每一个词。

目前中文句子中比较简单有效的切分词方法是机械式分词法,一般以分词词典为依据,通过文档中的汉字串和词表中的词逐一匹配来完成词的切分。由于机械式分词法对词典的依赖性较大,且中文词数量繁多,使用灵活、变化多样,因此为实现对句子的正确切分,需要建立大型的切分词库。通用切分词词典中包含了大量的不会成为特征项的常用词汇,为了提高系统运行效率和减少建立词库的工作量,可根据各高校的实际情况,建立符合本校的专用切分词词典,只保留各专业的常用术语与专用名词,舍弃庞大的非特征项的常用词汇。这样可以在保障切分质量的前提下,提高系统的运行速度。

4.2 各种词典的建立

主动推送系统推送效果的好坏,是与各类词典的建立和完善分不开的。建立完善的用于切分词的专用词典、通用词典以及用于查询扩展的同义词词典、近义词词典等,进而构建能反映词间各种语义关系的知识库,为将来实现自然语言理解、概念检索等功能打下基础,并使之不断优化,是一项长期、细致的工作。

4.3 智能搜索技术

从用户需求信息库中提取用户需求后,搜索模块将选择查询的分类范围,指定查询的限定集合,组成并提交符合检索需求的表达式,进而开始在各资源库进行检索。由于图书馆数字化资源的规模十分庞大,为了实现搜索的快速响应,提高检索的质量,需要解决以下问题:规划设计检索表达式,尽可能减少匹配次数;能提供异构数据库统一检索;能提供分布式集群检索;按某个原则对满足检索条件的所有信息进行排序;利用多线程、多进程等技术提高搜索的效率等。

4.4 智能推送技术

对于网页推送,系统将在用户登录时推送,而对于邮件推送,有诸多因素需要考虑。一是什么时间适合推送,这不仅要考虑网络带宽问题,还要考虑用户的要求;二是服务器的状况适不适合发送大批的信息;三是用户邮箱的容量问题,一次推送多少信息最佳;再有就是推送失败后的处理,比如相隔多长时间重试等。这就需要对多约束满足问题进行求解并进行优化。

5 结束语

本文针对高校图书馆信息服务的现状和图书馆数字化资源及用户群的特点,提出高校图书馆数字化资源主动推送系统的设计理念,这对于推动高校图书馆信息服务模式的转变,提高图书馆资源的利用率和降低用户获取信息的成本,必将产生积极的意义。

当然,由系统主动推送的服务或信息,也未必都能完全符合用户的需求。如何提高主动服务的质量,缩小用户的需求与所提供的服务之间的差距,改善系统的整体性能,仍是需作进一步研究和探讨的问题。

收稿日期:2006-04-04

标签:;  ;  ;  ;  

网络环境下高校图书馆数字资源主动推送系统框架研究_图书馆论文
下载Doc文档

猜你喜欢