数字图书馆的个性化推送服务,本文主要内容关键词为:数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1、数字图书馆个性化推送服务的发展现状
个性化服务是数字图书馆发展的重要趋势,也是提高图书馆服务质量的重要措施,而个性化的推送服务又是其中的重要一环。从“信源”与“用户”的关系来看,通过推送服务,“信源”主动的将信息推送给“用户”。传统的图书馆只能被动的对不同需求的读者提供统一的服务,而数字图书馆的个性化服务则应当主动的提供针对每个读者的特定需求的信息服务。
1.1 国外发展概况
上个世纪90年代开始了数字图书馆的个性化服务研究。美国康奈尔大学图书馆、弗吉尼亚公共健康大学、华盛顿大学图书馆、北卡州立大学图书馆、梅克伦堡州夏洛特公共图书馆以及亚洲的新加坡国立图书馆等都取得了一定的效果。其中最具代表性的数字图书馆个性化服务系统是MyLibrary系统,现在美国已有近40所图书馆开通了此项服务。以康奈尔大学2000年推出的MyLibrary系统为例,该系统可以分为两个部分:MyLinks和MyUpdates。
MyLinks主要用于读者搜集和组织自己常用的电子资源,资源不仅仅来源于本馆的收藏,还可以来源于互联网资源。用户可以在MyLinks中创建不同的文件夹,并对文件夹中的资源进行命名,添加和删除等基本的操作。
MyUpdates则主要向读者提供个性化的推送服务。读者将其需要定制的信息按照一定的要求输入到系统中,系统定期对图书馆新到的资源按照读者的定制信息进行检索,如果发现了符合定制要求的资源就通过E-mail的方式通知读者。同时读者也可以自主调整定制策略,以满足自己的需求。
1.2 国内发展概况
国内高校图书馆在数字图书馆个性化服务方面的研究与国外相比还有很大差距。汕头市图书馆、厦门大学图书馆、惠州学院图书馆、广州工学院图书馆、佛山市图书馆、福建师范大学图书馆、武汉科技学院图书馆、武汉工业学院图书馆等开通的“我的图书馆”服务项目,大多采用深圳市图书馆开发的ILAS系统。
ILAS系统已经实现的功能包括:①感兴趣的新书:系统根据读者填写的兴趣特征,推送与之符合的新书;②书目查询:查询图书馆的馆藏书目信息及预约借阅;③期刊篇目:查询图书馆的馆藏期刊目次信息;④新书通报:了解新到图书情况;⑤信息查询:查询图书馆自建或引进的各类数据库;⑥联合目录:查询联合目录数据库;⑦资料更新:更新个人资料;⑧修改密码:其中针对读者个性化的服务基本上只局限于书目的查询、预约、Email通知、馆际互借等简单的功能。还有一些图书馆在MyLibrary的基础上开展了此项工作,中国科学院图书馆的个性化门户网站是基于北卡州立大学MyLibrary@NCState系统开发的,包含的项目有我的参考书架、我的全文数据库、我的图书馆链接、我的文摘数据库、我的教育与研究资源、学科消息、快速搜索等。
2、数字图书馆个性化推送服务的实现方案
个性化推送服务是数字图书馆建设的一个热点,也是图书馆走向主动服务的一个重要标志。推送信息服务大体可以分为定制信息、个人信息和系统信息,本文将分别针对这几种不同的信息形式提出相应的实现方案。
2.1 电子资源
目前我国各大图书馆都引进了很多电子资源,它比互联网信息有序化程度高,但读者了解和获取最新的电子资源仍有困难。个性化定制系统能自动将最新的信息推送给读者,无疑在很大程度上提高电子资源的使用效益,提升数字图书馆的服务质量。
2.1.1 推拉技术简介
目前流行的智能推拉技术。“pull”,是用户主动地去寻找信息;“push”,是与“pull”相对的,是服务提供方根据用户的需求,按时将用户感兴趣的信息“push”到用户面前。“pull”的特点是及时性好,但信息针对性差,难以满足个性化的需求。“push”的特点是针对性强,能满足个性化的需求,但及时性差,对“push”主体技术上的要求比较高。推拉技术是“push”与“pull”两种模式的结合,因而能做到取长补短,使二者优势互补。
2.1.2 针对电子资源的推送系统的结构
信息资源提供方是我们提供电子资源推送服务的基础,现在的资源提供方大体可以分为两类,一类自己主动提供推送服务,这类信息资源提供方有自己的推送系统,当有满足用户定制需求的新资源时主动通知用户,以E-mail通知为主;另一类自己不主动提供个性化的推送服务,对于这类信息资源提供方提供的最新资源,由用户按自己的需求去检索资源,也就是通过“pull”的方法来获得。
基于上面的讨论,本文将信息资源提供方简单地分为以下三类:第一类信息资源提供方是主动提供推送服务的;第二类信息资源提供方不主动提供推送服务,但允许我们通过“pull”的手段抓取数据;第三类信息资源提供方不主动提供推送服务,同时也不允许我们抓取其数据。由此,下面给出针对电子资源的推送系统的结构简图(图1)。
附图
图1 针对电子资源的推送系统结构简图
a)信息接受(抓取)模块:对于第一类信息资源提供方,我们需要和它建立起对应的关系,以确保按时接收到它推送过来的信息,但整合到我们自己系统中的时候仍然存在着很多问题,如用户认证的问题等等。对于第二类信息资源提供方,就需要通过“pull”的方法来定期抓取,以获得其更新信息。
b)信息预处理模块:无论是信息资源提供方主动提供的数据还是我们主动从信息资源提供方那里抓取来的数据,其格式都有很大差异,此模块主要功能就是从第一步获得的数据中抽取出我们需要推送的信息,并以本系统制定的格式将其存储起来。
c)过滤模块:过滤模块的功能是将处理好的数据按照用户的定制要求进行过滤。目前,个性化信息过滤技术包括基于内容过滤与协同过滤两种技术。基于内容的过滤技术是按照信息的特征,采用向量空间法来选择信息并且加入了用户个人喜好,是一种较有效的信息过滤技术。协同过滤技术则是依据其他用户评价来选择信息,它不依赖于内容,仅依赖于用户之间的相互推荐。这两种个性化信息过滤技术各有优缺点,不同的背景应用不同的技术,相互弥补对方的不足。
d)发布模块:为最终发布到读者面前的页面定制输出模板,在模板文件中嵌入与页面动态显示数据项相匹配的关键字(关键字是该数据项在相应数据库表中对应的字段名称,代替了页面中的动态显示数据项)。信息输出时,结合相应的页面输出模板,通过页面输出发布程序使输出数据与模板文件中的关键字匹配生成页面,实现信息输出并由Web服务发布。个性化推送服务在这里既作为用户方的代表到数字资源库拉数据(pull),整理后又作为服务放向最终用户推送(push)符合他们要求的信息。
2.2 学科资源
2000年4月,CALIS启动了“重点学科网络资源导航库”项目,旨在将网上相关重点学科中最优秀的网络资源提供给读者,基本覆盖我国高校主要的重点学科。2003年10月,CALIS“十五”“重点学科网络资源导航系统”子项目也已正式启动,预期将开发出一个包含资源建设平台、用户服务平台及资源收集与整理平台的系统。
近年来,部分高校的图书馆开始推行学科馆员制度,图书馆选拔一批既熟悉本馆文献信息资源、又具有较强的信息咨询与检索能力,熟悉某学科专业知识、与相关院系的教师有良好沟通能力的图书馆专业人员,分别承担起专门为某学科读者主动提供深层次信息服务的工作。学科资源导航库和学科馆员制度,将成为设计个性化推送系统的基石。
2.3 个人信息
个人信息推送主要包括读者在图书馆书目查询系统中的借还书记录、图书到馆通知、新书预定信息、馆际互借信息、虚拟参考咨询平台中与个人有关的信息,以及数字图书馆其他系统中产生的与用户相关的信息。
2.3.1 书目查询系统里的个人信息
部分高校图书馆已经实现了图书催还信息的主动推送服务,通知的方式多以E-mail为主。现有的图书催还系统的结构可以简单归结为图2。
附图
图2 现有图书推送系统结构简图
图书催还系统分为三个主要的模块:邮件地址采集、逾期信息提取和邮件发送。参考文献[5]中详细讨论了各个系统模块,本文不再复述。采用E-mail通知方式,除了邮件发送与接收技术比较成熟以外,另外一个原因是类似图书催还等信息的实时要求高,而E-mail是现今Internet用户第一时间知晓信息的最直接方式。然而通知方式不应局限于E-mail,还需要在数字图书馆的特定栏目给予提示。
2.3.2 其他相关个人信息
完善的推送系统在个人信息部分还应包括其他与个人相关的信息,如虚拟参考咨询服务中的相关内容、读者有关问题的解答等等。读者的实时网上咨询可以通过虚拟参考咨询系统解决,非实时网上咨询的问题解答可以由推送系统加以实现。如读者通过E-mail或者BBS提出问题,咨询员对问题进行分析,并收集整理相关资料后给出的解答就可以通过推送系统呈现在读者面前。
2.4 系统信息
除了以上的定制信息和个人信息以外,我们还需要推送和用户有关的系统信息,如图书馆新闻/公告、新近推出的服务项目、读者意见箱等等。这部分信息的获取比较简单,实现的难度不大。因为大多数系统都有公告栏等,要注意把握好推送的尺度,实时性不强、与用户相关度不是特别高的信息适合在公告栏中发布。
3、实际操作中的难点事项
3.1 用户的统一认证
上面所讨论的推送系统涉及到多个系统,这些系统有各自的用户管理访问控制,有些采用IP限制,有些采用用户名口令认证。即便是采用用户名口令认证的系统来讲,读者也可能在每个服务器上都有自己的用户名和口令。这种情况下用户统一认证就成了一个十分复杂的问题。最理想的情况是所有的服务器都使用一套目录服务,读者只需要使用一套用户名口令,就可以实现对所有服务器资源的访问。当然,这种理想情况在具体应用时是有局限性的。比如我们的推送系统和各数据商之间很难建立起上面的目录服务关系,特别是与第一类数据商(参看本文2.1.1.2节)之间,他们有自己的认证体系,在如何与我们的系统实现统一认证的问题上,可以有以下两种思路:一是与数据商建立起相互信任关系,使他们认同我们的认证系统;二是考虑通过代理的方式,在双方之间搭建起一座桥梁。
3.2 读者行为的智能分析
目前的推送系统普遍缺少对读者行为的智能分析。读者行为分析是一种基于读者行为模型的个性化服务机制。现在已有很多学者对商务领域客户行为的智能分析提出了有价值的参考方案,这其中多数方案都是基于数据挖掘技术的。读者行为模型与商务领域的客户行为模型类似,需要事先建立,并通过基于案例的学习进行完善和扩充,每次用户请求都是一个案例,每访问一次,就在日志数据库中增加相应的记录。数据挖掘中最核心的部分应当是选择最有效的挖掘算法或几种算法的序列组合,并且使用该方法去执行挖掘任务。随着应用的深入,也可以不断融入新的规则。总之,数据挖掘技术在对读者行为的分析和研究上也具有广泛的应用前景,数据挖掘的强大能力运用于读者行为分析,可以更加深入地发现读者的使用偏好,以更有效地为读者服务。