数字图书馆个性化信息服务的探索,本文主要内容关键词为:信息服务论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
数字资源越来越多,用户获取的可能性则越来越小,这是一个不争的事实。所以数字图书馆建设就不能仅考虑组织众多的数字化资源“堆放”在主页上,被动地等待用户前来选择,而应以用户需求为中心,利用数字资源开展有效的、不同层次、多种类型的个性化信息服务,并逐步建立一个支持用户有效利用信息、提炼知识、提供决策、解决问题的知识服务机制,这才是数字图书馆建设的最终目的。
1 个性化信息服务表现形式
目前存在着许多个性化服务系统,它们以各种思路实现不同的个性化服务。依据所依赖和采用的技术,个性化信息服务包括逐次递进的三种形式。
第一种形式:个性化推送服务或个性化定制服务。即根据用户的特性提供具有针对性的信息。这种服务所利用的技术如信息推拉技术已较为成熟,已开始在一些商业网站和数字图书馆领域中提供服务。其方式大致有两种,一是提供定制的WEB页面、信息频道或信息栏目,实施查询代理服务;另一种是基于电子邮件的信息推送,根据用户的定制提供相应的信息栏目,定期或不定期地发送到用户电子信箱。
应用于数字图书馆的个性化推送服务及推送系统的研制,国外的如美国康奈尔大学MyLibrary系统,包括Mylinks、Myupdates和MyContents三项服务内容。国内如浙江大学图书馆开发的“我的图书馆”系统,包括书签功能、定制图书馆数字资源、最新信息通告、搜索引擎链接、定制WEB页面样式等功能。
第二种形式:个性化推荐服务。即不仅能根据用户的特性提供具有针对性的信息,还能通过对用户专业特征、研究兴趣的智能分析而主动地向用户推荐其可能需要的信息。个性化推荐(Personalized Recommendation)是一种特定类型的数据库中知识发现的应用技术,根据系统结构不同分为基于内容的推荐系统和协同推荐系统两类。基于内容推荐是利用资源与用户兴趣的相似性来推荐资源,协作推荐则利用用户之间的相似性来推荐资源,目前一些个性化推荐系统综合了基于内容推荐和协作推荐技术的优势,以优化和提高资源推荐的精确性。
个性化推荐服务是一种比较深层次的、主动性和个性化较强的服务方式。国外比较典型的涉及数字图书馆个性化推荐服务的研究项目有:iLumina(Univ.of.Carolina的数字图书馆项目www.ILumina-project.org)、CiteSeer(NEC研究院的包含500,000篇计算机科学文章的在线数字图书馆citeseer.nj.nec.com)、Fab(Stanford大学数字图书馆项目的一部分)。国内正在进行这方面研究的有中国人民大学信息学院以及和图书馆合作研发的“数字图书馆个性化推荐系统”(下节将介绍)。
第三种形式:个性化知识决策服务。即利用数据挖掘、知识发现等技术,对有用的信息内容再进行深层次的分析与挖掘,向用户提供能够用于决策支持、智能查询、科学研究、解决问题的规则和模式。目前这方面研究仅限于企业知识管理与服务等领域,有关技术还处于探讨与完善阶段。但应该看到,将数据挖掘和知识发现的原理与技术应用于数字图书馆个性化信息推荐系统中,实现数字学术资源的深层挖掘并提供有效的知识服务,是数字图书馆个性化信息服务的发展趋势。
2 个性化信息服务实例—“数字图书馆个性化推荐系统”
“数字图书馆个性化推荐系统”(DLPers)是中国人民大学信息学院和图书馆根据教学科研用户利用数字化资源的需求而共同研发的。该系统综合上述个性化信息服务前两种服务功能,既能按照用户的定制要求提供资源,同时能跟踪和学习用户行为,自动采集用户兴趣,并动态跟踪用户兴趣的变化,从中分析出用户的新偏好,进而进行新的推荐。推荐的资源内容目前包括馆藏图书和电子期刊,用户可以浏览资源的基本信息,查询其借阅状况,还可直接阅读全文。由于推荐系统结合基于内容过滤和协同过滤技术,匹配用户对资源感兴趣的程度,另外以基于分类的协同过滤算法改进协同过滤技术,从而提高了实时推荐的效率以及推荐结果的精确度。
“数字图书馆个性化推荐系统”的主要功能与工作流程:
(1)用户注册:提交用户基本信息,包括姓名、年龄、证件号、职业、职称、院系、专业、电话、E-mail地址等。对校内用户采用集体注册方式。可对用户基本信息进行确认和修改。
(2)用户填写研究方向、个人兴趣:系统给出“中图法”三级类目,用户可逐级选择研究方向和个人兴趣,并填写相应的关键词。
(3)用户访问行为记录:系统隐式收集用户访问行为,如访问时间、次数、访问页面、逗留时间等,了解分析用户偏好,动态更新用户兴趣,以使推荐结果更加符合用户要求。
(4)用户兴趣分析:采用多种数据分析技术构建用户兴趣模式,将用户兴趣信息与资源信息进行比较,筛选出符合用户兴趣信息的资源,并分析与该用户具有相同兴趣的其他用户对资源的评价,筛选出评价高的资源,在综合分析这两方面基础上,将最符合用户需求的资源推荐给用户。
(5)用户评价信息反馈:用户对上次推荐资源进行定量和定性评价。定量评价即给资源打分,可对该资源给出自己满意程度的分值;定性评价即对该资源给出自己的评语。系统根据评价信息对推荐结果作进一步改进。
(6)推荐结果显示:在推荐列表区将满足用户需求的资源推荐给用户。按照资源的出版年代由近及远,并按资源的评价分值从高到低向用户推荐。用户可点击查看该资源的基本信息、简要介绍、全文以及其他用户的评分和评论信息。
(7)历史推荐显示:显示该用户的历史推荐资源列表,用户可通过时间等方式查询以往推荐的资源,可对列表中的资源进行重新评价。
(8)推荐资源的管理:用户可将感兴趣或经常要查阅的资源存储在“我的书架”中,可对资源进行组织、编辑和增删。
(9)资源统一检索:提供异构数据资源统一检索平台,以统一的界面和检索方式供用户查询。包括书目资源和论文资源两大部分,提供题名、作者、时间等检索途径。当用户认为推荐的资源尚不充分时,可利用资源统一检索功能以获得更多的资源。
(10)定制页面形式:用户根据自己的爱好,对页面的显示内容、显示位置和显示风格进行设置。
(11)E-mail推荐:定期或不定期地将最新资源发送到用户指定的E-mail邮箱。
3 个性化信息服务发展的关键问题
目前尽管出现了一些个性化服务系统,但大部分都是研究原型,应用于数字图书馆的、实现数字学术资源有效推荐的个性化系统尚没有成熟的研究报道和应用实例,在个性化服务相关技术方面仍有许多需要深入研究和探讨的。
(1)用户兴趣和行为的获取和分析。现有个性化服务系统多是通过用户显式描述方式获取用户兴趣,缺乏主动学习、提取用户行为和个性特征的能力。用显式描述方式获取的用户兴趣是静态的、粗略的,而用户的兴趣则是多方面的,是不断发展变化的。如何动态跟踪、分析预测用户的个性需求和潜在需求是个性化服务系统需要解决的重要问题。
(2)用户兴趣特征模型的建立。对资源分类可采用通用的分类方法,而对用户分类特别是对个性化特征很强的用户兴趣的分类,则不能采用固定规则。综合分类、类聚、关联等分析方法对系统内资源信息、用户信息和用户兴趣信息进行科学的分类和类聚,找出不同类别之间的关联关系,是系统能否提供精确的推荐结果的重要问题。
(3)个性化信息过滤。基于内容过滤与协同过滤技术在资源发现和推荐上各有所长和不足。如何综合两者优势以克服各自的不足需要进一步研究。“DLPers”是以协同过滤技术为主,利用基于内容的过滤解决“冷启动问题”,利用资源的分类信息克服矩阵的高维稀疏问题,从而改进了推荐结果的质量。
(4)资源统一检索。异构资源统一检索平台的构建是个性化服务系统的重要组成部分,一方面可满足用户不同的查询需求,同时也是个性化推荐服务的资源基础。信息抽取和数据集成是这方面关键技术。目前不少研究部门和厂商都在研究使用中间件技术实现资源统一检索。但数字图书馆资源类型多样,对不同载体、不同存储方式、不同使用方式的数据库的处理方式也会不同,资源整合的技术实现难度也相应较大。