基于Tag的个性化信息服务新方式,本文主要内容关键词为:信息服务论文,方式论文,Tag论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G350 文献标识码:A 文章编号:1007-7634(2008)10-1494-08
引言
传统的搜索引擎通常采用简单的关键字匹配模式,对于一条检索请求常常返回数以千计的结果,而且其中多涉及一些无关的条目,为此用户必须在此基础上对结果进行二次筛选,这不仅增加了用户的负担,同时也降低了检索效率。基于此,笔者构建了基于Tag的个性化信息服务检索系统。本系统既能满足不同用户的个性化需求,还能大大提高检索的准确性和有效性[1]。
在国内,Tag应用比较成熟的是厦门大学图书馆,他们基于汇文LIS部署了一个Tag应用。该应用允许用户在OPAC中给书目信息做标签,允许用户管理自己的Tag。厦门大学图书馆的这一实践,对国内的图书馆来说,具有示范性意义。但该系统没有考虑到Tag作为一种原生态的自然语言存在的如模糊性、相似性、无意义性等缺点。笔者在本系统的构建中,充分考虑了这些问题,通过引入后控手段,对Tag进行了聚类分析以及归并等规范控制,使得本系统相对成熟。
本系统的总体设计思想是根据用户在特定领域中的兴趣偏好,在客户端定制一个用户数据库,通过对用户行为的监测来不断的修改和维护这一数据库,从而提供用户数据库与其实际兴趣偏好的吻合度。用户数据库的工作实际上就是对用户兴趣的推导和表征过程。在此同时利用用户所作的Tag来修改和维护服务器数据库,实现对图书馆电子资源的草根分类。另外,如果不同用户对同一资源的理解相同,从而对该资源作出了相同的Tag,系统就会为他们提供链接。
1 Tag的含义与特点
1.1 Tag的含义
Tag(即社会化标签或标签)是一种准确、灵活、开放、有趣的分类方式,是用户为自己的文章、图片、音频、视频等一系列文件所定义的一个或多个描述。Tag学者刘炜认为:Folksonomy(分众分类)由Tag组成;Tag在Folksonomy中是微资源(microresource)的指代;通过检出Tag而检出微资源(microresource);Tag是平面的;Tag是随意的;Tag云图反应了Tag的权重。在此论述中,作者从元数据角度描述了Tag及其与Folksonomy的关系,即Tag是Folksonomy的表现形式[2]。
还有学者认为Tag就是一个自定义的分类,它是由用户自己设置的,并且可以定义多个从属分类。自动设置的标签反映了网络用户的主动参与性以及网络用户的关注点,从而简单地映射出社会热点。正是标签的这种社会化和多样性,才使社会化标签的概念如此时髦和实用。可以这么说,Tag是一种更为灵活和更为有趣的分类方式。Tag作为一种新的组织和管理在线信息的方式,它不同于传统的、针对文件本身的关键字检索,而是一种模糊化、智能化的分类。您可以为每篇日志、每个帖子或者每张图片,甚至你认为需要或可以添加Tag的任何东西都添加一个或多个Tag,你可以看到网络上所有和您使用了相同Tag的内容,由此和他人建立更多的联系。Tag体现了群体的力量,使得内容之间的相关性和用户之间的交互性大大增强[3]。
综上所述,本文认为社会化标签是一种对日志进行个性化整理的民间分类方式。用户可以为每篇博客日志添加一个或多个Tag,然后就可以看到博客系统上所有使用了相同Tag的日志内容,并且由此与发布同样Tag的其他用户产生更多的联系和沟通。在社区中,每一篇文字、每一幅图片、每一段音视频都拥有属于自己的社会化标签,这体现了从不同角度对相同社会化标签的描述。通过各种各样的社会化标签即可看到其他用户的喜好与关注,还可以找到使用相同标签的所有用户、谈论同一个话题的人群及有着共同喜好的人群。另外,通过社会化标签还可以展示自己的兴趣、爱好、擅长、关注的热点等一切所希望展示的内容。因此,有了社会化标签,所有用户都可以在这里共享资源,找到自己需要的准确而全面的内容。
1.2 Tag的特点
Tag检索是一种模糊化、智能化的“散秩分类”检索,它鼓励大众根据自己的需要,用个性化语言来标记内容,而后通过互联网用户的大量交换以及相关的内容匹配实现有效地搜索和信息的社会化传播。总结起来它有以下几个特点。
平面化:Tag在形式上基本是短语的词汇,所以不会显得冗长和繁杂。其次,Tag是平行的,不像目录那样考虑一级目录、二级目录。
随意性:Tag在网络上可以用于任何东西。
社会化:从传播学的角度来看,信息传播的接受已不再是传播过程的终点,而在某种程度上成为一个新的传播中心。
聚合性:由于每个Tag都是资源的关键词概括,因此,相同的Tag就能聚合出同一类资源,也就能聚合兴趣相同的用户。
以人为本:Tag也可以说是一种关键词标记,利于搜索查找。但Tag又不同于一般的关键词,它可以将文章中根本没有的斗争词作为Tag来标记,它贴近互联网用户的个人感受及情感体验,是更富有人性化的秩序。
导向性:越受欢迎的资源总是被越多的用户用Tag标注,使用频率越高的Tag对资源内容的概括越准确。因此,最受欢迎的资源和最能概括资源的Tag渐渐地脱颖而出,被更多的用户发现,从而迎合公众的需要。
动态自适应性:随着社会的发展和公众兴趣的转变,受欢迎的资源和最能概括资源的Tag会随之发生相应的变化,从而适应不同时期同一用户对各类资源的不同需要以及不同用户对同一资源的不同需要。
2 Tag的发展及应用
2.1 Tag的发展历程
1998年,del.icio.us的创始人美国约舒亚·沙科特(Joshua Schachter)在做网站memepool时发现自己有大量的链接需要保存,开始的时候,他把这些链接都放在同一个文件里。随着保存的链接越来越多,查找一个链接也越来越麻烦。为了能更快捷地找到需要的链接,他就在每个链接的后面加上了一个关键词来做简单介绍,这些简单的介绍其实就是标签(Tag)。2002年,约舒亚创建了一个基于Web的数据库来保存这些加上了标签的链接。这就是最早的社会化标签模式。当时这个数据库只是约舒亚自己使用,而且为了便于使用,他把这个数据库放在了互联网上。2003年,约舒亚重写了这个Web数据库系统,并支持多用户访问,这就是现在的del.icio.us。约舒亚曾经在网上提到他这么做的动机:“我解决了一个我遇到的问题,那么同时就解决了每个人都可能遇到的同样的问题。”
del.icio.us的社会化标签服务一经推出就大受欢迎,很快就有一些网站模仿。它的模仿者Furl.net却青出于蓝而胜于蓝,在创立近一年后就出售给著名的搜索引擎公司LookSmart。上述这两家网站对中文的支持不好,所以国内用户开始广泛接触社会化标签服务就比较晚。2004年10月,中文网站365key.com开始向国内互联网用户提供网摘服务,不久之后又提供了社会化标签服务。实际上,尽管标签和网摘之间还是有些差别,但这两个概念有一些相似,有些时候便混淆使用。
2005年5月,国内的一家博客托管服务商Blog-Bus(http://www.blogbus.com)推出了标签服务。该服务允许博客们为自己的每篇博客日志设置1~5个标签,而且这些标签会被同时提交到标签的全球网站。由此,社会化标签Tag就开始进入中国[4]。
亚马逊前首席科学家Andreas S.Weigend认为互联网经历了三个发展时期:第一阶段,用户通过类似FTP的服务获得信息;第二个阶段是超链接,用户通过目标搜索在网站上得到一些超链接结果,并由此获得相关网页和信息;Tag技术是第三个阶段,它将带来一些集成了大量高效功能的产品,帮助用户快速有效获取信息。应该说,Tag是国内博客传播的一次重大进步。Tag的发展方向主要是:Tag可以排序(除了目前的字顺和权重,还有多种形式,包括动态形式,如结合相关反馈、合作过滤、点击次数、甚至类pagerank等);Tag可以层级化(层次关系,例如del.icio.us目前支持的Tag类目);Tag可以聚类(反映了资源之间的关系;经常在一起的Tag具有较为密切的关系,等等);Tag可以规范化(同义词、反义词归并指代;用代属分参关系标注等)。
2.2 几个典型的应用
常见的Tag应用主要涉及网站和图书馆等搜索领域。
2.2.1 应用Tag技术的网站
(1)del.icio.us。
del.icio.us是由30岁的纽约人约舒亚·沙科特(Joshua Schachter)创建的。沙科特说“做这个网站的主要动机是解决自己遇到的问题,没想到给很多人解决了问题。”del.icio.us是支持Tag功能的一个书签管理网站。当用户通过该网站把自己喜欢的网页的链接加入个人收藏夹时,网站提示用户用Tag标注这些网址,并进行分类管理。当用户再次登陆del.icio.us来访问自己的收藏夹时,就可以方便地访问收藏夹中分类整理过的网址。这不仅使得个人收藏夹的管理更加方便,也使得用户可以搜索系统中被标注为同一Tag的所有网址,从而共享其他用户的收藏夹资源。
(2)www.flickr.com。
flickr是一个支持Tag的图片管理和共享平台。上传者可先行指定Tag,然后再由其他用户来完善和选择,并逐渐达成共识,有时候也会形成一些新的词汇。同时,flickr还支持图片的权限管理,上传到flickr的图片资源可以指定其权限为公共、朋友和家人三种,以保证用户的隐私不被侵害。flickr对于图像存储、共享和组织领域来说,是具有革命性意义的,它能很方便的管理图像,也能协同处理,并且提供了很多功能,如留言、批注和为你的照片添加Tag,发布到任何Blog上,共享和实时聊天等等。flickr声称要成为最好的在线管理和照片共享工具,它有两个主要目标:一是要帮助人们把他们的照片提供给有需要的人;二是要建立一个组织管理照片的新方法。
2.2.2 应用Tag技术的图书馆
在国外,首先值得一提的是Lewis&Clark图书馆。该馆为读者开发的书签程序,它能够自动生成收藏同一页面或者使用相同标签的读者之间的链接。通过贴标签、收藏、共享三个步骤,读者能够管理自己所喜爱的网页。
其次是宾州大学。宾州大学的图书馆始建于1750年,最初的藏书来自制图师美国路易·艾文斯的捐赠。20年后,当时的教务长美国威廉·史密斯远渡英国筹集资金以扩充藏书量。250年以后的今天,学校已拥有大小图书馆15个,馆藏图书超过570万册,同时订阅4万种以上的期刊,拥有400多名管理员,以及4.8亿美元的预算。宾州大学图书馆开辟了网络书签服务,该系统可以让用户给书目记录加上标签,并提供类似于flickr的功能,允许用户将标签加入到个人空间。
再次是不少图书馆在网站上建立资源,开放标签,如澳大利亚国家图书馆。该馆1993年7月加入科罗拉多研究图书馆联盟的UnCover系统。这是一个提供馆藏目录、期刊论文索引、摘要、期刊目次、期刊联合目录的系统。澳大利亚国家图书馆1995年开始实施的CJK计划是在网上提供中文、日文、朝文的书目记录数据,也为不具有CJK能力的地方系统提供联机公共目录查询(OPAC)。
在国内,必须一提的是厦门大学图书馆,他们基于汇文LIS部署了一个相对较为成熟的Tag应用。该应用允许用户在OPAC中给书目信息做标签,允许用户收藏和管理Tag过的OPAC条目,允许用户管理自己的Tag。
数据库的建设规模、信息量的大小和使用频率已成为衡量一个国家综合国力的重要尺度。坚持可持续发展的全新发展模式,实现图书馆资源的可持续配置、可持续开发、保存、利用,充分挖掘现代科学技术,实施科学管理,进行知识创新,实现资源重整,深化信息服务,既是知识经济发展的需要,也是保证人类社会长远与持续发展的不竭之源[5-6]。
3 Tag的作用及价值
3.1 记录和整理自己的关注点
一个人,在不同的时间看同一个内容,都有可能得到不同的印象、不同的理解。这种理解,他可以标记为一个或多个标签(Tag);而不同的人,在看某一类的课程时,也可能会得到同样的关注点。如果没有标签功能,我们只能在脑子里有这样一个词一闪而过,而以后再想获得同样的启示,或找到当时自己灵感的来源时,都不再有痕迹了。一旦标记了标签(Tag),我们就可以在任何时候回想到自己曾经关注过的内容。
3.2 提高搜索的效率
很多曾经体验过在线学习的人都有这样的体会:当他刚刚从业务骨干的位置被提拔到部门经理的时候,他很想通过系统的学习来弥补自己的不足以尽快适应岗位要求。但在线学习网站,大多是按课程进行分类,如管理类、营销类、个人成长类……当面临着角色转变时,需学习哪些课程?哪些是有用的、哪些是帮助不大的?对于网站运营者来说,组织课程是系统、全面的工作,而不可能是模糊、个性化的,所以,我们不可能按人的需求设置属性,只能按课程进行分类。如果通过Tag,就很容易解决这一矛盾。我们可以通过搜索与自己的需求最为相关的Tag,以尽快找到需要学习的内容。
3.3 关注分类的相关性
同一个内容,既有网站提供的标准分类,也可以有用户自己打的标签。通过标准分类,我们可以提供给用户一个既定的查找路径,而用户根据自己的认识对内容所打的标签则提供了“相关性”、“相似性”查找的可能。以前我们如果要给用户提供某个内容的相关推荐,需要通过后台的程序进行大量的数据库检索等工作,甚至还要客服人员不断地维护数据变更。这个工作量是很大的。而通过标签功能,只需要查找“具有相同标签”的内容,就能快速地实现推荐功能了。由于有Tag的存在,我们可以根据不同的用户所打的同样的标签,聚合出“标签云(Tags cloud)”或“标签图(Weighted Tag)”。一方面,让运营商了解大家更关注哪些类别的内容,从而使平台中内容的提供越来越准确、越来越符合用户的要求;另一方面,让不同的用户之间,通过相关的Tag,找到自己的友邻,使得平台真正成为大家互相学习、互相交流、共同提高的学习基地。除此之外,Tag可以让用户更容易进行信息查找;通过Tag可以让用户大量的信息数据积累、聚类,从而构建一个更广阔的信息服务空间。标签的作用不仅仅能揭示资源的隐含内容或信息,还可以实现对资源的聚合、协同、过滤与推荐等。
3.4 实现分众分类的管理模式
Tag的基本功能是实现分众分类的手段。Tag的自发性使得用户可以根据自己的兴趣和需要随意地对资源进行不同的分类管理。这种分众分类的管理模式可以适应同一用户对各类资源的不同需要,也可以适应不同用户对同一资源的不同需要。与其他分类模式相比,分众分类的管理模式具有更大的灵活性和适应性。从个人的角度讲,现代社会要求每个人经常进行个人知识管理来整合个人的信息资源,提升个人的竞争力。显然,利用Tag进行分众分类管理更能适应不同的人的不同的情况。从公众的角度讲,海量的网络信息需要进行分类整理,从而使得信息便于用户查找,便于把有用的资料主动提供给用户,供用户选择。网络信息比个人资料管理更加广泛,数量更加庞大,新增类别层出不穷。通过Tag,采用灵活的分众分类的思想,不仅可以汇集所有用户的分类智慧,还可以不断增添新类以满足网络信息量激增的需要。
3.5 增强人们的概括能力
Tag是对若干资源内容的共性的概括,这种概括是依据一定的价值标准完成的,因而是用户自己的价值标准的体现。Tag不仅仅与被标注的资源的内容有关,而且与实施标注的用户的价值取向和概括能力有关。用户标注Tag时,需要从个别资源的个性中找出共性才能得到有意义的Tag。用户在查找资源时,又要通过Tag所显示的共性去寻找自己所要的资源。用户的思想不断地在个性、共性之间跳跃,在个别、一般之间跳跃,因此,他们的价值取向和概括能力就会在这个过程中不断地得到锤炼和提高。同时,用户还可以从他人的Tag中发现新的价值取向和概括方法,使其思维更加深刻。
3.6 引发评价标准和分类原则的多元化
对同一资源标注所得的多种不同的Tag是在相同的评价标准和分类原则的指导下完成的。评价标准可以是不同的,不同的评价标准可以都是正确而有意义的,两个都正确而有意义的评价标准之间不是矛盾的关系而是互补的关系。由评价标准引出的分类原则可以是不同的,不同的正确而有意义的评价标准和不同的分类原则的并存对我们是有利的。使用Tag的用户都会经常发现与自己不同的Tag标注方法,体会到这些不同的Tag标注方法背后的不同的评价标准和分类原则。由此可见,Tag的推广和应用必将引发评价标准的多元化和分类原则的多元化。这种多元化的进程对发散性思维的培养和新知识的形成都有着不可替代的作用,它将使人的思维更加灵活。
3.7 利于社会网络的形成
每个Tag都是代表资源的关键词,相同的Tag所代表的资源大多都是同一类资源。Tag的共享性使得喜好同类资源的用户之间很容易通过Tag建立联系。而且,del.icio.us等支持Tag的网站还能够给用户提示内容相关的Tag。这就为兴趣相近的用户搭建了沟通的渠道,从而有助于兴趣相近的用户形成自己的社会网络。他们有共同的兴趣,学习同类的知识,研究同类的问题;他们对不同的观点、看法会产生激烈的讨论。知识在激烈的讨论中得到了锤炼,错误的认识被抛弃,新的认识再生成并不断完善。因此,用这种方法组建的社会网络是研究型、知识型的社会网络。
3.8 提供了社会预测和必要的信息引导
由于Tag代表了个体的兴趣和知识,因此某个时段的所有Tag代表了该时段用户群体所关注的信息,某个时段Tag集中的方向预示着人们关注的焦点。我们可以通过统计Tag及时掌握最新的社会需求信息,从而做出有针对性的社会预测和引导。当Tag作为一种全新的技术和理念出现在我们面前的时候,Tag的影响将超出技术和理念为我们设定的范围,深刻地影响着我们的思维方式和生活方式,同时给整个社会及其文化带来深远的影响[7-8]。
4 Tag信息服务系统的框架设计
Tag信息服务系统共分为四个模块:一是注册及登陆模块,二是Tag模块,三是用户检索模块,四是数据库系统模块。本系统的实现基础是良好的数据库处理体系,其中个人数据库是本系统的核心。其系统总体框架如图1所示。
图1 Tag信息服务系统总体框架
4.1 注册及登陆模块
该模块的主要功能是建立用户的个人档案。当用户首次登陆时,系统允许用户通过注册建立自己的个人档案,注册的主要内容是用户身份、知识背景、兴趣领域等。建立此档案主要是为了让系统便于对用户兴趣进行后续分析,同时初始化用户的个人数据库。并且根据用户的知识背景对其所作Tag进行初始化权值评估,例如如果是专业的图书馆员则其所作Tag有相对高的权值,并且在服务器数据库中我们只保留权值高于一定分数的Tag,从而提高分类的有效性,避免上文提到的Tag作为原生态语言的缺点,提高分类的准确性。
4.2 Tag模块的框架
本区域由三个功能子模块组成,分别是:阅览子模块、基于Ajax的Tag提交子模块以及用户分类显示子模块。本区域的三个功能子模块显示在同一界面中,其功能是通过Ajax技术来实现的。
4.2.1 阅览子模块
本模块的主要功能是提供电子资源的阅读,同时为该模块设置监视功能,进而为个人数据库提供资料,加强系统对用户的兴趣的学习,从而提高检索系统的检索精度。所谓的监视功能主要如下:记录用户浏览某电子资源的时间,监视用户是否有复制行为或者是否保存了此网页,据此来调整用户个人数据库中的兴趣的相关值,具体如何处理在个人数据库部分进行讨论。
4.2.2 基于Ajax的Tag提交子模块
本模块的主要功能是进行个人Tag标记及其提交,鉴于方便用户进行Tag提交同时不影响用户浏览电子资源,本模块采用Ajax技术进行Tag的提交。Ajax(Asynchronous JavaScript and XML)即异步“JavaScript和XML”,是创建交互式Web应用的网页开发技术,由几种蓬勃发展的技术组合而成,其精髓在于用户和服务器之间引入中间媒介——Ajax引擎,通过调用XMLHttpRequest对象实现与服务器的异步通讯,从而彻底改变了原有的“处理—等待—处理”的工作过程。
基于Ajax的嵌入式Tag系统解决方案,是指在本模块中的网页中嵌入一段JavaScript脚本,利用该脚本进行客户端页面信息的抓取和内容的更新,进行与服务器端的异步通讯,从而实现Tag的提交和显示功能,同时结合服务器端的Tag云图、Tag检索等功能模块,实现一个易于部署的Tag系统。在不影响用户阅读的情况下添加Tag可以减少时间的浪费,从而提高用户的积极性,充分发挥Tag的作用以加快信息的分类与整理。
4.2.3 用户分类显示子模块
在提交Tag的同时,根据服务器中的Tag云图,返回作出相同Tag的用户,并且自动建立这些用户间的联系。从而方便建立用户社区,进一步提供用户Tag的积极性。
总而言之,Tag模块的主要作用是为服务器数据库及个人数据库提供资料,从而建立个人的比较准确的数据库,为实现个性化信息检索及提高检索精度奠定基础。
4.3 用户检索模块
本区域共分为三个子模块,分别是:检索界面子模块、个性化处理子模块和显示结果子模块。
4.3.1 检索界面子模块
传统的检索界面一般只具有接收用户检索请求和反馈结果的功能,但如此则无法很好的利用用户反馈信息,从而不能很好的提高检索系统的精确度。鉴于此,本系统检索UI的设计弥补了这方面的缺点。系统建立了检索结果的评价机制,并且尽量简单化其操作,同时鼓励用户对检索结果给出量化的评价值,而该值则被保存到用户的个人数据库里和服务器数据库中,然后在相应的数据库中进行相应的操作,例如加权平均等。此部分在数据库部分进行详细叙述。这一功能可以迅速的增加检索系统对用户的兴趣的掌握速度,进而快速提高检索系统的检索精度。
另外,在检索界面设置监视功能。本模块监视功能的主要作用如下。
①记录用户对结果显示中每条记录的点击次数,但鉴于点击次数并不能很好的体现该记录的准确程度,故将该处的权值设置如下。对于记录仅分为两部分,一是没有点击的记录,一是点击过的记录。对于用户没有点击的记录将其在个人数据库和服务器数据库中的分类权值减少一定的分数,而对于用户点击过的记录做如下处理,不论点击次数多少均对其分类权值加相同的分数,因为点击三次并不能说明此记录的准确程度就比点击两次的记录的准确程度要高。最后记录用户最后一次点击的记录,相对而言,该记录应该是最准确的、最符合检索要求的记录,据此来修改该记录所处位置的权值,如果该记录本就处于恰当的位置则增加其权值,相反则减少该记录的权值,同时为该记录增添一个新的分类,并初始化该分类的权值。
②记录用户对记录所链接的电子资源的浏览时间,同样据此对个人数据库和服务器数据库进行如上所述的权值分配与更改,在此不再赘述。但此处的记录能够很好地体现此记录的准确程度,所以此处的权值设置更改量较大。
③记录用户对电子资源的操作,如对电子书进行下载或者收藏以及复制等操作,同样据此对个人数据库及服务器数据库进行权值的重分配及更改,同样不再赘述。此处的记录更能体现该记录的吻合程度,所以此处的权值是三者中最大的。
通过以上用户的直接反馈和监视系统能够很快的建立其用户的个人数据库并对其进行优化,同时也能很快提高服务器数据库中电子资源的分类准确性,从而快速提高检索系统的准确性以及分类的科学性。
4.3.2 个性化处理子模块
本模块的主要功能是个性化处理检索词,最终实现检索结果的个性化。本部分功能的实现是建立在个人数据库系统之上的,故本部分功能的实现程度完全取决于个人数据库的准确程度,前面已经为建立个人数据库做了大量的工作,此处是其应用。
本系统的个人数据库是根据用户所作的Tag进行分类的,同时服务器数据库记录了各个个人数据库之间的相似程度,该功能的实现是建立在用户社区的基础上的,其具体的实现如下所述:对于本系统的实现而言,用户必须进行注册,在注册时分配给每个用户独立的Index,随后在用户提交Tag的时候,系统会记录作出相似Tag的用户并将其添加到该用户的个人数据库记录中。故个人数据库记录共分为两大部分,一部分是用户的Tag记录,一部分是用户社区的记录,在用户社区中,根据Tag的相似程度以及作出相似Tag的次数,为不同的用户分配不同的权值。这样在本系统的检索服务中,就可以据此作出个性化的检索服务。当用户递交检索请求时,根据该用户的数据库系统作出不同的返回结果。首先搜索个人数据库系统的Tag记录部分,根据该部分的相关记录作出一定的应答,随后搜索用户社区部分,然后再作出一定的应答。最终的返回结果是这两部分的综合,然后对结果进行排序,由于在用户社区部分以及作出了用户的排序,故此处的排序就容易实现了,很明显,首先是用户Tag部分,其次按照用户社区部分用户的排序对结果进行排序。因此搜索结果必定会有很大提高[9-11]。
4.3.3 结果显示子模块
结果是显示在检索界面子模块的,该子模块只是简单的显示结果,与普通的检索结果界面相同,在此不再赘述。
用户检索模块的个性化检索是建立在个人数据库系统之上的,同时本模块的相关操作有进一步影响数据库的权值分配,从而两者互补,最终实现检索的高精度。
4.4 数据库系统模块
本数据库系统是整个个性化信息服务系统的核心,个性化信息服务系统的核心是对用户的各种操作、各种兴趣的观察及总结,而数据库的主要作用即在于记载对用户观察的结果,进一步实现对用户的各种操作和兴趣的更新和巩固。数据库系统的设计如图2所示。
图2 数据库系统
4.4.1 服务器数据库设计
由于电子资源的大体归类大多数人应该没有很大差别,并且此部分工作比较容易完成,故在将电子资源上传时,首先由图书馆员对其进行大致归类,例如本系统的设计中,共分为以上所示几个板块:政治、经济、文学、艺术等。一旦对资源进行归属后,其在服务器中的分类位置就不能再发生改变,除非非常的不合理,以此来拒绝用户的误操作。
细致的分类完全根据用户所作的Tag进行划分,根据Tag进行划分时要对不同用户所作Tag赋以不同权值,此处的赋值是根据用户注册时的数据以及随后系统对其评价所给出的。在用户进行注册时要求用户注册其知识背景,根据不同的知识背景对用户的Tag权值进行初始化,例如,用户是图书馆管理员则其Tag权值初始化为十分,而如果用户是普通本科生,则对其Tag权值初始化为三分,注意此处不能将Tag初始化权值设置为零,如此的话系统则无法吸收该用户的Tag。以上只是用户Tag的初始化权值,随后系统会评价用户的Tag准确性,从而作出相应的改变,对于其准确性的评价是建立在对用户的检索准确度上的,其计算公示如下:
ψ=initial+∑η*I;
其中initial是用户的初始化值,η是其在检索记录中所规定的权值,I是其提供的对于该检索记录的条数。其中η值可以是负的,如果其提供的多条记录均不被用户认可,则将其设置成负值,这样用户的个人权值便会逐渐地得到更正,从而趋向实际。
在此需要说明的是对于相同的资源必定有很多不同的Tag,故在向检索系统返回记录时,显示原则是:检索词匹配程度+该资源处于此分类的权值。即如果某一资源有60%的用户将其Tag分为技术而有40%的人将其分为经济,则将该资源的技术权值设置为六分,经济权值设置为四分。显示原则中将匹配程度的权值设置八,分类权值设置为二,即进行如下计算,假设关键词匹配程度为90%,而分类权值匹配程度为50%,于是该资源的rank就为:90%×8+50%×2=8.2。当然此处只是简单说明,在系统的实现时会有更复杂和精确的设计。
4.4.2 个人数据库设计
正如在个性化处理模块中提到的,本系统中个人数据库部分分两部分,一部分是个人Tag数据,另一部分是用户社区,在用户社区部分需要对和本用户相关的用户进行排序,排序公式如下所示:
Rank=η*I+∑(χ-ε)2
其中η是相似程度权值,I是相似的条数,χ是在检索中该用户提供的检索记录数,ε是所有的检索记录的平均权值。对于Tag部分不再做详细的阐述,同服务器数据库设计类似。
5 结语
通过上述分析可以看出,系统的每个模块都含有智能因素来实现系统与用户的交互和系统学习。并且,各模块间是通过充分的合作来实现整体功能的,彼此有很好的互补作用,使系统对用户的学习更为深入。同时本系统利用加权平均等做法很好地解决了Tag作为原生态语言的诸多缺点,使得本系统更加的个性化、智能化、实用化。当然本系统的数据库构架也许还有不合理之处,这也是我们今后努力改善的方向。
收稿日期:2008-04-06