数字图书馆个性化服务中用户信息行为的收集与分析_数字图书馆论文

数字图书馆个性化服务中用户信息行为的收集与分析,本文主要内容关键词为:用户信息论文,数字图书馆论文,个性化服务论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

提供个性化信息服务是以了解用户需求为基础的,也就是说,要提供个性化服务,就必须了解用户口的信息行为。本文主要以数字图书馆的个性化服务的内容和技术要求为依据,研究在数字图书馆建设中如何收集和分析用户的信息行为。

1 数字图书馆用户信息行为收集与分析实例分析[1]

台湾交通大学图书馆在数字图书馆实践中,引入个人化信息环境PIE(Personal Information Enviroment),其目的是将个性化信息技术应用在数字图书馆建设中,强调动态了解用户的兴趣,从而为用户提供个性化服务。服务内容包括:个性化使用环境,个性化检索服务,信息选粹服务。个性化使用环境主要指用户可以根据自己的喜好来组织网页,包括颜色,样式,资源,链接等。个性化检索服务则是通过一定的机制动态了解用户的兴趣,帮助用户检索信息资源。信息选粹服务是根据用户的兴趣,通知用户与用户兴趣有关的新进信息资源及服务。该数字图书馆系统在采集分析用户兴趣时主要以用户借阅记录和检索记录中的关键词为主,并通过兴趣关链图(具体方法见3.2)来求得用户的兴趣所在。在数字图书馆个性化服务探索过程中,具有较高的水平。

该系统所使用的用户信息行为的收集与分析方式只采用了部分方法,这表明尽管对用户信息行为的收集与分析方法有许多,但在实际设计中,不同的系统采用的方法会有所不同。

2 用户信息收集的方式及性能分析

用户信息行为的研究主要是通过一定的方法收集整理用户的需求,从而了解用户的信息需要,进而提供主动的信息服务的过程。因此研究用户信息行为是以对用户信息的收集及分析为基础的。

2.1 通过网络调查收集

这种方法主要在网页上设置专有页面,供用户填写或选择自己感兴趣的信息,如Yahoo网站注册电子邮件时,都需要用户填写用户信息,并对用户提供娱乐,商业,购物,家庭,计算机与技术,体育及室外运动,保健,个人理财,旅游,音乐,中小企业,彩票及免费商品等内容以便用户进行选择。[2]这种方法可以直接获取用户的兴趣,信息需求倾向,简单易行。但同时也存在一定的问题,主要表现在(1)用户输入可能有错误;(2)用户输入的词具有随意性,对用户兴趣的描述不能达到一定的专指性,因而也无法准确表达用户的需求;(3)用户选择时具有随意性,也就是说,用户的选择有可能并不代表他们的本身需求或兴趣。

2.2 通过系统自动搜集用户信息

系统自动搜集用户信息,主要是利用信息挖掘技术,通过一定的信息收集程序和分析程序来自动搜集用户兴趣的过程。主要方式有:分析网页关键字,分析电子邮件关键字,分析借阅记录,分析检索词。通过系统自动搜集,一方面可以提高准确性,同时也节省了大量的人力劳动,但设计比较复杂。这种方法是用户信息行为分析过程中对用户信息收集的主要方式。

2.2.1 分析网页关键字

这种方式主要是记录某一用户的某次网页利用过程中所浏览的网页的关键字,通过分析这些关键字从而获取用户的兴趣。这种方式需要在用户一登录网站就建立某一跟踪信息,如NETSCAPE中利用cookies来动态掌握用户利用网站过程,直到用户退出为止。这一过程中,系统为用户建立一个记录,用以存储用户浏览过的网页的关键字,以便系统以后分析时使用。这一过程用软件可以比较容易实现,但由于网页数量比较多,内容也会比较庞杂,同时用户的兴趣也会有偏移的时候,因此由此分析出的用户兴趣往往不太准确。

2.2.2 分析电子邮件关键字

电子邮件是用户进行网上相互交流的一种主要方式之一,在一定程度上会反应用户的兴趣,也就成为分析用户兴趣的重要方式之一。系统通过提取用户邮箱中信件的关键字,再依据一定的时间间隔将关键字加以分群,然后进行分析。这种方式也存在不能准确反映用户特定需求的缺点。

2.2.3 分析借阅记录(下载记录)

提取用户借阅记录(下载记录),分析其中的关键词,然后加以聚类。如某一用户的借阅记录为社会经济学,信息经济学,社会经济的理性思考,提取出的关键词为:经济学,信息,思考,经济,从而可以分析出用户的主要兴趣点在经济学方面。这种方式往往比较准确地反映了用户的主要兴趣与需求。

2.2.4 分析检索词

主要通过记录用户个人检索策略的频率,各种检索策略的相关性,时间对兴趣的影响,利用个人兴趣关联图来获得用户的兴趣。这种方式比较准确,但处理比较复杂。需要有相关的分析方式和方法。

2.2.5 分析用户对网页的利用时间和频度

通过分析用户在利用网络过程中,浏览某一网站的时间和访问这一网站的频度,通过计算兴趣度来了解用户的信息需求。这也是一种定量的方法。

3 用户兴趣分析

通过各种渠道搜集到的用户信息需要经过一定的处理和分析,才能掌握用户的信息行为,从而为数字图书馆提供个性化服务提供指导,通过不同的方式收集到的用户信息是不同的,如有关键词,时间,频率等等,因此分析的方法也会有所不同,本文介绍两种成熟的方法。

3.1 通过访问时间和频度计算兴趣度

兴趣度即用户对某一网站的感兴趣程度。用户兴趣度的计算是基于这样一种观点:用户对于网页的浏览可能会带有一定的随意性,但同时又会有一定的规律,主要表现在,如果一个用户对某一网页比较感兴趣,那么,该用户在浏览此网页时就会消耗更多的时间,同时也会经常重复访问此网页。这是一种定量测度用户兴趣的方法。人们引用公式F=(n/N+t/N)l/L来计算兴趣度,其中n为本次访问该节点的次数,N为本次访问的总次数,t为访问本节点所消耗的时间,T为访问网站所用的总时间,l为本次访问的节点数,L为网站的总节点数。引用这几个参数是因为考虑到用户每一次访问的时间不同,且网站的长度也是不断变化的,这样才可以使每次计算的兴趣度具有可比性。[3]Dlick-stream Analysis/Web Usage Mining System就是一种收集用户利用网页时间和频次的一种技术方法。它可以用来记录用户访问路径,用户来自何方,用户登入的路径,点击次数,在一个网页内所花费的时间等等。

3.2 通过检索词计算兴趣度

柯皓仁在《数位图书馆现况与发展》一文中引入关联图来分析用户检索词,从而定量求得用户的兴趣的方法:(关联图见下图)[4]通过关联图可以看出用户所有兴趣间的关连性:若某一使用者的关联图中有两个端点以边线相连则对该用户来说代表了该用户曾经同时使用过两个端点所代表的检索词。通过计算检索词之间的关系,求出检索词间的权重,即可判断用户的兴趣。

4 用户信息行为研究中应该注意的问题

4.1 隐私保护问题

在用户信息行为研究中要充分考虑用户的隐私权问题,也就是说并不是所有的用户都会喜欢“主动”服务,当用户每次打开电子邮箱时,就会看到一大堆信息,尽管可能与用户的兴趣相关,但用户也会感到厌烦。因此,任何网站首先需要考虑的是用户是否接受这种主动服务,解决的办法就是提供用户选择的机会,只有那些接受主动服务的用户才是服务的对象,否则会影响服务的效果。

另外网站在用户利用过程中,也要注意保护用户的隐私权,特别是要避免用户个人信息的外泄,从而保护用户的合法权益。

4.2 信息行为研究的评价问题

搜集用户信息的方法有很多,并不是每一个数字图书馆在分析用户信息需求时需要将所有的方法都用到,这是不可能也是不必要的。每次只需要选择其中几种方法进行收集,并且要建立一套评价反馈机制,从而使该项工作高效率地进行。评价的方法主要通过了解用户的满意度,来评价个性化服务的效率。了解用户满意度有两种方法即用户调查法和用户利用率调查法(如果用户利用率提高,则说明个性化服务有一定的效果)。通过评价,以调整研究用户信息行为的方法。

标签:;  ;  ;  ;  

数字图书馆个性化服务中用户信息行为的收集与分析_数字图书馆论文
下载Doc文档

猜你喜欢