基于对用户访问数据挖掘的数字图书馆智能服务模型,本文主要内容关键词为:数字图书馆论文,模型论文,数据挖掘论文,智能论文,用户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 用户访问数据
作为研究基于对用户访问数据挖掘的数字图书馆服务模型的基础,我们首先分析一下可用的用户访问数据。对于建立在Internet基础上的数字图书馆,用户通过浏览器访问数字图书馆时,我们可以记载下来的用户访问数据有以下两类:
1.1 用户信息
用户信息包含用户名,用户访问IP地址,用户的职业、年龄、爱好等。
在这里用户名由用户在进入图书馆时输入,如用户未输入用户名则记为:guest公共用户。用户的职业、年龄、爱好等信息由用户在注册进入图书馆时填写。用户访问IP地址可由程序获得。
用户信息集包含以下元素:
User-ID:用户标识,对所有用户的唯一的全局标识符号,单值。特例为未注册用户,采用Guest为其值。
User-PR:用户职业,单值。
User-AG:用户年龄,单值。User-LI:用户爱好,多值。
1.2 访问信息
用户访问记录(包含对分类浏览栏目的点击记录,搜索的关键词及模式的记录)。用户访问记录可由程序获得。访问信息集合包含以下元素:
User-ID:用户标识,同用户信息集的User-Id元素
User-IP:用户访问IP地址
Visit-ID:该访问用户的一次访问标识。用于区别同一用户使用多个浏览器窗口所进行的访问。
Visit-TY:用户的访问类型,基本可以列为登陆(注销)、浏览和检索这三类。
Visit-AC:用户访问行为。用户访问行为的记录,根据用户访问类型的不同,依据表1的规则来规范:
表1
Visit-TYVisit-AC
登陆(注销)0=登陆,1=注销
浏览栏目栏目名称
检索检索词
资源对象0=未实现访问,1=实现访问
2 用户访问数据分析
我们通过对用户信息集和访问信息集的定义,构造了可以通过Web浏览器所能采集到的和可由用户提交的基本访问信息的描述。而通过对这些描述所定义的数据的聚集和分析可以为我们提供下面的数据集合即:用户实现了最终访问目的的记录集(RU)和用户未实现最终访问目的的记录集(FU)。
2.1 数据集RU分析
聚集当用户通过浏览或检索的方法,最终点击了数据对象[1]并实现了其访问目的[2]的事件。该记录集的内容包含:按资源标识、用户的职业、年龄、与该资源相关的爱好和用户所在地区(通过分析IP地址获得[3])分类记录其访问次数。
2.2 数据集FU分析
聚集当用户通过浏览或检索的方法,始终未能对数据对象进行任何操作的事件。该记录集的内容包含:按访问类型、访问行为、用户的职业、年龄和用户所在地区(通过分析IP地址获得)分类记录用户未完成操作的原因和访问次数。原因在下面列表(表2)中取值:
表2
原因编号 原因名称
1 用户未进行下一步操作
2 用户由于权限限制未能完成操作
3 资源本身处于不可使用的状态
3 智能服务分析
在上面的数据集合中,我们可以得出一些对图书馆的服务有帮助的信息,为读者提供的智能服务:
(1)在RU记录集中,对访问量高的资源,考察用户来自何处,在用户比较集中的地区,对该资源进行镜像,使用户能够更快地得到资源。
(2)STU集合:是在RU记录集中,对同类资源中,有较高访问次数的资源进行聚集,所产生的一个新的集合,该集合的产生是为对该类资源感性趣的读者提供主动推送服务。
(3)当图书馆有新的资源时,扫描用户访问信息,为每一对这类资源感性趣的读者提供更新列表。
(4)在FU记录集中,对通过浏览方式,未实现最终访问目的,未实现原因为原因1的栏目进行聚集,对高访问次数的最小栏目分类予以关注;同时对通过检索方式,未实现最终访问目的,未实现原因为原因1的检索词进行聚集,对高访问次数的检索词予以关注。分析两者的曲线,指导图书馆的资源采集工作。
(5)在FU记录集中,对未实现最终访问目的,未实现原因为原因3的资源进行聚集,考察资源本身处于不可使用的状态的原因,观察。一般来说,原因3的产生,基本上是由于非数字化的资源处于已全部借出状态而出现的。这时,对高于一定失败访问次数的资源,图书馆应该考虑扩大馆藏的问题。同时,为该资源建立一个未实现最终访问用户记录,以便当资源回到可用状态时,系统能够自动通知这些用户,该资源已经可以使用了。
(6)高频访问区域记录集(HAFU):在FU记录集中,对相关资源的用户访问IP进行按一定区域聚集,得到该资源或资源类型的高频访问区域记录集(HAFU)。对由4所得出的资源采集所建议的采集资源,当资源被获得时,按照HAFU记录集中的记录,自动在相关区域为新采集的资源建立镜像。
4 智能服务模型
通过前面的分析,我们可以得到一个基本的数字图书馆智能服务模型,如下图:
它具有两个基本流程。其一,用户服务流程;其二,图书馆服务管理流程。
4.1 用户服务流程
用户服务流程分为两部分,第一部分为实时服务,第二部分非实时服务。
在实时服务的同时,记录用户的访问信息。对于实时服务来说,当用户登录到图书馆时,系统首先检查用户上次访问时是否有未实现最终访问目的的记录,如果存在未实现最终访问目的的记录,则根据未实现的原因为用户提供一个快捷窗口反映相关的信息。在该窗口中进行如下处理:
(1)处理未实现最终访问目的的原因为原因3的记录,检查这些资源目前的状态,如果资源可用则显示该资源的标题并提供链接;如果资源仍不可用,则仅显示资源标题,同时检查STU集合中是否有相关资源,如果存在则继续检查它们的状态,将其中可用的资源标题显示出来并提供链接。
(2)处理未实现最终访问目的的原因为原因1的记录,提供上次访问至今的相关栏目的更新资源标题显示,同时对可用的资源之标题提供链接。
同时检查用户上次访问时已实现最终访问目的的记录,对照STU集合,为用户提供上次访问的同类资源提示,以供用户参考。
其次,当用户点击存储对象时,对照STU集合,为用户提供同类资源提示[4],以供用户参考。
非实时服务部分,可采用两种方式:
(1)Web广播方式:采用流式广播方式,按频道分类播放更新消息,包含更新内容的摘要信息。
(2)E-mail方式:第一、根据用户所填写的爱好、职业等信息,通过E-mail为用户提供更新消息,用户可以在邮件内直接访问感性趣的内容(此时用户的注册过程自动完成)。第二、根据用户的访问记录,为用户提供特定的内容服务。
4.2 图书馆服务管理流程
(1)镜象资源智能调度:分析RU记录集中高访问量资源的用户访问IP地址分布情况,得出用户访问比较高的区域,如果在该区域存在联盟图书馆或镜像站点,则自动这类资源在该区域建立镜像资源。如果在该区域不存在联盟图书馆或镜像站点,则在相对该区域网络带宽比较宽松的联盟图书馆或镜像站点为该资源建立镜像资源,同时建立无联盟图书馆或镜像站点区域访问情况记录,为日后在该区域增设镜像站点或联盟图书馆时准备必要的材料。分析HAFU记录集中的数据,同时考察FU记录集中未实现最终访问目的的原因为原因1的高频检索词,当新建资源处在HAFU和FU的交集(HAFU∩FU)中时,在相应的区域为新建资源建立镜像资源和无联盟图书馆或镜像站点区域访问情况记录。
(2)新建镜像站点或加入新的联盟图书馆时,首先确定他们所处的IP区域,根据无联盟图书馆或镜像站点区域访问情况记录中相应该区域的数据,为他们建立镜像资源。
(3)非数字化资源馆藏量的合理扩大以及馆间交流的智能处理:分析HAFU记录集中的数据,同时考察FU记录集中未实现最终访问目的的原因为原因3的子集FU[,3],FU[,3]与HAFU的交集(HAFU∩ FU[,3])。HAFU∩ FU[,3]的值确定了用户所在的区域,根据它的值,首先检查该区域的联盟图书馆或分馆内该资源的状态,如处于可用状态,则推荐用户去该区域的联盟图书馆或分馆办理借阅(或者以馆间交流的方式代理用户办理借阅)。如果处于不可用状态,则查找其他联盟图书馆内该资源的状态,如果有该资源处于可用状态[5]的图书馆,则以馆间交流的方式代理用户办理借阅;如果无该资源处于可用状态[6]的图书馆,考察的 FU3中的访问次数,当访问次数的值大于某个阀值时,建议相关区域的联盟图书馆或分馆扩大馆藏,同时自己按一定比例扩大馆藏量。
5 结论
由上面的数字图书馆智能服务模型,我们可以看到:对数字图书馆用户访问数据和用户资料进行数据挖掘,不仅可以为用户提供优良的服务,同时对于图书馆的流通管理也具有非常重要的意义。该模型的建立,需要数字图书馆的信息发布平台具备能够跟踪用户访问和识别用户访问IP地址的能力。另外在考虑该模型时,所采用的用户信息还是比较少的,如果采用更多的用户信息,那么还可以构造更加丰富的服务内容。