基于用户行为信息的知识组织模型构建研究,本文主要内容关键词为:模型论文,组织论文,知识论文,用户论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着计算机的普及和互联网的不断发展,当今社会已经全面迈入了信息化时代。在信息化时代,人类的各种社会、经济行为逐渐依赖于计算机和网络而进行,云计算等概念的兴起则代表着更多的应用逐渐从众多的单机平台向集中的网络平台转移,这使得大规模用户行为信息的收集和分析成为可能。人们逐渐意识到在海量的用户日志中蕴藏着有价值的信息和知识,如何发现和利用这些信息和知识,成为学者和业界重点关心的领域,不仅相关的研究和创新不断涌现,在互联网领域的实践和应用也日益增多。用户行为信息的分析和利用已经成为情报学科的一个重要研究领域。 1 用户行为信息的类型与应用 1.1 用户行为信息的来源与类型 用户行为信息一般指用户在检索、浏览、标注、下载网络信息资源时所产生的信息。传统的网络用户行为信息的主要来源是系统日志文件,但随着Web2.0框架的广泛应用,用户使用网络过程中被记录下的用户行为信息不断增多。目前可以采集到的用户行为信息数据主要有以下几种类型: (1)访问数据。访问数据记录了当前访问数据的用户信息、IP地址、访问时间、请求类型、访问的网址、访问状态码、传输字节数、访问的前一页面、用户环境信息等。访问日志的标准格式一般为Apache的ECLF或IIS的日志格式。 (2)检索数据。用户在使用信息检索系统时,系统会记录用户的查询信息以及返回的相关文档和点击信息,这些信息可以称为检索数据。检索数据主要包括检索时间、用户IP地址、查询词、该URL在返回结果中的排名、用户点击的顺序号、用户点击的URL等。其中,有些日志还提供用户ID信息,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。 (3)浏览下载数据。用户在使用网站时,系统会将选择浏览或点击下载的信息写入日志,包括用户访问或下载信息的题名、来源数据库、次数、时间等信息。 (4)推荐评分数据。在Web 2.0下,用户对自己感兴趣的信息资源会进行推荐或评价。推荐评分数据记录了用户在浏览过程中对网络资源所做出的标记,包括分类、推荐和评分数据。这些数据对于记录和分析用户的兴趣、网络资源的排名推荐、价值评估等具有一定的意义。 (5)社会化标签数据。近年来社会化标签数据也是知识管理研究的热点。目前,国内外对社会化标签还没有统一的定义,但学者们普遍认为社会化标签是由用户产生的,是对网络内容进行组织和共享的自下而上的组织分类体系[1]。基于用户标签数据,可以自动地对网络资源进行分类,帮助用户快速地检索资源或进行推荐。 1.2 用户行为信息的分析及利用 用户行为信息产生于用户和网络交互的过程中,用户行为分析就是从用户与网络交互的海量信息中发现规则和模式,目前较为热门的研究方向是个性化推荐、排序学习、趋势分析等。 个性化推荐是网站根据用户的兴趣特点和购买行为,向用户推荐其潜在可能感兴趣的信息和商品,比较成功的方法是主动协同过滤[2],其基本思想是推荐系统根据目标用户与其他用户之间的相关性进行推荐,当系统发现一个或一组用户与目标用户的消费偏好相似时,系统就可以根据这些用户的消费行为来预测目标用户的消费行为[3]。 另一类分析用户行为信息的方式是排序学习。现有的排序学习方法可以分为三类:点方式(point-wise)、对方式(pair-wise)和列表方式(list-wise)。在这三种方法中,对方式是目前取得较好应用效果的一种方式,Joachims较早提出了基于用户点击数据的顺序对自主学习排序[4],用于优化搜索引擎排序。 信息趋势也是可以从用户行为信息中获取的知识,例如Google趋势[5]。Google趋势分析的主要指标是搜索量指数,它是一个关于网络搜索量的相对指标,是经过规格化处理的。所谓规格化,是指将几组数据除以某个常规变量,通过消除此变量对数据的影响,得以比较数据集的基础特征[6]。美国研究人员利用Google趋势分析公众检索感冒相关词语的地域和频率,来判断某地区发生流感的可能和趋势。经过多次把测试结果与美国疾病控制和预防中心的报告做比对,证实两者的结论存在相关性。 用户行为信息也可以用于网络资源评价。从行为理论的角度来说,访问和下载行为意味着用户认为资源符合信息需求或具有价值,其中浏览时间和下载次数等数据与用户需求和资源价值具有一定的相关性,例如在文献检索系统中,文献的下载次数可以作为文献阅读价值的一个评价指标[7]。 总的说来,用户行为信息的分析及利用可以分为两个层次。首先是分析层,在离线情况下利用数据挖掘算法对用户行为信息进行综合分析,发现其中的用户行为模式。其次是应用层,当新的用户使用时,系统可以在线分析用户的行为特征,并实时地将用户潜在需求的信息提供给用户[8]。 但以上的这些应用研究往往针对某一特定的样本,应用某种技术进行数据挖掘,数据来源和技术方法不尽相同,虽然可以针对某个网站的日志数据分析得到较好的结果,但如何设计和实现能够应用于各类领域的用户行为信息分析模型,并构建统一的知识库,以实现知识的重用和不断积累,是目前用户行为分析中的难点。 2 用户行为信息知识组织模型 2.1 用户行为知识组织概念模型 首先,我们定义一个概念:用户网络行为信息域(Information Domain),其包含用户在使用网络过程中所涉及的各类信息,具体包含以下五类信息集:用户在一段时间内登录网站完成特定检索浏览任务的会话(Session)信息;用户检索和浏览的目标个体——文档(Document)信息;用户注册的账户(Account)信息;用户在检索、浏览资源项目时所使用检索词(Query)以及用户在查询和使用这些资源项目时对其有用性的评价和排序(Rank)。 每类信息集中的信息可以是一维或多维数值,如Session信息中不仅有session编号,还有IP地址、开始时间、结束时间等。Document信息除了名称外,还可能包括分类号、标引、关键词等。Rank评分数据也可以是多维的,表现用户对相关性、有用性的多方面评价。此外,由于网站功能和应用的差异,有些数据可为空的(N/A)。例如一个分类浏览的网站,可能就没有检索词的信息,搜索引擎日志则大多没有用户评分的信息。用户行为信息域的概念化形式可以表示为I<S,A,D,Q,R>,用户行为知识则可以通过分析挖掘这五类信息项中两项或多项之间的关联关系得到。表1列出了部分信息项与用户行为知识的对应关系。标签:检索词论文; 用户行为论文; 大数据论文; 推荐系统论文; 用户研究论文; 关联分析论文; 关系模型论文; 网络模型论文; 系统日志论文; 用户分析论文; 网络行为论文; 数据检索论文; 数据挖掘论文; 数据分析论文; 互联网用户论文;