基于用户行为信息的知识组织模型构建研究,本文主要内容关键词为:模型论文,组织论文,知识论文,用户论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着计算机的普及和互联网的不断发展,当今社会已经全面迈入了信息化时代。在信息化时代,人类的各种社会、经济行为逐渐依赖于计算机和网络而进行,云计算等概念的兴起则代表着更多的应用逐渐从众多的单机平台向集中的网络平台转移,这使得大规模用户行为信息的收集和分析成为可能。人们逐渐意识到在海量的用户日志中蕴藏着有价值的信息和知识,如何发现和利用这些信息和知识,成为学者和业界重点关心的领域,不仅相关的研究和创新不断涌现,在互联网领域的实践和应用也日益增多。用户行为信息的分析和利用已经成为情报学科的一个重要研究领域。 1 用户行为信息的类型与应用 1.1 用户行为信息的来源与类型 用户行为信息一般指用户在检索、浏览、标注、下载网络信息资源时所产生的信息。传统的网络用户行为信息的主要来源是系统日志文件,但随着Web2.0框架的广泛应用,用户使用网络过程中被记录下的用户行为信息不断增多。目前可以采集到的用户行为信息数据主要有以下几种类型: (1)访问数据。访问数据记录了当前访问数据的用户信息、IP地址、访问时间、请求类型、访问的网址、访问状态码、传输字节数、访问的前一页面、用户环境信息等。访问日志的标准格式一般为Apache的ECLF或IIS的日志格式。 (2)检索数据。用户在使用信息检索系统时,系统会记录用户的查询信息以及返回的相关文档和点击信息,这些信息可以称为检索数据。检索数据主要包括检索时间、用户IP地址、查询词、该URL在返回结果中的排名、用户点击的顺序号、用户点击的URL等。其中,有些日志还提供用户ID信息,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。 (3)浏览下载数据。用户在使用网站时,系统会将选择浏览或点击下载的信息写入日志,包括用户访问或下载信息的题名、来源数据库、次数、时间等信息。 (4)推荐评分数据。在Web 2.0下,用户对自己感兴趣的信息资源会进行推荐或评价。推荐评分数据记录了用户在浏览过程中对网络资源所做出的标记,包括分类、推荐和评分数据。这些数据对于记录和分析用户的兴趣、网络资源的排名推荐、价值评估等具有一定的意义。 (5)社会化标签数据。近年来社会化标签数据也是知识管理研究的热点。目前,国内外对社会化标签还没有统一的定义,但学者们普遍认为社会化标签是由用户产生的,是对网络内容进行组织和共享的自下而上的组织分类体系[1]。基于用户标签数据,可以自动地对网络资源进行分类,帮助用户快速地检索资源或进行推荐。 1.2 用户行为信息的分析及利用 用户行为信息产生于用户和网络交互的过程中,用户行为分析就是从用户与网络交互的海量信息中发现规则和模式,目前较为热门的研究方向是个性化推荐、排序学习、趋势分析等。 个性化推荐是网站根据用户的兴趣特点和购买行为,向用户推荐其潜在可能感兴趣的信息和商品,比较成功的方法是主动协同过滤[2],其基本思想是推荐系统根据目标用户与其他用户之间的相关性进行推荐,当系统发现一个或一组用户与目标用户的消费偏好相似时,系统就可以根据这些用户的消费行为来预测目标用户的消费行为[3]。 另一类分析用户行为信息的方式是排序学习。现有的排序学习方法可以分为三类:点方式(point-wise)、对方式(pair-wise)和列表方式(list-wise)。在这三种方法中,对方式是目前取得较好应用效果的一种方式,Joachims较早提出了基于用户点击数据的顺序对自主学习排序[4],用于优化搜索引擎排序。 信息趋势也是可以从用户行为信息中获取的知识,例如Google趋势[5]。Google趋势分析的主要指标是搜索量指数,它是一个关于网络搜索量的相对指标,是经过规格化处理的。所谓规格化,是指将几组数据除以某个常规变量,通过消除此变量对数据的影响,得以比较数据集的基础特征[6]。美国研究人员利用Google趋势分析公众检索感冒相关词语的地域和频率,来判断某地区发生流感的可能和趋势。经过多次把测试结果与美国疾病控制和预防中心的报告做比对,证实两者的结论存在相关性。 用户行为信息也可以用于网络资源评价。从行为理论的角度来说,访问和下载行为意味着用户认为资源符合信息需求或具有价值,其中浏览时间和下载次数等数据与用户需求和资源价值具有一定的相关性,例如在文献检索系统中,文献的下载次数可以作为文献阅读价值的一个评价指标[7]。 总的说来,用户行为信息的分析及利用可以分为两个层次。首先是分析层,在离线情况下利用数据挖掘算法对用户行为信息进行综合分析,发现其中的用户行为模式。其次是应用层,当新的用户使用时,系统可以在线分析用户的行为特征,并实时地将用户潜在需求的信息提供给用户[8]。 但以上的这些应用研究往往针对某一特定的样本,应用某种技术进行数据挖掘,数据来源和技术方法不尽相同,虽然可以针对某个网站的日志数据分析得到较好的结果,但如何设计和实现能够应用于各类领域的用户行为信息分析模型,并构建统一的知识库,以实现知识的重用和不断积累,是目前用户行为分析中的难点。 2 用户行为信息知识组织模型 2.1 用户行为知识组织概念模型 首先,我们定义一个概念:用户网络行为信息域(Information Domain),其包含用户在使用网络过程中所涉及的各类信息,具体包含以下五类信息集:用户在一段时间内登录网站完成特定检索浏览任务的会话(Session)信息;用户检索和浏览的目标个体——文档(Document)信息;用户注册的账户(Account)信息;用户在检索、浏览资源项目时所使用检索词(Query)以及用户在查询和使用这些资源项目时对其有用性的评价和排序(Rank)。 每类信息集中的信息可以是一维或多维数值,如Session信息中不仅有session编号,还有IP地址、开始时间、结束时间等。Document信息除了名称外,还可能包括分类号、标引、关键词等。Rank评分数据也可以是多维的,表现用户对相关性、有用性的多方面评价。此外,由于网站功能和应用的差异,有些数据可为空的(N/A)。例如一个分类浏览的网站,可能就没有检索词的信息,搜索引擎日志则大多没有用户评分的信息。用户行为信息域的概念化形式可以表示为I<S,A,D,Q,R>,用户行为知识则可以通过分析挖掘这五类信息项中两项或多项之间的关联关系得到。表1列出了部分信息项与用户行为知识的对应关系。 以用户协同过滤知识挖掘为例,可以首先从用户行为标准信息库中取出会话及其对应的文档和检索词信息项I<D,S,Q>,通过对其进行关联规则挖掘,可以获取具有相关性的文献之间的关联知识K<D,D>,这个知识就可以通过一定的知识组织方式存入知识库,以用于知识服务,以上的过程用公式表示可以为: I<D,A,S,Q,R>->I<D,S>->K<D,D> 2.2 用户行为信息知识组织方法 知识组织是关于数据结构的组织、知识的整序和编排的过程,使之便于揭示知识单元,方便知识发现,能为用户提供有效的知识服务。目前,知识的组织方式主要有知识关联组织法、知识聚类组织法、知识语义组织法等[9]。本节主要分析这些组织方法在用户行为知识组织中的应用。 (1)关联组织方法。知识关联就是建立知识之间存在的联系(链接),着重强调揭示知识间的关系性质或类别,知识关联组织是将知识及相互关系有效地存储于数据库中。以知识关联为基础的知识组织可以在相关领域中提取大量知识因子,并对其进行分析与综合,形成新的知识关联,从而产生出更高层次上的综合的知识产品。由于改变了知识因子间的原有联系,所以其结果可以提供新知识,也可以提供关于原知识的评价性或解释性知识。 使用知识关联的组织方法能够发现资源文献或作者之间的潜在联系信息,例如在学术文献系统中,用户在同一个会话中访问的文献及其作者可能存在相关性,与文献显著关联的检索词可以作为文献的扩展关键词等。 (2)聚类组织方法。聚类组织法就是根据一定的规则将文献、信息或知识按类聚集起来,形成分类有序的数据组织。这种知识组织方法主要利用标题词法、关键词法、叙词法等方法,在此基础上编制目录、索引、文摘以及采用自动检索、标引、引用网络等技术对资源文献进行加工、关联和组织,这种组织方法在图书情报领域得到了较为广泛的应用。 大量的用户网络行为是面向文献资源的检索、浏览和标注,这些信息被记录在系统日志或用户数据库中。对这些信息的分析挖掘主要可以获取两方面的知识:其一,文献资源的实际使用数据,通过这些数据我们可以了解文献资源的利用情况,进而从用户利用的角度建立索引;其二,可以获取知识单元数据或知识文摘。以在线知识问答系统为例,针对某个主题或问题,许多用户都可以提供知识单元方案,系统可以通过分析用户显性的评价或者隐性的点击投票,自动识别该主题的最佳知识单元方案,进而可以将该知识单元提炼出来,加入到知识库中,让更多的用户可以直接利用。 (3)语义组织方法。语义组织就是将信息及信息间的语义关系存储起来,构成具有语义关系的数据库,在检索和分析时,通过建立的语义关系,进行语义推理实现知识服务。这类知识组织方式的应用是本体知识系统,与现有的其他各种知识系统比较,最突出的特征就是具有联想、判断、比较、推理、分析和学习等新兴的知识处理与组织功能。 实现基于本体的用户行为分析的基础是本体术语,本体术语的构建方法有两种,一种是直接使用现有的本体知识,例如符合元数据(Dublin Core)规范的网络资源或者数字图书馆都具有较好的领域本体构建基础。另一种方法是对用户日志中进行数据挖掘,找出具有代表性的检索关键字或者用户标签作为待选的本体术语,这样可以自动扩展本体知识库[10]。 对用户行为知识实现本体组织的关键是建立行为信息和领域本体之间的映射关系。例如,在万方文献检索平台中,某个用户的访问路径为url1、ur12、…、urln,通过领域本体,可以将其用户的访问路径映射为(文献1、文献2、…、文献n),如果发现这些文献都属于同一个类别(例如情报学),我们可以推论出用户对情报学的研究有兴趣。另一方面,用户行为信息也可以优化领域本体。例如,通过数据挖掘发现文献1和文献2在大量的用户会话中都存在共现关系,则可以认为这两个文献属于同一类别或具有强相关关系,如果现有的领域本体这两个文献不属于一类,则可以优化领域本体。 2.3 用户行为信息知识组织框架 面向知识服务的知识组织框架应从系统视角出发,以解决用户实际问题为目标,在用户需求驱动下,制定知识组织目标和原则,明确知识组织要素及其体系结构[11]。由于所基于的用户行为理论、应用和数据挖掘算法不同,用户行为分析的模式也是多样化的。我们可以根据知识服务的需要,结合领域内用户行为信息的构成和特点,选择合适的用户行为理论和算法定义一个模式。模式定义好后,首先从日志数据库中抽取出本次模式需要的基础信息表,应用数据挖掘算法,得到模式分析结果,并存储在知识库中以备使用。由于用户行为信息的数据量级要大于在线交易、文献索引等类型的信息,在实际应用中,需要考虑应用云计算技术解决大数据的处理和存储[12]。基于用户行为信息的知识组织系统结构图如图1所示。 3 基于用户行为信息知识组织模型的实例验证 基于上文的知识组织模型,笔者选择了万方学术搜索引擎2012年1月至9月的用户访问日志数据。首先对数据进行预处理,将多格式的、非结构化的、含冗余数据的日志整理到日志标准数据库中,经过整理的有效数据共217530条,会话48445个。 其次根据本体库扫描日志数据的信息项,本体库有文献信息库、学者信息库、机构信息库以及学术主题叙词表等。这一步骤主要实现三个目标:其一,完成检索词的分类,例如,“吴广印”“贺德方”等是信息情报领域的专家学者,“水污染”、“褐煤”、“数字图书馆”等是学术主题,“北京大学”、“清华大学”、“科技部”则是相关的科研院所;其二,构建检索词同义或隶属关系,例如“计算机”和“电脑”是同义关系,RAPD是随机扩增性DNA标记,是DNA标记的一种是隶属关系;其三,有些检索词因为涵义太过广泛,因此没有实际价值,例如“科技”、“技术”等,这些检索词可以去除。 经过叙词处理后,对用户行为信息进行数据挖掘。本文以学者检索词关联规则挖掘为例,为了降低网络的复杂度,首先根据学者检索词的出现频率,选取了来源于高校、研究所的20名学者。其次从会话信息集和检索信息集中析取出与这些学者相关的检索词共现关系数据库,每个会话中检索词共现关系只计数一次。最后使用R语言进行关联规则挖掘和绘图,获取了被检索学者共现关联关系图(图2)和学者一学术主题关联关系表(表2)。相关的数据挖掘结果可以存储在知识库中,在后续的知识服务中,如果有新的用户检索这些学者或者学术主题,系统可以主动推荐相关的学者。 4 结语 本文拓展了用户行为信息的类型,将用户保存下载记录、推荐评分记录和社会化标签数据等纳入用户行为信息,并提出了一个较为通用的用户行为信息知识组织和知识服务模型。在实际应用中,用户行为信息的来源和格式多种多样,通过知识组织模型,首先将用户行为信息转化为标准的用户行为数据库,然后根据不同的数据挖掘需求,抽取一定的信息组合挖掘用户行为模式。模式挖掘的结果既可以融合到现有本体知识组织系统中,用于实时知识服务,也可以进一步进行模式分析,通过可视化等手段展现知识发展趋势和知识关联。标签:检索词论文; 用户行为论文; 大数据论文; 推荐系统论文; 用户研究论文; 关联分析论文; 关系模型论文; 网络模型论文; 系统日志论文; 用户分析论文; 网络行为论文; 数据检索论文; 数据挖掘论文; 数据分析论文; 互联网用户论文;