互联网点评信息的有序性与序化方法研究,本文主要内容关键词为:有序性论文,互联网论文,点评论文,方法论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2011-11-11
0 引言
基于Web2.0技术的互联网点评信息对用户而言具有重要的价值[1]。然而,点评信息的海量和无序现状,导致了用户的“信息过载”与“信息迷失”。超过用户吸收能力的信息量带来非常低的决策效率,用户需要花费太多的时间和精力来寻找、判别和舍弃资源[2]。为满足用户需求,如何将无序的点评信息进行序化成为信息管理中的热点问题。
许多学者在信息序化领域进行了研究。Resnick[3]早在1994年就提出了GroupLens的开源网络新闻协同过滤系统,通过分析大量读者对各类文章的评级,将志同道合的使用者分成一组。Masuda[4]提出了框架-轴模型的抽象超媒体数据模型,基于映射空间、映射类型和映射函数,在框架和轴两元素之间建立了不同的对应关系模型,并应用模型对大量的事实数据或资料文件进行了序化。马玉荣[5]从全信息理论、信息整序的对象层次、信息整序过程论、网络信息整序的特殊性四个视角探讨信息整序的层次与结构,对信息整序方法作了归纳与总结。马费成[6]采用模拟模型研究维基的演化过程与博客的动态有序性,表明了博客、维基、标签都体现了Web2.0有序性的特征和功能,并研究了信息自组织过程在Web2.0里的体现。朱婷[7]定义了Web2.0环境下信息有序性,研究了分众分类法在Web2.0环境下的序化机制。刘记[8]将Web2.0的有序结构分为静态有序结构和动态有序结构,其中由网站设计开发人员构建的结构为静态结构,由用户添加并根据添加内容不断变换的结构为动态结构。
然而,这些现有关于信息序化的研究多集中于自组织所形成的信息有序性,通过他组织方式使信息变为有序的研究较少,且研究对象以博客、新闻居多,针对互联网点评信息的序化研究十分有限。采用语义挖掘、文本聚类等技术对点评信息进行观点挖掘与信息抽取,能够一定程度上解决点评信息中存在的过载与迷失的问题,而仍然缺乏对点评信息的有序性度量的研究。
本文以解决无序的互联网点评信息给用户带来的“信息过载”和“信息迷失”问题,满足用户对点评信息的需求为目的,研究点评信息的特征与有序性的度量指标,研究基于表层序化和内容序化的点评信息序化方法,并通过实例给出理论研究成果的应用。
1 互联网点评信息的有序性
点评信息是用户生成内容(User Generated Content,UGC)的形式之一[9],由于没有具体格式的约束,它们在语法和语义方面都不规范,这为语义分析和观点挖掘带来了困难[10]。点评信息相对其他文本信息处理难度更大,主要因为其具有以下特点:
a.文本短小。绝大部分点评信息都是长度很短的文本,即为短文本信息。大多数网站的评论信息都有字数限制,这使得评论信息的样本特征比较稀疏,难以抽取有效的语言特征。
b.点评量大。单就某一条新闻或商品的评论而言,可能点评数就会超过100条。若以平均每条50-100字计算,则100条评论就有约有5000-10000字的信息。
c.冗余度高。点评信息的冗余体现在两个方面:一是多个用户对同一对象评价时往往会存在大量相似或相同的观点,二是同一用户在同一条评论中也可能反复多次表达一个意思。
d.质量较低。部分网站为鼓励用户评论,对于发表评论的行为提供一定的奖励,这导致了部分用户为了获得奖励而随意发表无价值的评论信息。此外,部分用户的评论信息可能并非建立在对评论对象客观、真实的理解之上。对其他用户来说阅读这样的信息,无疑是高时间成本、低收益。
e.语法不规范。每个用户的语言习惯有较大差异,相当一部分的点评信息存在比如标点用法混乱、一句话表达多个意思等语法问题;另外,点评信息的用词往往也不规范,用户可能使用方言、网络用语进行点评,这也给点评信息文本预处理带来很大挑战。
1.1 互联网点评信息的有序性 信息有序性指是否能够合理对信息进行组织,使得信息能够展现出一定的关联性与规律性。点评信息的有序性属于Web2.0网站环境下的信息有序性。从用户认知角度出发,点评信息的序体现在其形式与内容是否能够满足用户的信息需求。本文引入复杂系统结构有序度评测指标之一的时效熵与自动文本摘要评测的指标之一的观点覆盖率共同作为系统有序性的度量指标,并从信息传播的时效性与序化后信息的观点覆盖率两个角度描述有序度。其中时效熵偏重于满足用户对点评信息时效性的要求,而观点覆盖率侧重于满足用户对点评信息全面性的要求。
1.2 互联网点评信息的时效熵 熵理论在物理学、信息学等多个学科中被广泛应用,可用于定义系统结构的有序度。对于组织结构来说,系统的时效是信息在系统中各元素间流动过程中迅速程度即时效性的大小,时效熵表示信息在流通过程中时效性的不确定性的大小[11]。针对本文研究的互联网点评信息,我们把用户通过翻页查看信息的过程抽象称为一个树形结构,并将节点分为用户节点、点评信息节点和中转节点三类,用户节点表示用户也就是层级关系的最高点,点评信息节点是树状结构的叶子节点,中转节点用于表示用户通过点击方式以便获得信息的过程,信息在树上由下向上传递。如图1所示,1号节点为用户节点,4号节点为中转节点,2、3、5、6、7号为点评信息节点。
在计算过程中,由于本研究的系统中只包含一个用户位于最顶层,因此信息只能由下向上传递,不包含信息同级别传递的情况,在计算熵和路径过程中只按照由下向上的方向计算。
1.3 互联网点评信息的观点覆盖率 观点覆盖率是自动文本摘要的评价方法之一[12],用来评测摘要是否可以覆盖原文大部分的关键信息,本文引入该方法对点评信息序化的效果进行度量,用于表示点评信息经过序化过程后的信息损失程度。
计算自动文本摘要的观点覆盖率的普遍做法是,用实际结果与“理想结果”进行句子重合匹配,这种方式仅适用于抽取型摘要[13]。“理想结果”一般由专家对原始文献进行研究后通过抽取关键句子形成。本研究中观点覆盖率的概念与作用与自动文本摘要方法的相同,“理想结果”可以让用户通过对序化前的点评信息进行抽取获得,为了避免个人主观因素影响,应选取多个用户做“理想结果”。实际结果为通过序化过程得到的评论信息。
设序化过程“理想结果”中包含的句子数为m,实际结果中包含的句子数为n,理想结果与实际结果之间重合的句子数量为k。
针对点评信息而言,序化过程要考虑点评信息的特点,采用一种或多种序化方法,针对点评信息的表层和内容进行序化,最终得到有序的点评信息,如图2所示。
图2 点评信息的序化过程
2.2 表层序化与内容序化 表层是指事物的外层与表面,点评信息的表层指的是每条点评信息的外在属性,包括分类、位置等。只根据点评信息外在属性对信息进行的序化称为表层序化。表层序化通过解决点评信息排列的问题满足用户对信息获取的时效性要求,包括改变点评信息的顺序、对信息进行分类。每一条点评信息包含很多个属性,每个属性都可以对应一个点评信息的排序方式和分类方式,也可以综合各种属性得到总体的排序方式。表层序化方法更关注信息呈现方式的合理。
对点评信息的内容进行增加、删除、修改等处理的序化称为内容序化。内容相对于表层更加深入,涉及单条点评信息的含义、结构等。点评信息的内容序化重点是解决海量点评信息的冗余问题。选择哪些内容应该出现在序化结果中,而哪些内容应该去除,以及如何在点评信息中提取主题或者关键信息。内容序化相对表层序化复杂很多,需要涉及文本处理、语义分析、语义挖掘等技术。抽取型摘要就是针对单个文档或多文档,抽取其中关键的句子信息,同时要去除多文档中的冗余信息,最终生成的摘要,这个过程就可以看作内容序化的过程。
点评信息的序化需要表层序化与内容序化相互配合,缺一不可。表层序化不能解决评论信息内容冗余的问题,内容序化也不能解决对评论信息形式杂乱的问题,因此仅对评论信息的表层或者仅对内容进行序化,都是不完整的序化。
两种序化不存在绝对的先后关系,在对点评信息进行完成序化的过程中,表层序化与内容序化必然都会使用到,甚至可能使用多次,但是两者之间并不存在绝对的先后关系,可以交错使用。
图3与图4显示即使表层序化与内容序化的顺序不同,也可以达到相同的效果。
图3 先进行表层序化后进行内容序化
图4 先进行内容序化后进行表层序化
2.3 序化方法 由于点评信息的序化可以分为表层序化与内容序化,对应的序化方法分别为表层序化方法与内容序化方法。
表层序化方法包括传统分类法与分众分类法。传统分类法是将组成网站的点评信息按照一定的知识体系进行系统排序,并用表示类别的文字、字母或数字符号作为分类的主题标识。该方法有较强的系统性,层次清晰方便用户浏览。分众分类法是“群众”自发性定义的、平面的、非等级的标签分类,由用户自由选择的关键词,分类方法会随着点评信息的添加自动发生改变。由于以上两种方法已经被互联网网站所广泛使用,本文主要研究点评信息的内容序化方法。
2.3.1 预处理方法。对于中文点评信息来说,点评信息预处理方法包括评论的采集、句子切分和中文分词等方法。
2.3.2 提取子主题。本文研究通过词频计算提取高频词作为子主题的方法。所谓高频词是指在评论集合中出现的次数超过σ(σ是最低出现次数阈值)的词语。将所有的点评信息句子集中起来,计算每个句子中单个词语出现的频率,将频率超过σ的词语放入高频词列表中,然后对于高频词列表中的每个词语(或词语组合)在点评信息句子中找到一个包含这个词(或词语组合)且词语数等于其词语数加1的词语组合,计算每一个这样的词语组合在文中出现的频率,如果出现的次数大于σ,也加入高频词列表中,反复重复这一过程,直到没有词语组合的次数超过σ。
提取出来的候选高频词需要计算相互之间的相似度,相似度过高(高于阈值λ)的两个高频词需要进行合并,合并后的高频词作为新的子主题,代表评论中的关键信息。
2.3.3 句子相似度计算。去除冗余的普遍做法是计算句子的相似度,许多学者做了这方面的研究,主要方法有通过计算句子的向量距离计算句子相似度[14]、基于语法分析计算相似度和基于隐含语义分析计算句子相似度等方法[15],本文研究基于语义距离的相似度计算方法计算句子的相似性。该方法的主要思想是,将句子经过去停用词预处理后,得到一个个词序列。词语的相似度可以根据基于同义词词林的词语相似度计算方法获得。在词语语义分析的基础上,通过汇总得到句子间的语义相似度。
3 实例分析
3.1 背景 以国内最大的餐饮服务信息网站大众点评网为例,根据进入大众点评网的动机不同,用户可以被分为贡献型用户与浏览型用户。贡献型用户是指分享点评的用户,是点评信息的来源,也是网站的核心用户。浏览型用户是指在消费之前浏览他人的点评信息,希望从中获得帮助或建议的用户。网站的绝大部分流量来自于浏览型用户,如何满足这部分用户的需求是网站关注的问题。从用户信息角度,图5为2010年9月29日Alexa网站提供的大众点评网用户统计。
根据图5,点评信息的用户有以下特征:从用户的年龄分布来看,点评信息的用户以25-34岁之间的年轻人最多;从学历分布来看,用户中本科及以上学历占据绝大多数比例,高学历呈现出明显的特点;从浏览地点来看,用户访问大众点评网的地点,以工作地、家中居多。
图5 大众点评网用户统计
因此,本文将点评信息的主要用户概括为年轻高学历的城市上班族。这类用户的最大特点是生活节奏快,高学历的特点使他们对信息的质量要求很高,他们希望信息能够被合理的组织以方便获取,同时要求信息的低冗余,但又尽可能覆盖用户评论的大部分信息。因此点评用户对信息的需求可以概括为信息的获取时效性与全面、低冗余两方面。
本研究选取一家五星级酒店作为实例。该酒店的特色是顶层是旋转自助餐厅,可以俯瞰周围景色。本研究使用Soukey网页采摘工具,采集了2010年6月12日大众点评网(dianping.com)上该酒店页面的默认评论内容、评论用户级别、评论时间和鲜花数。这些点评信息的发表时间分布于2008年1月22日至2010年6月10日之间,默认点评信息共计126条,由于网站只显示最新的100条评论,因此最终的采集结果为100条。为每条评论设置唯一编号后存入数据库表。对评论信息完成文本预处理和数据预处理操作。
3.2 序化过程
3.2.1 句子分类。点评信息通过预处理后得到一系列的空间词向量,对于词序列使用高频词提取方法获取多个点评信息中的高频词。实验中设置在所有句子中出现次数超过20次的词为高频词。获得的高频词及出现次数如表1所示。
获得高频词后对高频词之间的相似度进行判断,防止子主题之间存在冗余,根据基于同义词词林的词语相似度计算技术,表1中高频词两两之间的相似度计算结果如表2所示。
设相似度阈值为0.5,各高频词相互之间的相似度没有出现过高情况,因此可以全部作为子主题出现。将包含高频词的所有句子划分到相应的子主题下,得到五个子主题和五个句类。
3.2.2 句子排序和抽取。每个句子具有鲜花数、评论人级别、评论天数、是否位于段落首尾的属性,实验中理论上可以对句子按照四种方式排序,但是考虑到每种属性的重要程度不同,也为了能综合考虑几种属性共同作用的情况,实验中采用了多属性决策中的本证向量法确定各属性的权值,为每个句子计算一个综合得分,并进行排序。在5%的压缩比例下各子主题可以抽取的句子数如表3所示。
在抽取过程中需要将权重分值大的句子优先选出来,但是还需要尽量保证即将选出的句子与已经选出的句子之间的冗余度是最小的。因此在抽取过程中还需要不断计算即将抽取出句子与已抽取的句子之间的相似度,如果出现过大的情况需要将该句子放弃。通过这种抽取方式获得的文本摘要效果如图6所示。
图6 序化输出结果
3.3 序化前后的有序性比较
3.3.1 计算时效熵。图7是序化前的点评信息结构图,C节点代表用户,大众点评网上每页显示10条点评信息,如果用户要查看下一页的点评信息,需要点击“下一页”按钮,经过一次中转进入第二页,用户最多能够查看10页点评信息。
图8表示经过序化过程得到的点评信息结构图,图中最顶层节点仍为用户,其下面一层为子主题,点击子主题显示其下面一层的评论详细信息。
图8 序化后点评信息结构图
根据公式(1)至公式(7)计算序化前后有序度结果如表4所示。
根据R值可见,经过序化过程后,时效有显著提高。
3.3.2 计算观点覆盖率。由于本文采用的序化方法是从原点评信息抽取评论句子信息,属于原文抽取型的摘要信息,因此适用观点覆盖率对序化结果进行评估。实验中,对大众点评网上武汉某酒店的100条点评信息语料进行人工抽取。为尽量减小用户在抽取人工摘要的主观性,选取三位用户对原文语料进行抽取,每位用户抽取20个句子得到“理想结果”,分别记为result 1、result 2、result 3。实际结果采用第三章中实例的序化后的结果,记为machine_result。实验中设置观点覆盖率的可接受值为0.7,各指标按照公式(9)-(12)计算,得到计算结果如表5所示。
根据表5,序化过程后得到信息的覆盖结果是可以接受的,说明序化过程中丢失的信息保持在可接受范围。
通过上述有序性度量实验,可以得到实例中的点评信息在序化过程后,时效性方面有显著提升,同时通过观点覆盖率的检测,得到序化后的点评信息基本可以覆盖原点评信息的内容,观点覆盖率维持在可接受范围。
4 总结
本文以解决点评信息的繁杂无序为切入点,在信息序化的基本框架指导下,研究点评信息序化方法的相关问题,力图为“信息过载”、“信息迷失”问题的解决奠定理论和方法基础。总结起来,本文主要做了以下三方面的工作:
第一,分析了互联网点评信息的特点。点评量大的特点对于用户来说形成信息过载,而冗余度高、质量低、语法不规范等特点则造成了用户的信息迷失。因此,未经加工的点评信息是很难满足用户需求的。
第二,借鉴已有的成果,研究了点评信息有序性的内涵。通过对信息获取的时效性进行度量来诠释有序性,并将热力学领域熵的理论引入作为判断信息有序性的时效性标准,同时为了保证序化结果能反映原文的关键信息,引入自动文本摘要的观点覆盖率的指标。
第三,提出了信息序化的层次和分类方式,将序化方法按照表层序化与内容序化的方式分类后,分别列举了适用于点评信息的几种方法。这些方法具有广泛的实用性,可以针对不同情况进行调用。
本文的研究也存在一些不足,文中提到的序化方法还有待进一步的研究,未来仍需要根据研究对象的特点提出适用的加工方法。此外,本文虽对点评信息有序性的度量提出一些指标,但仍不完善,对于信息冗余度的度量标准也未能确定,这些问题也是未来研究的重点。