网络问答社区信息质量评价研究综述_互动问答平台论文

在线问答社区信息质量评价研究综述,本文主要内容关键词为:在线论文,问答论文,评价论文,质量论文,社区论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       分类号:G203

       1 引言

       随着信息技术与互联网的迅猛发展,人们越来越多地依赖网络去解决生活、工作中遇到的问题,获取自己需要的信息和知识,在线问答社区则是网民最常用的信息获取来源之一。与专家在线咨询平台不同,在线问答社区是指由用户进行提问和回答的知识分享网站,其基本模式是用户自己提出问题,通过一定激励机制发动其他具有不同领域知识的用户来解决问题,提供个性化的答案[1],是一种用户产生内容模式(User Generated Content)。在问答社区中,用户既是使用者也是信息的创造者,可以说问答社区是由用户共同构建的庞大的知识库。

       在线问答社区给人们获取信息提供了新的平台,促进了人们的知识交流、分享和积累,使得一些原本搜索引擎检索不到的、储存在人脑中的知识得以展现。如今,问答社区中的信息已经成为人们日常生活和工作中的重要参考,因此社区内的信息质量十分重要:高质量的提问和回答能够帮助用户解决问题,同时还能为搜索引擎提供高质量的信息资源,为其他有相似问题的用户提供参考。本文对国内外在线问答社区信息质量评价相关研究进行了文献调研,回顾了问答社区的发展及其信息质量问题,对影响评价因素研究、人工评价、自动化评价三个方面进行了总结和梳理。指出目前研究中存在的问题和不足,并对未来可能的研究方向进行展望,以期对相关研究者产生一定启发。

       2 在线问答社区发展及信息质量评价相关研究

       2.1 在线问答社区发展概况

       问答服务最早产生于美国。2001年8月以前,Google曾尝试建立一种回答问题的服务,称为Google Questions and Answers。这种服务由Google的员工通过电子邮件答复问题,每个问题收费3美元,但只用了一天就因为用户的需求超过资源的承受能力而取消。2002年4月,Google重新启动了名为Google Answers的新服务[2]。Google Answers采取用户提出问题、专家进行解答的交互式问答服务模式,并且用户需为此支付2.5美元到200美元不等的费用,这些专家都是Google经过严格认证和选拔的。随着互联网普及化,许多网站开始提供类似的免费服务,Google于2006年12月停止该项目[3],但现在仍然可以访问Google Answers的数据库搜索查看以前的问答信息。随后,国内外出现了Yahoo! Answers、百度知道、新浪爱问知识人、搜搜问问等问答社区,这些网站受到欢迎并迅速发展,用户数与问答数一直在持续增长。截至2012年7月,Yahoo! Answers称已有超过3亿的提问,平均每秒钟产生两个问题,6个回答[4]。作为最大的中文互动问答社区,百度知道自2005年成立至2013年的8年间,回答问题数量10亿,已解决问题数量2.35亿个;每日帮助3亿人,相当于全中国人口的1/4;累计贡献过答案用户5000万;每秒百度知道解决问题14个,产生提问16.5个,产生回答41个,访问用户1000个[5]。

       这些社区最佳答案由提问者选择或者用户投票产生,大多有一定针对普通用户的激励机制,比如积分奖励等。此类问答社区被认为是第一代问答社区,只借助了群体智慧,并未真正形成用户之间的关系网络,社交性还不够强[6]。而近两年,随着社交网站的发展,以社区、用户关系、内容运营为基础的社交问答平台在逐渐兴起,此类网站强调人际交流,以良好的社区氛围吸引相关领域的专业人士参与问答,因而能产生较高质量的内容,代表网站有Quora、知乎等[7]。除了此类综合性的问答社区,针对某一领域的垂直问答社区也在不断涌现[8]。国内外代表性在线问答社区如表1所示。

      

       2.2 在线问答社区的信息质量

       问答社区中的信息已经成为人们日常生活解决问题的重要参考来源,因此问答社区中的信息质量对用户和网站本身来说都具有重大意义。与图书馆参考咨询和专家咨询服务不同,问答社区的信息是由用户产生的,较为自由和随意,无法保证信息权威性和可靠性,不可避免地会出现质量问题。随着用户和信息的增加,质量问题也越来越突出[9],可以总结为以下几类:

       (1)失真信息。问答社区中回答者的回答一般来源于个人经验或者其他媒体信息,回答者在阐述或者引用的过程中,难免产生记忆或理解偏差,产生断章取义的结果,导致信息失真。

       (2)虚假信息。如今问答社区中存在不少基于个人利益或商业利益故意投放的虚假信息,尤其是如今普遍存在的软性广告植入,造成问答社区信息质量下降,甚至会给咨询用户带来恶性的后果。此外,有些投票产生最佳答案的网站还存在恶意投票现象[10]。

       (3)过时老化信息。有很多原本有价值的信息可能随着时间的推移已经过时、被取代甚至已经不再有效,而这些信息在问答社区中仍然能被搜索到[11]。

       (4)冗余信息。越来越多的人参与问答使得问答社区信息资源更加丰富,加大了用户找到自己想要的信息的可能性,但与此同时,信息的不断增多,也造成了信息过载的现象,大量相似问题和答案让用户需要花费许多时间和精力查找和选择,反而增加了用户的负担。有研究者研究了回答数量与其质量的关系,发现7个回答就可以产生一个质量较高的答案[12,13]。

       以上信息质量问题造成提问者难以收到自己满意的答案或无法选出最优答案,而真正有价值的答案也可能被埋没。虽然目前问答社区采取了一些质量控制的措施,如专家参与制和举报制度,但效果并不是很理想[14]。目前的问答社区普遍缺乏有效的信息质量评价机制。对于用户来说,掌握信息质量判别及评价的方法,才能更好地利用问答社区的信息,同时也可以给其他用户提供有价值的参考;对于问答社区的建设者和管理者来说,亟须有效的信息质量评价机制,净化社区环境,保持社区内容的高质量,满足用户的需求,因此问答社区信息质量评价引起了研究人员的重视。

       2.3 在线问答社区信息质量评价的相关研究

       笔者通过国内外文献调研,发现近年来有关研究主要围绕问答社区信息质量评价的影响因素和对问答社区信息质量评价实证研究两个方面展开。首先,由于问答社区的问题最佳答案主要由提问者选择或者用户投票产生,用户才是问答社区信息质量的主要评价者,因此许多研究者试图分析他们在选择最佳答案时的影响因素,以了解用户真正的需求,为问答社区的建设提供参考。其次,为了了解问答社区的信息质量状况以及解决上述信息质量问题,研究者对问答社区信息质量评价做了大量实证工作,其中,按评价方法可以分为基于指标体系的人工评价和基于机器学习的自动化评价两种。笔者将从三个方面进行梳理和综述。

       3 在线问答社区信息质量评价的影响因素研究

       信息质量的评价要基于一定标准,对于信息质量的评价标准国内外已经有一些进行中的研究及成果[15-18]。虽然有一定相似性,但问答社区的信息有其特点:主要是为了满足用户的需求,那么用户在选择最佳答案时的影响因素就可以为问答社区信息质量评价的标准提供一定的参考。因此研究者对提问者和评估者进行了研究,试图找出他们评价信息质量时的标准。此类研究代表性工作有:Kim等[19,20]从用户角度出发,对Yahoo! Answers里用户在选择最佳答案时在答案下留的评论进行了内容分析,总结出用户在选择最佳答案时的标准,发现社会性情感、内容和效用相关的评价标准还是最主要的,不同话题分类的评价模式也有差异。Zhu等[21]结合专家咨询、用户调查和比较分析三种方法总结出一个质量评估模型,包括相关性、信息量、完整性等13个维度。Ishikawa等[22]研究了Yahoo! Chiebukuro Data中的日文数据,为了研究评估者在对答案进行评估时真正采用的标准,没有预先给予评估者指标体系,而是让评估者将答案标记为简单的三种(满意答案、部分相关、完全无关),同时留下相应的解释文档,对这些文档进行分析后,总结得出12个标准。蒋楠等[23]根据前人的研究构建了一个基于用户需求相关性理论的评价模型,并将“百度知道”里的评论信息按模型归类,统计结果显示出内容、效用和社会情感因素是多数提问者判定答案的标准,不同主题类目下的满意答案的判定标准也不同。以上研究中具体的模型指标如表2所示。

      

       可以看出,目前问答社区信息质量评价影响因素的研究并不是很多,国内研究尤其缺乏,而这些研究也存在一些问题:

       (1)研究采用的方法主要是内容分析,分析的对象是用户或评估者的评论,而这种方法的前提假设是用户或评估者的评论是他们选择最佳答案或高质量答案的原因。这个假设存在一定局限性,由于社区存在“沉默的大多数现象”,可能遗漏一些评论中没有体现的因素。

       (2)不同类型的问题、不同的表述也可能对答案产生影响,但目前的研究都没有针对这些具体的细节分别做深度讨论。

       (3)模型用于问答社区信息质量评价也存在一定的局限性,比如用户在选择最佳答案时主观性较强,带有情感因素,难以客观地表征信息质量,而评估者也同样存在一定主观性。

       (4)模型中的指标体系存在宽泛、模糊不清难以界定的问题,在使用时容易出现理解偏差。

       4 基于指标体系的人工评价相关研究

       基于已有的指标和模型,国内外研究者对问答社区的信息质量进行了人工评估。Oh等[24-27]邀请了三种不同角色的人:图书馆员、护士、Yahoo! Answers的用户对从Yahoo! Answers的健康类别下随机抽取的400个问题及其答案进行了质量评估,选取10个评估标准:准确性、完整性、相关性、客观性、可读性、来源可靠性、礼貌、自信、同情心、回答者的努力。研究发现图书馆员、护士和Yahoo! Answers用户对答案质量的评估存在差异。Shah等[28]在MTurk上雇佣了5个工作人员,按照Zhu等[21]的13维度质量评估模型对Aahoo! Answers里的120条问题及600个答案进行评估,发现人工标注的最佳答案通常不是提问者采纳的最佳答案,但不同的人工标注者对相同的数据集的评分有很高的相关性。Fichman[29]从准确性、完整性、可证实性三个方面采用人工打分的方式比较评估了4个问答网站Askville、WikiAnswers、Wikipedia Reference Desk和Yahoo! Answers的回答质量,发现并不是越流行的问答网站答案质量越高。贾佳等[30]设计了6个领域共10个问题在“知乎”、“百度知道”中采集答案,采用网络问卷调查的方式邀请网友对这些答案的质量按照Zhu等[21]的模型进行了打分,得到答案质量的评估结果并对这两个问答社区进行对比。

       除了以上评价工作之外,一些对于问答社区的比较研究中也涉及了信息质量的评价。例如Shachaf等[31,32]比较了问答社区与图书馆参考咨询的信息质量,发现一些问答社区的信息质量甚至优于图书馆参考咨询。Chua等[33,34]比较评价了6个中英文社区(Yahoo! Answer、WikiAnswers、Answerbag、百度知道、腾讯搜搜问问、新浪爱问)的信息质量,又从上述6个中英文问答社区中提取数据,研究了5种问题类型(陈述型、列举型、定义型、互动型、目标型)以及答案质量和回答速度的相互作用。张兴刚等[35]比较了百度知道、新浪爱问、雅虎知识堂、天涯问答、搜搜问问5个中文问答社区的回答质量。邓胜利[36]比较了国内外6大问答社区的信息质量控制。吴丹等[37,38]通过设计实验,比较研究9个中英文问答社区的答案质量和答案有效率,随后又比较了网络问答社区与联合参考咨询对经济学、文学和图书馆学3个领域的事实性问题、列举性问题、定义性问题、探索性问题等4类问题的回答质量与效率。

       基于指标体系的人工评价的研究重点不同,有的侧重于通过评价结果比较不同人群在评价时的差异,例如文献[21,24-28];有的侧重于通过人工打分的结果比较不同问答社区的信息质量情况,例如文献[29,30]。而在一些问答社区的比较研究中涉及的信息质量评价则一般由研究者小范围抽样,进行简单的测评。通过这些研究,能在一定程度上了解目前问答社区的信息质量状况,但无法实际解决问答社区的信息质量问题。

       人工评价作为一种评价方法具有能对一些机器难以理解的标准进行评估的优点,且一定程度上能反映用户的需求。然而人工评价需要大量的时间和人力成本,只能对一小部分数据进行处理,不能反映全部的水平。评估者由于自身知识水平的限制,可能产生不准确的评价,不同评估者在理解和认知上也可能产生分歧,难以做到完全的公正客观,可操作性比较低。

       5 基于机器学习的自动化评价

       随着互联网、Web2.0的迅速发展,在线问答社区的信息增长速度不断加快,庞大的数据量使得人工评价的方法变得困难且效率比较低,研究者开始探索如何让计算机自动识别哪些是高质量的问题和答案,不仅能自动地、大规模地对问答社区中的信息进行质量评估,而且能为用户推荐质量较高的问题和答案,预测最佳答案。

       目前一般将问答社区的信息质量自动化评价视为一个基于机器学习的分类问题。而分类问题是根据已知数据的一组特征,建立分类预测模型来预测并度量未知数据的特征和结果,通过剔除和添加不同的特征组合,还可以考察哪些特征对分类效果影响比较大。自动化评价的一般工作流程如图1所示。

      

       图1 问答社区信息质量自动化评价的一般工作流程

       研究者试图提取不同的特征组合以提高分类预测的准确率。近年来一些代表性研究涉及的数据、算法和提取的特征集及准确率如表3所示。

      

       分类预测是一种有监督的机器学习,需要有指定好分类类型的输出变量。目前有两种观点:一种认为用户选择的最佳答案为高质量答案,将是否为最佳答案作为输出预测变量,例如文献[27,39-41];一种认为将用户选择的最佳答案作为高质量答案不可取,因为大多数用户在选择最佳答案时都有很大的情感因素,因此采用人工标注的方法,对信息质量的等级进行标注并作为输出预测变量,例如文献[42-44,50-51]。两种方法各有利弊,认为用户选择的最佳答案为高质量信息能体现用户的需求,但确实存在情感因素且只能二分类(是否为最佳答案),而人工标注则相对客观且可以有更多分类,但人工标注可能与用户真正的需求存在差异,即评估者认为的高质量信息并不能满足用户的需求。

       问答社区信息质量的自动化评价作为典型的分类任务,主要有三个环节:选择数据样本、特征提取、实验及评估。在数据样本的选择上,可以看出,大部分研究目前主要聚焦于Yahoo! Answers、百度知道等常用的综合性问答社区,其他的相对规模小的问答社区则少有人问津。在特征的选取上,也越来越趋向于完整、复杂、多元化,从最开始的相对简单的问答的文本、非文本特征、用户特征,到后来考虑到问答之间的关系的相似度特征。但目前研究中提取的特征大多仍停留在表面,未涉及到语义层面,更多其他的特征,如文本的情感倾向等对分类准确率的影响还需要进一步探讨和实验。在算法的选择上,目前基本的分类算法都进行过实验,也对不同的算法进行了对比实验,不少研究都达到了不错的准确率。

       与人工评价方法相比,基于机器学习的自动化评价能够对大量数据进行处理,效率较高,在大数据时代,庞大的数据量使得计算机自动化评价必然成为主要手段,但自动化评价受准确率限制,可能产生一定的误差。而且目前计算机在自然语言处理上还不够成熟,一些反映用户需求的主观性特征难以用计算机处理。

       6 结语

       从目前的研究来看,在线问答社区信息质量评价的研究还存在很多问题和不足,缺乏系统化、深度的研究。主要体现在:

       (1)缺乏权威、科学的评价标准

       目前对于问答社区信息质量评价标准的研究还比较少,缺乏统一、权威的结论,对于什么才是高质量的问答信息的理解还存在分歧。而现有评价指标体系也存在宽泛、部分指标模糊不清难以界定的问题。

       (2)数据样本选择过于单一,缺乏领域和类别聚焦

       在平台和数据样本的选择上,大部分研究都集中在一些大型的综合性问答社区例如Yahoo! Answers和百度知道,忽视了其他专注某个领域的垂直问答社区,近两年新兴的社交问答平台也很少有研究者触及。另外,目前的研究往往只对一个社区的数据进行分析和探讨,而忽略了平台之间的差异对信息质量的影响。不同领域的信息质量评价标准可能存在差异。对问答社区的信息质量评价研究中的数据大多采用从综合性问答社区多个类别中随机抽样的方法,没有对类别差异进行讨论,缺乏领域聚焦。

       (3)自动化评价尚有改进空间

       虽然许多问答社区信息质量自动化评价研究已经能达到比较高的准确率,但实际上使用的大多还是信息的外部特征,缺乏文本深层的语义关系挖掘,无法真正反映信息的质量。机器学习的过程是一个“黑箱子”,无法了解其内部真正的运行过程,目前的研究也仅停留在追求高准确率的层面上,没有继续进行深度的探讨。

       (4)问答社区存在的信息质量问题尚未得到很好的解决

       在线问答社区信息质量评价的相关研究主要聚焦于向用户推荐相对质量较高的答案和问题,这在一定程度上能够帮助用户在海量信息中筛选有用的信息,解决信息过载问题。而在上文中总结的问答社区存在的其他信息质量问题,包括软性广告、虚假信息和过时信息等则尚未得到解决。

       综上所述,本文对未来在线问答社区信息质量评价的研究进行了展望。首先,评价标准体系的构建还需要更深入的分析和研究,解决指标体系宽泛、指标概念含义模糊不清难以界定等问题,形成科学权威的指标体系。在研究对象的选择上,要注重领域聚焦,分析和探讨不同领域的信息质量和评价标准的差异。除了Yahoo! Answers和百度知道等综合性的问答社区外,不断涌出的基于某个领域的垂直问答社区以及各个平台之间的信息质量差异也值得研究者关注。其次,在问答社区的信息质量评价上,计算机自动化处理仍将是未来研究的热点。除了信息的一些外部特征之外,如何利用文本挖掘技术、自然语言处理技术等提取基于语义的特征,表征信息内部的联系和意义,自动识别和区分高质量与低质量的信息,解决广告信息、过时老化信息等问题将是未来研究的重点。

       收稿日期:2014-01-26

       收修改稿日期:2014-04-17

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

网络问答社区信息质量评价研究综述_互动问答平台论文
下载Doc文档

猜你喜欢