差异与稳定性:网络百科全书用户兴趣动态变化研究_网络百科论文

差异与稳定:网络百科用户兴趣动态变化研究,本文主要内容关键词为:百科论文,差异论文,兴趣论文,稳定论文,动态论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      [中图分类号]G203 [文献标识码]A [文章编号]1003-2797(2016)02-0101-13 DOI:10.13366/j.dik.2016.02.101

      1 引言

      以维基百科和百度百科为代表的网络百科已成为互联网时代的一种重要知识源。与传统百科全书相比,这类网络百科最大的特点就是其知识内容完全由用户所贡献。从广义上讲,网络百科用户既包括只单纯使用网络百科的用户,也包括同时使用和参与知识建设的用户。本文研究中的网络百科用户是狭义的,特指参与知识建设的用户,也可以称之为贡献者,称他们参与知识建设的行为,为“知识贡献行为”,也正是这类成千上万用户的努力才成就了今日的网络百科。

      与在线新闻网站和电子商务网站相类似,网络百科也面临着吸引新用户并保持老用户参与度的巨大压力[1]。但由于网络百科知识建设要求用户必须付出一定的时间,还要具备一定的知识和相关的技能,而且这一过程较之其他UGC平台缺乏社交性和娱乐性。因此,网络百科用户具有知识贡献度低、贡献效率会随时间而降低和流失严重等特点,更为严重的是,用户这些行为所带来的消极影响还会在用户群体中扩散,对网络百科的持续发展构成了严重威胁[2-5]。因此,有必要深入研究吸引新用户及提升和保持老用户知识贡献度的策略和机制。

      对现有相关文献整理发现,针对吸引新用户及提升和保持老用户知识贡献度的策略和机制的讨论主要集中在奖励和引导两个方面,而这些讨论又主要是建立在对网络百科用户贡献行为特点、影响因素、参与动机和用户兴趣挖掘的研究基础之上。目前针对用户贡献行为参与动机及影响因素的研究很多,用户贡献行为静态和动态特点基本上都已发现[6],影响贡献行为的主要因素及各个因素在用户贡献行为过程中的变化也已十分清晰[7,8]。尽管目前针对百科用户兴趣挖掘的研究也有很多,但绝大多数研究集中在方法或技术方面,缺乏对用户群体兴趣的全面了解。且以往研究有一个共同点,即有一个前提假设:用户是同质的、无差别的或相差不多的。因此针对任何类型的用户兴趣挖掘算法或相关技术是完全一致的。但如果用户差异较大,例如当用户行为数据量、兴趣数量等差异非常大时,那么单一方法或技术可能就无法很好地应对。因此,这里提出第一个问题:网络百科用户兴趣差异大吗?其次,目前挖掘百科用户兴趣主要依靠的是静态数据(缺乏时间标签的数据),挖掘出来的用户兴趣也是静态的。而现实情况是,用户在网络百科中进行知识建设是一个动态过程。由此提出第二个问题:网络百科用户兴趣是稳定不变化的吗?

      本文参考郭岩等人的研究[9],同时又引入时间序列聚类分析方法,以海量的网络百科用户行为数据为基础,全面了解这些用户兴趣的特点,尤其是动态变化的特点。本文研究有助于更加深入地了解网络百科用户这一群体,可以为网络百科系统优化及运营策略和激励政策的制定提供有益的建议。

      2 相关研究

      了解用户的兴趣和专长是进一步开展个性化服务的关键。为了实现这一目的,研究者和实践者创造出了众多的兴趣挖掘方法和技术,其中基于关联规则、内容过滤和协同过滤的兴趣挖掘是常见的三种方法[10]。而针对网络百科这种信息服务网站,部分研究也开始关注如何挖掘其用户的兴趣以及探索相关的规律。

      (1)在用户兴趣挖掘方法方面。Cosley等以用户在一段时间内所贡献的不同主题词条的数量为指标,划分出排在前3位的主题,以此作为用户兴趣[11]。Holloway等进一步将语义技术引入,增强了用户兴趣识别的精确度,但利用的仍然是用户在一段时间内所贡献的不同主题词条的总数量这一指标[12]。此外在用户兴趣表征时,他们采用的都是基于主题词的表示法。

      Jesus等将词条和用户结合起来构建了用户与词条之间的关系网络,利用社会网络分析方法来探究用户的兴趣[13]。Tang等构建了用户协作关系网络,通过对协作关系网络结构的分析,快速鉴别出“专家”用户,并通过对协作关系网络中用户子群的分析,区别具有不同兴趣的用户群体[14]。张海栗等也是利用群体兴趣来代表其中个体的兴趣,并针对协同过滤的不足,采用泛树结构生长策略来表征用户兴趣[15]。

      (2)在用户兴趣规律研究方面。与非常多的研究关注网络百科用户贡献行为规律不同,目前鲜有直接针对用户兴趣规律的研究。现有针对网络百科词条主题分布的一些研究,只能反映出用户在这方面的一些特点。

      Kittur等调查了维基百科中词条主题的分布情况,发现数量最多的为“艺术”类词条,排在其后的为“人物”和“地理”类词条[16]。Ferron等发现维基百科不但有知识性的词条,而且还有非常多的实事和新闻性的词条,例如“北非起义”和“埃及游行”等[17]。Keegan等进一步发现在维基百科中,访问量最大、编辑次数最多、贡献者最多的词条基本都属于实事和新闻性的词条[18]。Halavais等不但统计分析了英文维基百科词条主题分布的情况,还将其与出版书籍的主题分布情况做了对比[19]。Holloway等引入语义技术对维基百科词条主题进行了更为精准的识别,并描绘出主题语义结构图[20]。

      通过对以往相关研究的分析,可以发现:首先,在网络百科用户兴趣挖掘方法研究方面,主要关注的是用户的“长期兴趣”,没有考虑用户兴趣是否变化的问题,而且没有考虑挖掘方法是否完全适用的问题;其次,目前研究缺乏对网络百科用户兴趣状况的全面研究。本文研究从这些不足出发,力图探索关于网络百科用户兴趣更加真实的状况与规律。

      3 研究方法

      3.1 用户贡献行为表示

      用户在网络百科中可以做多种工作,但可以归纳为两大类:“Direct Work”和“Indirect Work”[21]。所谓“Direct Work”是指用户行为的直接对象是词条,具体可分为创建词条和编辑词条两大类。除“Direct Work”之外的其余工作都可以归为“Indirect Work”,例如管理或协调用户在知识建设过程中的冲突、日常系统维护等工作。尽管从“Indirect Work”也可以发现用户兴趣的蛛丝马迹,但相对而言,使用“Direct Work”的信息挖掘用户兴趣更加准确和简便。基于此,本文使用用户所创建词条和编辑词条的历史信息来挖掘用户的兴趣。

      

      这个时间序列既包括对用户贡献行为数量特征的描述,也包括对用户贡献对象——词条的描述。

      3.2 用户兴趣表征

      借鉴郭岩等人的研究[23],将用户兴趣按照静态分布和动态演化的特点划分为两大类:突出兴趣和次要兴趣、稳定兴趣和偶然兴趣。所谓突出兴趣指的是在一段时间内用户占主导地位的兴趣倾向,与此相对的次要兴趣是指用户占非主导地位的兴趣倾向。也可以说,突出兴趣是用户在一段时间内的“真正的兴趣”。在网络百科中,用户有明显的突出兴趣就意味着其在一个时间段内,所贡献的大部分词条都落在几个“突出”的主题之内,而其余词条则分散在若干“次要”主题之内。所谓稳定兴趣是指用户具有持久的兴趣倾向,而偶然兴趣是指用户由于临时需要或其他原因对某种事物产生的偶然兴趣,或者说只是一种临时兴起的行为,也可以说在这种情况下用户进行贡献行为是无目的的,是非常偶然的。我们可以认为稳定兴趣才是用户在一个较长时间段中的“真正兴趣”。偶然兴趣虽然可能是用户在一个时间段的兴趣,但长期来看却不是。在网络百科中,如果具有稳定的兴趣,则意味着随时间的推移或情景的改变,用户所贡献的词条将持续地落在几个不变的主题之中,而其余词条则不规则地、不连续地分散在另一些主题之中。在本文的研究中,直接借鉴了郭岩等人对于突出兴趣的定义,并在此基础上给出了我们对稳定兴趣的定义(郭岩等人没有给出具体定义)。

      

      根据上述两个定义,研究将挖掘网络百科用户突出兴趣和稳定兴趣的情况,结果分别可以揭示用户兴趣在静态和动态变化方面的特点,也可以回答本文提出的两个问题。至于用户兴趣具体的表示方法,本文研究采用的仍然是基本的主题词法。

      3.3 时间序列聚类方法

      根据以上对用户贡献行为及兴趣种类的定义,在研究过程中,我们首先会统计得出在整个观察时间内用户突出兴趣及稳定兴趣数量的情况。但是这些并不能完全反映出用户兴趣动态变化的全貌。因此我们将整个观察时间分成几个等距时间段,分别求出每个时间段内用户突出兴趣的数量,也意味着每个用户都会形成一个新的时间序列。随后,我们将所有时间序列进行聚类,形成几个主要的用户类型。通过对这几种主要用户类型的分析,试图探索这些用户兴趣动态变化的全貌。

      聚类是一种无监督的分类,它没有任何先验知识可参考。典型的聚类算法有层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其他聚类算法。其中属于划分式聚类算法的K-MEANS算法和KMEDOIDS算法是最为常用的算法,而欧氏距离又被广泛用于计算元素之间的相异度。但是对于时间序列而言,欧氏距离不能处理局部的时间弯曲。本文在文献分析的基础上,采用演变相似性距离(Evolution Similarity Distance,ESD)表示两个时间序列之间的相异性[24]。

      

      4 研究数据

      4.1 数据源及数据获取

      以往针对网络百科的研究,主要以维基百科为数据源。在本文研究中,我们选取国内最大的网络百科——百度百科作为数据源,主要是考虑以下原因:

      (1)百度百科与维基百科不同的一点是,百度百科只允许注册用户创建词条或进行编辑修改。而在维基百科中,要创建或编辑词条并不要求是注册用户。并且研究发现非注册用户贡献了大量的内容,且有相当数量高质量的词条版本[25]。但是,在维基百科中是以IP地址标识非注册用户的。由于非注册用户不一定总是在同一地址上网,因此系统无法完整地保留一名非注册用户的完备数据。所以在以往针对维基百科用户的研究中,往往不考虑非注册用户。但是忽略掉非注册用户之后,就无法保证研究的精确性。所以,本文研究选择百度百科的原因之一,就是因为其贡献者都是注册用户,可以获取用户完备的贡献行为数据。

      (2)百度百科在国内使用广泛,词条数量大、用户众多,以其为研究对象足可以反映出网络百科用户群体兴趣的特点。截止到2015年9月21日,百度百科拥有的词条已经超过1200万条,参与内容建设的用户数量超过559万[26]。

      与维基百科完全开放不同,百度百科并不提供词条资料和用户资料的下载服务。所以,我们利用开源爬虫软件进行数据爬取。在百度百科中,创建时间最早的词条——“百度百科”是用户“百科万事通”于2006年4月5日15时37分创建。我们选取2006年4月5日至2006年10月5日,6个月共183天时间内的所有用户的贡献行为的历史数据作为研究数据。之所以选择这六个月的数据,一是在这段时间内百度百科并没有“荣誉系统”等激励措施,这段时间的数据更能反映用户真实的兴趣特点。二是由于不能获取百度百科的运行日志,因此如果随机选取一个时间段的用户贡献历史数据,我们很难确定某个用户是从什么时刻开始参与百科知识建设的。因此,选取从百度百科开始运行的时刻开始观察,有利于更好地观察用户贡献行为动态变化的过程。三是6个月的时间是一个相当长的时间段,所具有的数据量可以充分地展现一个用户贡献行为的特征和规律。

      4.2 数据处理

      在数据获取后,根据研究目的对数据进行多项处理,主要包括5个步骤:数据清洗、用户识别、用户行为识别、词条识别和词条主题鉴定。其中要统计的项目有:词条总数量、用户总数量、用户贡献总次数(创建次数与编辑次数之和)、每个用户的贡献次数、每个词条的被编辑次数;要汇总和鉴别的项目有:每个用户所贡献词条的集合、每条词条涉及的贡献用户的集合、每个用户所贡献词条的主题。表1为采集数据的种类及数量,表2为词条“词条”的编辑历史信息,表3为百度百科用户“kind20”的贡献行为数据集。

      百度百科将所有词条都划分在11个主题中:自然、文化、地理、历史、生活、社会、艺术、人物、经济、科技、体育。在本文研究中,同样采用这种主题划分,并给每种主题都分别以数字1,2,3,…,11标记。但是百度百科并没有为每一条词条明确主题属性,在本文研究中,会根据词条的标签、内容以及更新时间来确定词条主题。之所以要考虑更新时间是由于很多词条有多种词义,并且在不同的时间,不同用户所贡献的内容可能分别属于不同词义的词条。

      

      以词条“海尔”为例,这条词条是用户“墓碑悼词”在“2006-04-2104:31”创建,内容都是关于青岛海尔集团的,所以用户“墓碑悼词”所贡献的词条内容主题被标定为“经济-9”;随后用户“明月松”在“2006-04-2110:53”对词条“海尔”做了编辑,增加了一副描述海尔集团的图片。因此,用户“明月松”此时所贡献的词条内容主题被标定为“经济-9”;用户“竹野小寒”在“2006-08-1710:13”对词条“海尔”做了编辑,增加的内容主要是关于日本动画片《四驱兄弟》中人物“海尔”的描述。因此将用户“竹野小寒”此时所贡献内容的主题标定为“人物-8”。按照这种方法,对用户的每一次贡献行为所涉及的词条都赋予了相应的主题。

      4.3 数据代表性分析

      尽管本文选取百度百科作为数据源具有合理性,但所选取的数据是否具有代表性尚存疑问。为了验证数据是否具有代表性,我们对所选数据从词条内容增长、词条编辑次数分布、用户贡献次数分布和词条主题分布等方面进行了分析,并将结果与维基百科对应的情况进行了比较,结果如图1所示。

      图1a,1b,1c,1d分别表示了百度百科词条内容增长、词条编辑次数分布、用户贡献次数分布以及词条主题分布的情况。在以往的研究中,词条数量与编辑次数之和常被用来代表百科内容的多少[27]。在本文研究中,我们仍然采用。根据图1a所示,在2006年4~9月份之间,百度百科内容呈现直线式增长,这与维基百科在初期阶段的增长模式是相同的[28]。词条编辑次数是一个词条创建之后被用户修订过的次数,在一定程度上代表了词条的成熟度,即编辑次数越多的词条往往质量越高[29]。如图1b所示,词条编辑次数遵循幂律分布,这也是与维基百科中的情况类似[30]。用户贡献次数是指某一用户创建词条次数与编辑次数之和,是衡量用户贡献量或参与度的重要指标。如图1c所示,用户贡献次数遵循幂律分布,与Voss针对维基百科的研究结果也一致[31]。图1d展示的是百度百科中词条主题分布的情况,通过与Kittur等人的研究对比,发现除了“自然”和“社会”两个主题的顺序有差别外,其他的主题基本相同,一些主题名称的不同是由于各自网站分类不同造成的[32]。

      

      图1 百度百科数据合理性分析

      通过上述分析,可以发现在百度百科中的用户与词条的特征都与维基百科的对应特征基本一致,可以认定本文研究所选取的数据具有代表网络百科的普遍性。

      5 结果分析

      5.1 用户突出兴趣分析

      根据突出兴趣的定义,我们统计了观察时间6个月内每个用户突出兴趣的数量和拥有各个突出兴趣数量的用户比例,并分析了突出兴趣数量与用户贡献次数的关系,具体如表4与图2所示。

      

      

      图2 用户突出兴趣数量与贡献次数平均值的关系

      根据表4和图2,可以有两点发现:

      (1)大部分百科用户的突出兴趣数量很少,一般仅限于两个以内。并且需要说明的是,突出兴趣数量只为1的用户群体,在观察时间内只贡献了一次的用户占绝大部分。因此,只依靠这一次贡献数据无法确定这部分用户真正的兴趣。

      (2)具有不同突出兴趣数量的用户在贡献次数方面差别较大,而且整体上看,随着突出兴趣数量的增多,用户贡献次数成指数增长。

      5.2 用户稳定兴趣分析

      根据稳定兴趣的定义,我们分别取ε为1/3,1/2,2/3和5/6,并统计了相应的具有稳定兴趣的用户数量,如表5所示。

      

      首先可以发现,随着ε值的增大,拥有稳定兴趣的用户数量逐渐减少。当然根据稳定兴趣的定义,这是意料之中的。第二个发现是,无论ε取何值,拥有稳定兴趣的用户只是全部用户的一小部分。

      图3显示的是在4种ε值下的用户稳定兴趣分布的情况,X轴为稳定兴趣的数量(经过log2处理,且在之前都经过加1处理),Y轴为用户数量(也经过log2处理)。可以发现用户稳定兴趣的个数呈现出幂律分布,说明拥有稳定兴趣的用户不但少,而且即使是在拥有稳定兴趣的这一群体中,用户所拥有的稳定兴趣的数量也差异巨大。这更是为研究如何精确确定每个用户的兴趣和后续给每个用户推送其感兴趣词条的任务增加了难度。

      5.3 用户兴趣动态变化分析

      在本节中,将利用时间序列聚类的方法,从用户兴趣方面得到更加丰富的用户类型,继而分析各个代表性的用户类型以得到更加全面的用户兴趣动态变化特征,最终弥补以往研究的不足。由于本研究中采用的是等长的时间序列聚类,即截取的时间对于每个用户都是相同的。所以,本节研究中选取的用户为四月份开始进行贡献行为的9977名用户,这就保障了用户是在同一月份开始使用百度百科,采用的单位时间间隔为月。

      图4展示的两个用户A和B在六个月中进行贡献行为的情况,横轴代表月份,纵轴代表每个月中用户突出兴趣的数量。A用户只在开始第一个月中有一个突出兴趣,而在其后的五个月中没有突出兴趣。B用户是在参与知识贡献过程中的第三个月才有一个突出兴趣,其他月份数量为零。如果按照一般聚类分析,A与B两用户为一类用户。但是考虑到时间因素后,两种用户还是有较大差别的。因此,为了充分了解网络百科用户兴趣动态变化的规律,我们采用时间序列聚类的方法。

      

      图3 不同阈值下的用户稳定兴趣数量分布

      

      图4 A、B两用户突出兴趣动态变化

      时间序列聚类采用MATLAB为聚类工具。实验过程中,采用

为准则函数,其中户是数据对象,

是属于簇

的平均值,ESD表示数据到其所属簇中心的演变相似性距离。实验发现当设置类别数为9,迭代次数为3时效果最好,结果如图5、6、7所示。

      

      图5 第1~4种用户类型

      第1种类型的用户数量为357,占用户总量的3.58%。这类用户在前两个月中的突出兴趣数量都维持在三四个,可以认定这类用户在初始阶段参与贡献的词条主题分布就较为广泛。但是从第三个月开始,从其贡献行为中就看不出有特别突出的兴趣了。

      第2种类型的用户数量为24,占用户总量的0.24%。这类用户的特点是,其突出兴趣数量在初始阶段就较高,达到五六个之多。虽然随着时间的推移,突出兴趣数量有所下降,但是还维持在三个左右。

      第3种类型的用户数量是最多的。这种用户类型的特点是,只有第一个月有突出兴趣,并且数量只有一个。这里需要指出的是,这类用户还可以细分为两类。一类是,在初始阶段进行了少量的贡献之后就彻底停止贡献行为的。第二类是,在后面几个月中参与每个主题的行为比较分散,没有集中。但是从数量上看,第一类用户占绝大多数。

      第4种类型的用户数量为18,是所有用户类型中最少的一种。这类用户的特点是,在六个月的时间内,其突出兴趣的数量一直较大。

      第5种类型的用户数量为258,占总量的259%。这类用户的特点是,初始月份的突出兴趣数量不多,只有两个。在第二个月,有过一次小的提升。但在这之后,其突出兴趣的数量就开始下降,直至为0。

      第6种类型的用户数量为36,占总量的0.36%。这类用户的特点是,其突出兴趣数量的变化可以分为两个阶段。第一段是前三个月,其突出兴趣的数量持续增加;第二阶段是后三个月,其突出兴趣数量持续减少,但在最后一个月中,其突出兴趣仍然有一个。

      第7种类型的用户数量为115,占总量的1.15%。这类用户在初始阶段拥有的突出兴趣数量很大,但从第二个月开始就快速下降。而且从第四个月开始,他们就不再具有突出兴趣。

      第8种类型的用户数量为80,占总量的0.80%。这类用户的特点是,其突出兴趣数量随时间一直在变化,但变化幅度都不大。在最后一个月,其突出兴趣数量仍然为1,且一直处于下降趋势中。

      第9种类型的用户数量为1653,占总量的16.57%。这类用户与第3类用户的变化趋势相同,不同的只是起始阶段的突出兴趣数量的大小。

      通过对以上9种用户类型特点的分析,我们将这些用户重新划归为3大类:单一参与者、广泛持续参与者和普通参与者。

      

      图6 第5~8种用户类型

      

      图7 第9种用户类型

      单一参与者只包括第3种用户类型。他们的特点是只有单一的突出兴趣,并且贡献持续过程很短。通过统计这些用户的贡献数量发现,这些用户不但具有突出兴趣的数量少,而且贡献次数较少。从这一方面可以说明,在网络百科中长期坚持在一个方面进行内容建设的用户是很少的,这可能是与现实中进行科学研究的学者群体的一个很大的区别。

      广泛持续参与者包括用户类型2和4。他们的特点是,突出兴趣数量在初始阶段就较大,并且随着时间的推移,这一数量变化不大。结合贡献数量数据发现,这些用户在观察时间内的每一个阶段的贡献数量都比较大。这些用户可以说是网络百科忠实的“超级粉丝”,不但贡献数量巨大,而且在各个领域都有所贡献。无论这些用户实际贡献的质量如何,这些用户参与奉献的精神都是值得肯定的。因此,网络百科系统管理者应该重视这些用户,给予他们更多的权利,以更好地促进系统的发展。

      普通参与者包括用户类型1、5、6、7、8和9。这些用户的特点是,在初始阶段具有相当数量的突出兴趣,但随着时间的推移,数量下降快速,最终只保留一两个突出兴趣。这类用户与单一参与者不同的是,其贡献行为数据可以支持系统对他们的兴趣及兴趣变化趋势进行精准发掘,并且从贡献数量来看,这些用户还有提升的潜力。因此,网络百科管理者和研究者应该重视对这些用户的研究。

      结合以上用户类型和用户稳定兴趣的分析,可以看出用户兴趣的确存在差异,并且有稳定与偶然之分。拥有稳定兴趣的用户的数量很少,这些用户进行贡献行为的初衷的确是根据他们的知识背景和利他性而进行的。对于大部分用户来说,他们的贡献行为是很偶然的。他们进行贡献行为的多数情况可能是在浏览某一词条后,发现词条存在某一方面的不足和错误,而对词条做出的简单修改,例如拼写修改、链接添加等。此外,用户所拥有的稳定兴趣不会总是一个很大的数量。随着时间的推移,一般只会集中在一两个。当然用户群体中也存在一小部分特殊的用户,这些用户兴趣广泛、贡献数量大,但用户数量太少。

      6 结语

      6.1 总结

      网络百科已经成为当今时代一种重要的知识源,而且应用非常广泛,对于这一资源建设者们的研究具有现实意义。本文研究以海量数据为基础,采用包括时间序列聚类等多种方法得到了以下结论:

      (1)用户拥有兴趣的数量差异巨大。绝大部分的用户只拥有很少的兴趣。严格地说,这些兴趣也可能算不上用户的“真正兴趣”。整体上看,用户拥有的兴趣越多其贡献数量越多。从用户兴趣持续时间方面来说,拥有稳定兴趣的用户很少。而且即使是在拥有稳定兴趣的这一群体中,用户所拥有的稳定兴趣的数量也是差异巨大。

      (2)用户的兴趣是动态变化的,有稳定与偶然之分。传统上我们都认为网络中的用户一定具有一个或几个稳定的兴趣,这也是网络系统进行用户兴趣挖掘和个性化推荐的基础。在本文研究过程中,我们也是始终坚信这个认识。但令人遗憾的是,研究结果显示我们如果只是利用现有的用户行为历史数据,即使数据规模已经达到被我们称之为“大数据”的规模,也是很难得到我们以往认为很容易就得到的关于用户兴趣的信息,而要向成千上万差异性巨大的用户推送合适的个性化信息的任务就更难完成了。

      (3)缺少专家型的用户。在网络百科中,很难找到只在一个主题中长期进行贡献行为的用户,即某一方面的“专家”。绝大部分用户的贡献行为可能只是出于很偶然的原因,其所贡献的词条主题绝大部分是与其知识背景不相符合的。这是一项看起来跟我们以往想象得很不一致的结论。

      以上是我们就研究本身得出的一些结论,同时这些研究结论也可以为百科系统的管理者和设计者提供一些启示:

      (1)网络百科中缺乏“专家”型的用户。大量用户进行贡献行为的动机十分偶然,这可能是造成网络百科词条质量普遍不高的原因之一。为此,网络百科应该积极吸引大量专业人士加入到内容建设中去。至于如何吸引到这样的专业人士,网络百科可以借鉴“知乎”和“Quora”式的知识问答平台。

      (2)向用户推荐相关词条是目前网络百科为提高词条质量普遍采用的一种方法。但经过本文研究,我们对这种方法的效果持怀疑态度。单纯依靠贡献行为数据很难挖掘出用户真正的兴趣点,即使数据的规模非常大。并且研究结果还显示,即使在拥有所谓兴趣的用户群体中,用户兴趣的数量和种类都有很大差异。因此,对于网络百科管理者和设计者来说,这里有三条建议:①注册时让用户主动填写自己的兴趣依然是一种可靠的获取用户兴趣的途径;②绝大部分用户的行为数据不足以支持挖掘出其兴趣点,网络百科系统存在“数据稀疏”问题。网络百科管理者可以考虑依靠第三方登陆,以此获取用户更多的个人信息;③在设计挖掘用户兴趣算法时,应该对用户总体情况做一基本了解。此外,算法设计也要考虑用户个体的差异性。

      6.2 研究不足

      尽管本文研究在方法选择、研究数据选择等方面做了大量工作,但是还存在不少不足:

      (1)选取多大的时间间隔才能更好地挖掘出用户的稳定兴趣,天、周和月,哪一个更好。尽管这是一个值得研究的问题,但是本文并没有考虑,导致在一定程度上忽略了一部分用户,这是本文的一个不足之处。但就本文选取的“月”这一时间间隔来说,研究结果反映出的也是一种真实存在的现象。另外,我们也可以肯定所有用户都具有一定数量的稳定兴趣,只不过由于用户的差异性,存在数量和种类的区别。但是在研究中,我们却只能挖掘出少部分用户的稳定兴趣。一个原因就是上面说的时间跨度选择的问题,可能本文选取的“月”的确存在“大”的问题;另一个原因是用户贡献行为数据的缺乏,最为根本的原因是这些用户进行的贡献行为次数太少,现有的数据不足以支持挖掘出他们的稳定兴趣。

      (2)尽管我们就百度百科数据的代表性和科学性进行了检验,但也无法改变本文研究单一数据源的事实。因此,本文的研究结论可能只是中文环境下的网络百科用户贡献行为的特点。在未来的研究中,我们将采用多语种的数据以消除语言因素的影响。

      (3)本文研究在表征用户兴趣时采用的仍然是传统的主题词表示法,精确性还有提高的空间。在未来的研究中,我们将采用更加科学的兴趣表征模型或引入语义技术以提高结果的精确性。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

差异与稳定性:网络百科全书用户兴趣动态变化研究_网络百科论文
下载Doc文档

猜你喜欢