基于半衰期的维基百科进化分析_半衰期论文

基于半衰期的维基百科演化分析,本文主要内容关键词为:半衰期论文,维基百科论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G250 [文献标识码]A [文章编号]1003-2797(2011)05-0122-07

维基技术是WEB 2.0技术的典型代表之一,而维基百科无疑是维基技术应用最成功的典范之一。维基百科“中立的观点”、基于CC-by-sa-3.0协议的版权开放、编辑规则的制约[1],以及具有保留记录、页面锁定、版本对比、更新描述、lP禁止、沙箱(Sand Box)测试功能的Wiki技术,使得维基百科呈现出包容性、开放性、全面性、交互性、准确性、中立、客观、自由、协作、平等、共享、动态、即时等特点,它允许不同的观点在这里交流、融合。自2001年投入运行以来,目前维基百科已拥有270多个语言版本独立运作,截至2011年3月27日,维基百科条目数第一的英文维基百科突破360万条,全球所有语言版本条目已突破1800万条,总登记用户也超越2800万人,总编辑次数超越11亿次[2]。在所有语言版本中排名第12位的中文维基百科自2002年10月24日创建至2011年4月10日,其条目已超过35万条,注册用户超越98万人,总编辑次数超越1600万次[3]。

1 维基百科演化与网络信息资源半衰期

维基百科庞大的信息规模,无疑对现代社会具有重要的意义,国内外学者对维基百科演化规律的研究也取得了很多成果。Viégaset等通过比较不同年份条目的历史编辑数据揭示了讨论页面中用户协作机制的演变[4];Jakob Voss发现维基百科的信息规模保持指数级增长[5];Buriol等统计分析了英文维基百科的条目数、用户数、编辑数以及条目间的链接数量随时间的演化过程[6];Thomas Whner等基于条目生命周期的演化,测度了条目的质量,指出高质量的条目被编辑次数相对较多[7]。罗志成、付真真通过分析中文维基百科的浏览量、管理人员、条目数量、用户等,描述外部因素对维基百科有一定的影响,但是不影响其总体趋势[8];李小宇和罗志成在分析了中文维基百科页面更新和用户行为的演化过程后指出,中文维基百科在经历了指数型增长过程后增长速率趋缓,并且针对词条页面的编辑在全部编辑数目中的比例也有下降趋势[9];赵飞、周涛等总结了维基百科的宏观统计性质以及演化规律,将复杂网络理论应用到维基百科研究中,并探讨了维基百科的研究方向[10]。

综合看以往学者的研究,多是从数量变化的角度来描述维基百科的演化,因此,本文引入半衰期的概念,以时间为标度来展示维基百科的发展演化规律。

半衰期源于物理学领域,原指放射性元素的原子核有半数发生衰变所需的时间。借用物理学半衰期的概念,段宇锋将网络信息资源的半衰期定义为网络信息资源的基本构成元素有半数发生变化所需的时间[11];白继芳将半衰期的概念引入到虚拟学习社区的研究中时,将首帖半衰期定义为首帖发布之后跟帖数达到全部跟帖数的一半所用的时间[12];朱梦娴、许鸿翔、高静在以Delicious系统为例研究网络信息资源半衰期时,将某类信息半衰期定义为Delicious系统中某类信息被收藏的书签中较新的一半是在最近多长时间创建的[13];鞠菲在研究网络信息资源老化时,测度的是新浪新闻评论量的衰变[14]。由上可见,在研究网络信息资源半衰期的时候,若研究对象不同或强调的重点不同,选择的信息资源基本构成元素会有所不同,半衰期的计算方法也会有所不同。

利用半衰期来分析维基百科已不是先例,学者罗志成借鉴文献半衰期的计算思想,提出了维基分类系统的被标引半衰期,即维基分类的效用价值中的一半是在最近多长时间内产生的[15]。本文试图从宏观的角度,结合物理学中半衰期的概念,并借鉴段宇锋对网络信息资源的定义,将维基百科的半衰期定义为:在某观察时间段内,维基百科中信息资源基本构成元素较新的一半是在多长时间内产生的。

2 维基百科半衰期及其计算方法

维基百科的信息资源规模庞大,条目、用户、编辑次数等不断创造新的纪录。作为网络百科全书,条目是其最基本信息单元,用户是条目的创建者,条目的创建和完善又基于编辑行为,所以笔者选择条目、参与者、编辑次数作为基本元素来计算维基百科的半衰期。另外,为了能够更全面地反映维基百科的演化,笔者又取信息粒度更细的链接、字符数和字节数来一同计算分析。

在维基百科中,条目指所有的“百科全书文章”,以及目录索引(例如列表,年表等)。条目是百科全书的最基本单元,是知识和信息的集成载体单元[16],其中正式条目是指最少包含一个内部链接的条目;预备条目是指忽略wiki-和html代码,隐藏链接和标题后,最少包含一个内部链接并且最少有200个字符的文本的条目。参与者是注册后至少编辑了10次的维基人。“维基人”是为维基百科全书编写条目的人,他们是维基百科的贡献者,其中参与者的贡献占中文维基百科总编辑次数97.0%[17]。编辑次数包括重定向和未注册用户对中文维基百科的编辑。字符数是指中文维基百科字符总数(不包括重定向,html/wiki代码和隐藏链接)。字节数是指中文维基百科中所有条目的总计大小(包括重定向)。这里统计的链接包括中文维基百科内部链接、跨语言链接和外部链接,其中跨语言链接是指链接到中文维基百科以外其他语言版本维基百科的链接,外部链接是链接到其他站点的链接。

2.1 维基百科半衰期

为了帮助用户了解维基百科以及帮助学者研究分析维基百科,维基百科提供了一个公开的数据统计站点[18],用以发布其监控记录的各项维基百科数据。本文以中文维基百科为分析对象,以正式条目、预备条目、编辑次数等作为中文维基百科的信息资源基本构成元素来分析中文维基百科的总量半衰期和年度增量半衰期。

总量半衰期是从维基百科创建之日起直到观察时间,维基百科基本构成元素较新的一半是在多长时间内产生的,例如正式条目2010年5月的半衰期是指自创建之日起到2010年5月底,所有正式条目中较新的一半是产生于多长时间内。由于中文维基百科各类数据的最后统计时间不统一,为了统一观察时间,本文取各类数据从中文维基百科创建之日起到2010年5月的数据来讨论中文维基百科的总量半衰期。为了能够观察总量半衰期的变化趋势,笔者每隔12个月取一个观测时间点计算总量半衰期,由于2003年5月距中文维基百科创建时间(2002年10月)较短,故不将其作为观测时间,即分别以2010年5月、2009年5月……2004年5月为观测时间。

年度增量半衰期是指在某年内,维基百科的某基本元素于该年度增量中较新的一半是在多长时间内产生的。年度增量半衰期是以某一年年底为观测时间,以本年度为观察时间段,以该基本元素的增量为统计对象,计算该基本元素在本年度新增的一半是在多长时间内产生的,例如正式条目2010年度的增量半衰期是从2010年1月1日起到2010年年底,新增加正式条目的一半是在多长时间内产生的。

2.2 半衰期计算方法

(1)总量半衰期计算方法。根据上文所述总量半衰期的概念,总量半衰期即为该基本元素从创建之日起到观测时间点累加总量的50%时所对应的时间点与观测时间点之间的跨度,如图1所示总量半衰期即为累加总量的50%在时间轴上的投影与观测时间点的距离。

图1 总量半衰期计算方法

以正式条目2010年5月的总量半衰期为例,表1给出了从创建之日起到2010年5月每个月的累加正式条目数和累加百分比。

由表1可以看到,50%位于51.16%和49.83%之间,且是在2007年11月达到的,2007年11月距2010年5月有30个月,按下式可计算出中文维基百科正式条目2010年5月总量半衰期的值:

中文维基百科正式条目2010年5月总量半衰期=30+(51.16%-50%)/(51.16%-49.83%)=30.9(月)。

(2)年度增量半衰期计算方法。年度增量半衰期是以一年为观察时间段,按上文年度增量半衰期的概念,某元素某年的增量半衰期取该元素在该年增量的一半对应的时间与该年12月31日的时间跨度,如图2所示,该年度累加增量的50%在时间轴上的投影到该年年终的距离即为年度增量半衰期。

图2年度增量半衰期计算方法

以中文维基百科正式条目2010年的年度增量半衰期为例,表2给出了正式条目2010年几个月的累加增量及其占该年累加增量总量的百分比。

由表2可以看到,50%位于50.98%和43.14%之间,增量的50%是在6月达到的,距12月有6个月,按下式可计算出中文维基百科正式条目2010年年度增量半衰期的值:

2010年度中文维基百科正式条目半衰期=6+(50.98%-50%)/(50.98%-43.14%)=6.1(月)。

3 数据分析

根据上文维基百科半衰期的定义和半衰期计算方法,本文对中文维基百科的总量半衰期和年度增量半衰期进行了讨论和分析,并通过比较总量半衰期和总时间,更明确地展示中文维基百科的演化规律。

3.1 总量半衰期

总量半衰期是从中文维基百科的创建之日起到观察时间为时间范围来计算半衰期,本文分别以预备条目、正式条目、字节、参与者、字数、编辑次数和链接为中文维基百科的基本构成元素来展现中文维基百科的总量半衰期,表3列出了各个元素于不同观测时间的总量半衰期。

从表3可以看出,以2010年5月为截止时间,中文维基百科正式条目的中较新的一半是在30.9个月之内完成等的,即到2010年5月为止,中文维基百科正式条目创建较新的一半用了30.9个月,约合927天或者2.5年。以2009年5月为截止时间,中文维基百科中正式条目较新的一半是在24.9月完成的。2008年5月为20.5月;2007年5月为13.3月,2006年为10月;2005年5月为7.3月;2004年5月为3.4月。图3直观展示了以不同基本元素为统计量随观察时间变化的总量半衰期,图中标示出了正式条目半衰期在各个观察时间的对应的总量半衰期的值。

总体上看,首先,总量半衰期随着观察时间的变化而变化,观察时间范围越大,每种基本元素的总量半衰期也越长;其次,除2004年5月外,正式条目不同观察时间的总量半衰期均大于对应的预备条目、字节、字数、参与者、编辑次数、链接基本元素的总量半衰期,说明正式条目的增长相对滞后于另外基本元素的增长;最后,每种基本元素的总量半衰期的变化的趋势基本上是相同的,这说明无论以哪种基本元素作为分析对象来反映总量半衰期,或者说无论站在哪一角度来观察中文维基百科的半衰期,都反映出了同样的结果。

3.2 各基本元素总量半衰期占总时间百分比分析

表3和图3展示了中文维基各基本元素总量半衰期观测变化的趋势,但是仅观察分析各基本元素的总量半衰期无法直观展示中文维基百科的发展情况,本文又将各个基本元素的总量半衰期与总时间对比,取半衰期占总时间的百分比来进行纵向比较分析,如表4。百分比越大,说明截止到该时间点,完成较新的一半,即50%所占用的时间占总时间比例越大,进而说明近期该基本元素增长速率相对下降;百分比越小,说明完成较新的一半所占用的时间占总时间的比例越小,进而说明近期该基本元素相对增长较快。

中文维基百科自2002年10月创建到2010年5月共经历了92个月,其正式条目在30.9个月内创建了较新的一半,用了总时间的33.26%;自创建到2009年5月共经历了80个月,其正式条目在24.9月内完成了较新一半的创建,用了总时间的30.75%。从2010年5月和2009年5月这两个数值来看,同样是总量的一半,以2010年5月为观察点时,创建较新的一半所用的时间占总时间的33.26%,而以2009年5月为观察点时,完成较新一半用了总时间的30.75%,小于2010年5月的33.26%,这直观地说明了2009年5月到2010年5月正式条目生成的速率相对变缓。中文维基百科各基本元素半衰期占总时间百分比趋势如图4所示。

从图4可以看出,自2007年5月后,各基本元素各个观察时间总量半衰期的占总时间百分比均呈上升趋势,即说明维基百科的整体增长速率减缓,除了参与者,这种减缓的趋势从2006年5月就开始了,这也反映出中文维基百科日趋成熟、日趋稳定。图中2004年5月到2007年5月各百分比变化比较不统一,究其原因,中文维基百科曾多次遭到政府的封禁,有些时候在无通知的情况下禁止访问中文维基百科;发生的一些维基百科的信任危机事件也对维基百科的发展产生了一定的影响[8]。另有人认为维基百科不易于新人上手,对版权的要求严格,还有许多参与者当选了管理员后就逐渐不活动、疏于维基百科的管理[19],以及随着维基百科的日益壮大,维基百科网站维护费用越来越高,而其只依靠募捐来生存等,这些都会影响到维基百科的发展[20]。

3.3 年度增量半衰期

维基百科的提供的统计数据统计到2010年年底的只有参与者、正式条目和编辑次数这三个统计量,并且由于中文维基百科创建于2002年10月,2002年的观察时间不足一年,所以本文统计了参与者、正式条目和编辑次数2003年到2010年共8年的年度增量半衰期。图5展示了中文维基百科参与者、正式条目数和编辑次数2003年、2004年……2010年的年度增量半衰期,图中标示了正式条目和编辑次数的年度增量半衰期的值。

图5 基本元素年度增量半衰期(单位:月)

如果以6月为上半年和下半年的分割线,年度增量半衰期小于6个月,以年底为参考点,该基本元素在该年新增的一半是在距离该年年底不到6个月的时间内完成的,另一半则是在多于6个月的时间内完成的,即下半年比上半年产生的多,或者说下半年增长速率相对较大,反之上半年增长速率相对较大,如果等于6个月,则上半年与下半年增长速率持平。如2003年编辑次数年度增量半衰期为2.4月,则说明该年一半的编辑次数产生于距年底2.4个月的时间内,即产生于10月下半月、11月和12月,进而说明该年下半年产生的比较多,增长速率比较大。

总体上看,除2009年正式条目年度增量半衰期外,2005年到2010年大多在6个月左右,即上半年与下半年增长速率相当。图中2003年三种基本元素的半衰期均较小,可能因为中文维基百科创建之初,有一个从不熟悉到熟悉的过程,熟悉之后增长速率就相对较快。2004年各元素年度增量半衰期比较不一致,说明该年各基本元素增长不均衡。2004年和2009年正式条目的年度增量半衰期和编辑次数的年度增量半衰期相差较大,反映出2004年和2009年用户创建该年正式条目的一半明显早于完成编辑次数的一半,这说明在该年度较早月份用户的编辑行为中创建正式条目占的比例比该年较晚月份创建正式条目占的比例大。

4 结论

本文将半衰期的概念引入到对维基百科的研究中,利用半衰期的方法,从总量半衰期和年度增量半衰期两个角度,以时间为标度展示了中文维基百科的发展演化状态。本文通过分析中文维基百科半衰期,得出以下几个结论:

(1)观察时间越长,中文维基百科的半衰期也越长。从总量半衰期看,除参与者外,维基百科条目、链接等的半衰期应该基本保持不变的,因为维基百科参与者越来越多,应使条目等的半衰期保持基本平稳。事实上,观察时间越长,中文维基百科的半衰期也越长,可能是因为:①观察时间范围越大,其信息资源基本构成元素的总量也越大,完成总量的一半所用的时间也应该越大;②虽然参与者越来越多,但是每一个参与者的贡献并不是不变的,他们中有活跃的、有逐渐沉默的、有参与几次后便不再参与编辑的。

(2)中文维基百科增长趋缓。从各基本元素的总量半衰期与总时间的百分比看,近年来中文维基百科完成总量较新的一半所占用总时间的百分比越来越大,说明其增长速率趋缓,这也从另一方面反映了中文维基百科日趋成熟。

(3)条目增长速率相对低于其他基本元素。无论从总量半衰期看还是总量半衰期与总时间的百分比看,除2004年5月外,中文维基百科条目的总量半衰期和百分比均都大于其他基本元素,这反映了近年来条目的增长相对滞后于其他基本元素的增长。

(4)一年内,中文维基百科增长平稳。大多数情况下,统计的各基本元素基本年度增量半衰期均在6个月左右,即上半年下半年的增长速率相当。2002年10月创建到2003年年底,创建时间较短,这段时间内用户对维基百科有一个逐渐熟悉的过程,这可能致使2003年度的增量半衰期较小,即下半年增长较快。

半衰期是测度信息资源老化的一个重要指标,在讨论网络信息资源半衰期时往往会遇到很多复杂的情况,如网页不会匀速变化,新增的网页也会发生变化,因此,出于研究的需要,可能会选择在信息组织上比网页粒度更细的单元如知识单元、网络链接、单词等作为基本构成元素来计算半衰期[11]。本文从预备条目、正式条目、字节、参与者、字数、编辑次数和链接几个角度分析了中文维基百科总量半衰期后,发现无论站在哪个角度或者说无论以哪一种基本构成元素来分析中文维基百科的半衰期,其展现出的变化趋势都基本一致。如果用本文半衰期的概念来分析其他版本的维基百科或者其他类型的网站,能否得出同样的结论,还需要进一步验证。

标签:;  

基于半衰期的维基百科进化分析_半衰期论文
下载Doc文档

猜你喜欢