自由分类的社会性及其利用_元数据标准论文

自由分类法的社会性及其利用,本文主要内容关键词为:分类法论文,社会性论文,自由论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔分类号〕G350

自从因特网诞生的那天起,对网络信息组织的各种探索就从未停止过。面对海量信息以及信息的指数级增长,传统的分类法无所适从;元数据也似乎陷入了僵局,变得越来越庞大和复杂;语义网和本体论则更多地还停留在理论层面。分类从来都是在有序与无序间寻找平衡,大一统的信息组织和检索只是人类美好的愿望。Web2.0倡导因特网是大众的因特网,网络的主体将是人而不是机器。当分类法也“2.0”一下,即出现了本文将要讨论的自由分类法。

1 自由分类法的源起

2005年初,自由分类法(folksonomy)开始在网络上流行。自由分类法最成功的运用当属网络书签管理网站美味书签(del.icio.us)、图片共享管理网站闪亮图片夹(flickr.com)等,其用户使用量在近一年来出现了剧增(图1)。在我国这方面也已经有了很好的尝试,如和讯网摘等。

图1 flickr.com和del.icio.us用户在过去一年里的访问量统计(取自Alexa.com)

Folksonomy是Thomas Vander Wal于2004年8月提出来的,是“folk”和“taxonomy”的复合,前者是“人们、种族”的意思,后者是“分类、分类学”的意思。由于参与自由分类的人不是专业人士,他称之为“自下而上的社会化分类方法”(bottom-up social classification)。Clay Shirky认为“它们是平面的名称空间”,他还提出这种协作的标签分类是语义网本体的一种非常有意义的尝试[1]。Adam Mathes解释说自由分类法是用户为他们自己创造元数据,并在网络社区中共享这些元数据[2]。David Weniberger用“知识之树”来形容分类法的不同类型和发展阶段,并将标签和自由分类法比作从树上飘落的一堆“知识树叶”[3]。

在国内,有人将folksonomy译为“自由分类法”、“大众分类法”、“社会分类法”等,这里取“自由分类法”一说。毛军博士给自由分类法下的定义是“用户自发地用标签(tag)对感兴趣的资料进行分类,并与他人共享标签的过程和结果”[4]。

自由分类法使得普通用户成为网络信息组织的主人和受益者,它赋予用户完全的自由,使用户可以为网络事物创造自由的、甚至可以是“杂乱”的元数据。通过自由分类,用户可以更容易地对所标注信息进行查找、分类。对信息进行贴标签、自由分类是个人行为,主要是为了自己利用信息的方便,但是由于信息和标签的公开性,却使得大量的这种行为积累、聚类,而不得不具有了社会性,从而每个人在不经意间就为网络做了贡献。

2 自由分类法与传统分类法的不同

传统上,分类是由具有专业技能的人员进行的,但面对当今网络浩如烟海的信息,这种分类实在是无能为力。或许正因如此,网络信息组织的主导权不得不回到大众手中。自由分类法的主体便是网络用户,用户有权利在相应社区中对于自己有用的信息赋予标签,以方便管理和检索,但不是义务的。当用户而不是机器成为因特网的主体和创造者,自由分类也就有了存在的可能与必要,或许它在某一程度上也预示着网络信息分类的前景。

我们比较熟悉的传统分类法,像生物的林奈分类、图书馆采用的杜威十进制、对电子文件进行管理的计算机文件系统等,都是等级体系的、排他的。即在这样一个分类系统里,每个动物或书或文件都归属于一个确定的类目。与之相反,自由分类法是没有体系结构的,也不是排他的。但不能据此判断两类方法的优劣,在不同的情境下,它们各有所长,也各有所短。

在讨论自由分类法与传统分类法的时候,人们经常缩小了folksonomy的外延来和传统分类法比较。自由分类法最常使用的标签词词性有三种:名词、动词和形容词。只有名词部分才能和作者的关键词描述、专家的标准分类比较。也就是说,folksonomy实际上比图书馆的分类法要丰富,潜能也更大。它实际上适应了数字化信息时代的需要,人们不仅仅需要的是内容,也需要动词或者形容词方面的数据。

自由分类鼓励个性,激励创新,同时具有社会效应。标签能够及时反映网络上流行的资源(通过被赋予标签的数量来衡量)以及它们的归类。同时,自由分类法也存在着诸多的不足:①用户有了更大的自主权,也就为垃圾信息和标签的使用提供了舞台,权利易被滥用;②由于用户可为同一概念赋予不同的标签,也可以将同一标签赋给多个不同的概念,对于给定的某一特定检索式,会返回一些无用的信息而导致查准率降低,也有可能导致查询结果不完全而使查全率下降。尽管如此,操作简单、维护成本低廉的自由分类法更能适应网络海量信息的需要,会更好地预示语义网的未来。

3 自由分类法的社会性

自由分类法使得用户能够在网络社区中共享个人使用的标签,包括同一标签下的各种信息,也包括同一信息下的各种标签。因此,标签、信息以及用户相互之间就联结起来,构成由标签和信息组成的网络,也可将其看成由标签、信息和用户构成的三方网络,用图论和社会网络分析的方法对其进行研究。自由分类法是复杂网络,表现出了标签的负幂分布和标签比例的稳定等特性。

3.1 标签的负幂分布及流行性

Adam Mathes提出标签遵循负幂分布[2]:少量的标签被大量的人使用,大量的标签只有少数人使用,更大数量的标签只有一到两个人使用过。随后,复旦大学的沈凯凯和吴立德对自由分类法进行的一些统计分析验证了标签的负幂分布[5]。他们视自由分类法为由标签和所标引信息构成的网络,对于自由分类网络中的标签结点i,其度k[,i]表示同一信息拥有该标签的数量,P(k)为结点度的分布函数,满足负幂分布,即P(k): k[-r]。他们在实验中得到的曲线拟合图像如图2所示。实验中为了方便,对k[-r]取了对数,因而负幂分布转化为了线性分布。

图2 自由分类法网络标签度的分布拟合曲线

Marieke Guy和Emma Tonkin对flickr标签的流行性进行的研究表明:标签的流行性减少得很快,最终趋近于y=1,也符合负幂分布[6](见图3),图中也已经是取过对数的情况了。

图3 随机选取的flickr标签的流行性曲线

标签的使用数量和流行性都遵循负幂分布,社会活动领域中很多分布都符合这一规律,这也充分说明了自由分类法的社会性,利用自由分类法进行网络流行事物的提前预测,把握网络脉搏,进行数据挖掘等都是可行的。那么自由分类法为什么表现出这种分布呢?我们知道,一个自由分类体系是由若干个人的分类有机复合而成的,信息的共享性以及标签的相互可见性,使得用户在不经意间就学习和借鉴了其他人的东西。大量的这种行为的聚集,也就自然而然有了社会性。

3.2 标签比例的稳定性

由于自由分类现在最成熟的应用是对书签和图片的管理,这里以书签为例来揭示标签比例的稳定性。随着一个网页被越来越多的人收为书签,标引该网页的标签集以及在该标签集内每个标签的使用频率,就形成了多个用户对该网页的总体描述。人们可能会这样想,由于每个用户都有自己不同的偏好以及标签使用习惯,当大量的个体行为聚集在一起时会表现得杂乱无章,从而得到一个混乱的自由分类。然而事实却正好相反,惠普实验室的两位研究人员对此进行了研究,发现每个标签的使用比例几乎是稳定的[7]。他们指出,只要指向某网页的书签的数量超过100个,每个标签在标引这个网页所使用的所有标签中占的比例会相对固定。他们是以del.icio.us为蓝本做的研究,图4为他们对两个网页涉及的标签进行的统计图。

图4 对两个网页涉及到标签的统计

注:横轴表示用户添加该URL为书签的数量,纵轴表示各标签的比例。

造成标签使用比例稳定的主要原因是用户间的模仿和共有知识,使其最终达到了平衡,只要同一内容被100个左右的用户赋标签即表现出这种平衡,而随着用户的增加这种稳定性并不会改变。

4 自由分类法的利用和价值

4.1 自由分类法给元数据的启示

元数据和自由分类法都是为了高效地组织信息以方便用户的使用而发展起来的,前者的实施主体是相关专业人士,而后者则依靠的是广大网民。元数据经过10年的发展,标准越来越复杂,在语义网的导向下更是从“大众的元数据”变成了“机器程序的元数据”,操作和维护成本相当高,在应用中几乎停滞不前。自由分类法的出现给了元数据新的启示,即:①简单的才是最有生命力的;②与其站在一定高度上统一控制协调而瞻前顾后,不如将权力下放并加以协调引导更有效率;③与其需要大多数人都编辑元数据,不如让人们在协作中编制自己的元数据(自由分类),以让更多的人能够省时省力地获得所需信息。当然自由分类法也不是灵丹妙药,只是给了我们启示,在元数据的发展方向上注入了新的活力。

4.2 自由分类法有助于发现认知权威

前文提到人们在自由分类的网络社区里面会模仿和借鉴其他人的标签而形成标签的稳定性,其实这种模仿和借鉴并不是随意的,每个用户都有在不同领域令他们信任的认知权威,当该用户在该领域有问题,会自然而然地转向这些人,从这些权威或这些权威认可的人那里获得信息,最终会形成一个权威链。自由分类法可看作由标签与其标引内容,或再加上用户这样一些结点组成的网络,因而可以用图论和社会网络的分析方法寻找它们的关联和性质。权威链构成的网络就可用于测量认知权威的权威度,计算每个人的相对权威,在这个链中处于越高位置的就具有越大的权威[8]。权威是依靠用户自己创造的元数据——标签来传递和表达的。因此,对自由分类法进行分析将十分有助于发现一个小圈子里的认知权威,发现这些权威会使我们对网络秩序和网络建设有更深的理解,同时也为网络数据挖掘、网络行销、电子商务等提供了一种新的途径。

4.3 自由分类法为信息检索提供了新的途径

自由分类法的产生就是为了使用户能够更好地组织和检索信息,虽然开始只是为了方便个人对信息的管理和检索,但由于大量用户的交互,表现出了足够的社会效应,具有了相当的稳定性,因而它可以作为信息检索的一个新的途径,尤其是检索网络热点。标签就像其他元数据一样,都是信息检索系统的操作对象。

搜索引擎可以很好地利用一下自由分类法,以用户搜索用的关键词为标签,在搜索的后台搭建自由分类法系统。将标签赋给用户查看的搜索结果中的网页,这样当积聚了大量的数据和指向后,用户再用该关键词进行检索时,就可返回更相关的页面,从而提高搜索的检准率和效率。

当然,我们必须明确,自由分类法只是元数据的一种,它并不是正式分类的替代,但它在组织信息和排序检索结果方面确实能很好地补充传统的分类系统。自由分类法还只是在网络的小范围内使用,网络的多变性使得其应用前景并不好预测,但它通过在美味书签(del.icio.us)、闪亮图片夹(flickr.com)上的成功运作,已表现出了强大的生命力,为网络信息的组织、共享和检索带来了很大的不同。随着新技术手段的加盟和新理念的推出,自由分类法的升级将更加快速,并必然会不断地克服这样那样的不足。因特网正在成为大众的因特网,网络信息组织也正应该成为大众的信息组织。

收稿日期:2006-07-29 修回日期:2006-09-05

标签:;  

自由分类的社会性及其利用_元数据标准论文
下载Doc文档

猜你喜欢