元数据、免费分类(民俗分类)和大众互联网_元数据论文

元数据、自由分类法(Folksonomy)和大众的因特网,本文主要内容关键词为:分类法论文,大众论文,因特网论文,自由论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G350

2005年初,自由分类法(Folksonomy)作为一种由用户参与和主导的信息组织方式,在Yahoo等门户网站迅速流行,与长尾(The Long Tail)、简单信息同步(RSS),博客(Blog)、异步JavaScript和XML(Ajax)和播客(Podcast)共同构成下一代因特网(Web 2.0)的核心要素,也证实了元数据新的应用模式。它扬弃了以往元数据事先确定大纲的方式,用户自由选择关键词甚至颜色来分类信息,说明元数据可在简单的基础上扩展应用。

1 自由分类法

自由分类法是用户自发的用标签(Tag)对感兴趣的资料进行分类,并与他人共享标签的过程和结果。如下场景描述了自由分类法的使用:李明(化名)上网发现了一张大海的图片,他点击一下鼠标,在图片对应的网址和名称下增加“Sea Blue 2005”3个标签后保存。当30万人这样做后就有了图1,图中文字的大小和对应图片的数量多少呈正比。

1.1 特点

自由分类法的特点是自由、共享和动态更新。

(1)自由指任何人都可以对其感兴趣的内容进行标识,提供一个或者多个标签,或什么也不做,仅浏览他人的标签。人们不必了解DCMI修饰符,也勿需查询杜威十进制分类法(DDC)。

(2)共享即任何人对内容进行标注后,他人可立刻看到这些标签,如果觉得标签不合适,还可以增加或者修改,常用的标签按字顺排列,形成上面的标签总图(TagCloud)。用RSS的方式订阅感兴趣的标签对应的资料,或发现志同道合者和他们的标签。

(3)动态更新是随着人们使用不同标签标识内容信息,标签总图中一些标签字号变大,一些标签逐渐“淡出”人们的视野,这种更新使人们可随时发现当前人们的“热点”和“走势”。

自由分类法便利了信息组织和共享,但是缺乏等级结构、欠精确和易被滥用。按照“差的就是好的(Worse is Better)”之观点[1],自由分类法更容易被大多数用户接受使用。原因是它比传统的等级分类和分面分类法更接近大众。自亚里士多德提出科学分类,西方一直采用“从根到叶”的“树形”结构或等级结构进行分类,并确定了从抽象到具体,从宏观到微观的逻辑次序;在知识激增的20世纪初,印度图书馆学家阮岗纳赞发明了分面(Facet),利用分面的灵活组合更准确的表达知识,但二者均限于专业人士使用。因特网信息的“爆炸性”增长挑战了等级结构和分面分类的极限,即使针对计算机信息检索发明的叙词表也难以应对,昂贵的维护费用和学习成本、漫长的更新周期和复杂的使用,使非专业用户开始转向自由分类法。

1.2 研究进展

自由分类法在2005年上半年引起广泛关注,并迅速在Technorati、MySpace等多个系统中推广应用。亚当·麦斯(Admam Math)在2004年12月撰文提出以往由专业人员“控制”的元数据编辑和管理,将逐渐让位于网络社区共享式的自由分类法[2];克雷·西克(Clay Shirky)认为受控词汇昂贵而复杂,自由分类法是“有胜于无(Better than Nothing)”的方案,进而指出本体论(Ontology)“可操作性”欠佳[3];大卫·温博格(David Weniberger)构建了“知识之树”来界定分类法的不同类型和发展阶段,并将标签和自由分类法比作从树上飘落的“知识树叶”[4];雪丽·鲍尔(Shelly Powers)是自由分类法研究的“集大成者”,对自由分类法的各种观点一一批判[5];托马斯·范德沃(Thomas Vander Wal)将其分成广义自由分类法和狭义自由分类法[6];路易斯·罗斯菲尔德(Louis Rosefield)认为自由分类法缺乏检索功能,精确性不强,不足以解决目前元数据面临的问题[7]。国内的郑云深、洪波(Keso)和文心等博客也对自由分类法的统计分布,商业应用方面进行了有益的尝试和探索。自由分类法已不再停留在概念上供学者讨论和用户选择;而是如何更好的应用,在什么范围内应用了。

自由分类法是分类法的未来吗?自由分类法是“重量级应用(Killer Application)”吗?或者它会从根本上改变现有的因特网吗?这些已超过单纯的分类,进而扩展到网络本身,涉及到文化、语言、社会学、搜索引擎、心理学等诸多方面。它提供了新的视角,来看待如何组织网络信息,以及用户的参与对应用系统成功的影响。尽管如此,大卫·温纳(David Winner)等人也认为自由分类法不过是另一种“元数据”,用户只会“一时新鲜”,过后就会“撇在一边”不用了,因而不会长久。事实也证明绝大多数因特网的用户甚至不知道如何作标签(Tag),但这并不妨碍他们使用因特网。

1.3 典型应用

美味书签(http://del.icio.us)是美国人约书亚·夏克特(Joshua Schachter)设计并开发的网络书签管理系统。他允许用户以在线方式管理自己的书签,并与他人共享书签。美味书签最大的特点就是采用自由分类法来标注、发布和共享网络书签,并不断加入了标签分组、推荐等新的功能,它用REST方式公开自己的应用程序接口(API),也催生了Grafolicious等多项扩展应用。图2是笔者的美味书签中标签为“Folksonomy”的部分网络书签(左侧,按时间排序)和标签(右侧)。

美味书签无疑是2005年上半年因特网最“靓丽”的风景之一,约书亚·夏克特再次显示了“蚂蚁撼大象”的创新实力。从众多的模仿者和扩展应用来看,美味书签也展示了因特网是人的因特网,而不是由软件或应用系统或标准规范“主导”的。在社会化软件(Social Software)研究者的眼中,美味书签体现了“弱连接(Loosely Coupled)”的魅力;Web 2.0的倡导者则拿它来说明有“意义(Meaningful or Semantic)”的因特网;而搜索引擎爱好者则从它的标签总图(TagCloud)中重新发现了持续获取有价值资讯的路径等。那么自由分类法的“成功”对元数据的发展有什么启示,元数据因而应该在哪些方面进行改进呢?

2 自由分类法改造元数据

如果说元数据是“关于数据的数据(Data about Data)”,那么自由分类法就是“关于数据的标签(Tag about Data)”。两者的出发点都是组织信息以便利用户的使用,但前者是通过专业人士和标准化推行,后者则更多依赖大众的参与和“重量级应用”。在不确定的因特网面前,专业人士的“万全之策(One Fit all Solution)”往往将简单的问题复杂化,随着因特网上信息内容的快速增长,信息类型的日益复杂化,任何标准不但有“滞后”的风险,而且面临被公司或者产品“垄断”。目前无论是元数据,还是自由分类法都还没有从全局或者根本上解决因特网信息的组织问题,也许有组织的因特网只是少数人头脑中的“幻觉”,信息组织只是在有序和无序之间保持某种动态的均衡[8]。

2.1 都柏林核心集(DC)元数据的发展和困境

图书馆员有最早的元数据方案(MARC)和专业的实施细则(AACR 2),在因特网以前就已开始使用元数据来整理图书、期刊等各种资料,并且对应一系列国际标准(Z39.50 ISO2588等等)。1996年推出DC的目的,除了简化图书馆员编目,更重要的是降低学习成本,鼓励用户参与,并且促进应用系统之间的互操作。10年后回顾这三个目标,却发现事与愿违,“南辕北辙”了。

(1)图书馆员将DC元数据不断复杂化。首先是增加修饰词(Identifier),然后是类型词汇(Type)和管理元数据,最后又发展到元数据登记系统(Metadata Repository)等等。从每一步看,当时的情景和需求都觉得是无可厚非,理当如此,其结果是目前Google收录的80亿个网页中,有DC元数据的不到1%。从“Data about Data”的角度来看,DC的失败是过于关注前一个Data,而忽视了用户真正需要的是后一个Data,而获得后一种Data的手段越来越多,DC不过是其中的一种;

(2)语义网引导DC元数据偏离了大众。从“大众的元数据(Metadata for the Masses)”变成了“机器程序的元数据(Metadata for the Robot)”。语义网的基本思路是用XML/RDF标准格式编码,并引入推理机制来保证机器程序(Robot)能够智能的处理海量的信息。处理因特网上海量信息的方向是对的,但是将大众置于单纯消费者的位置,在“昂贵”的元数据基础上运行机器程序,导致语义网在理论上成功但在实践中却“停滞不前”[9];

(3)DC元数据面临严重的不合理使用(Abuse)。DC的主要应用是以“〈Meta〉”标签的方式嵌入到网页的头部,这些标签一般由网页的制作者编辑和添加。搜索引擎的机器抓取程序在索引网页是会参考或者抽取标签提供的关键词。网页的制作者为了提高网页在搜索引擎结果中的排序或者使更多的检索词汇可搜索到网页,往往在标签中添加许多同网页不相关,但又十分“热门”的词汇以提高网站或者网页的排名。无论是有意还是无意,上述作法使DC元数据的客观性受到挑战,Google等搜索引擎逐渐以分析页面之间的链接来判断网页的价值,并形成类似PageRank的排序算法,DC元数据的使用空间进而局限在图书情报领域。

2.2 自由分类法对元数据的增值

自由分类法虽然也存在滥用风险,但在使用和控制方面比元数据要简单的多,加上它面向因特网大众,简单易用,从如下3个角度对元数据实现了增值:

(1)从导航到共享:从前元数据的制作由专业人士负责,其主要功能是提供一个浏览和导航的结构;而自由分类法则将元数据的制作和使用全部归于大众,并将元数据的共享作为核心和公共价值的体现;

(2)从复杂到简单:为了最大限度地吸引用户的参与,自由分类法简化很多,简化的界面,简化的操作和使用,并通过标签总图的方式来显示标签的变化情况;

(3)从生产到消费:元数据推行的前提是大多数人编辑元数据,而自由分类法的目的是大多数人能够使用标签(而不是贴标签),正所谓“有好于无(Better than Nothing)”。

自由分类法并不是信息组织“灵丹妙药”,和元数据一样面临诸多挑战,无法像电子邮件、即时通信IM和RSS那样成为因特网的事实标准。

(1)首先是如何应付更多的对象。自由分类法如何对人(People)、地点Place和任务(Task)等复杂的对象进行有效标识和共享,虽然目前像43thing.com等网站都进行了有益尝试,但前景并不明朗;

(2)其次商业应用前途不明。虽然多数人承认自由分类法在管理企业内部信息,促进知识管理方面有明显的优势,甚至连IBM公司都宣称在内部网开始利用自由分类法组织企业资讯,一些内容管理软件(Drupal)和网志撰写工具(Wordpress)亦纷纷支持自由分类法,但至今自由分类法的商业成功案例较少;

(3)第三是自由分类法提出了基于大众互动的信息架构,这种信息架构依赖于尽可能多的用户参与,并且无法事先确定细节,这对原有的网站可获得性(Accessibility)提出新的问题;

(4)最后也是最关键的是如何应对垃圾信息(Spam)和不合理使用(Abuse),目前自由分类法的做法是交由用户自行鉴别。

2.3 案例:Flickr Interestingness(有趣)游戏和用户的参与

闪亮照片夹(Flickr)最早是网络游戏的外挂客户端,站长斯图尔特·巴特菲尔德(Stewart Butterfield)2004年初将其改造成网络共享照片夹,由于对标签(Tag)或者是自由分类法的创新性利用,以及独特的大型网络角色扮演类游戏的运作思路,短短1年它就成为因特网最成功的照片共享服务站点并被Yahoo公司收购。Flickr善于倾听用户的反馈,并不断将自由分类法的最新发展应用到服务中去,它使人们通过自由分类法和标签总是能获得“惊喜”,体验到前所未有的“探索”乐趣,更有人称之为“大型网络角色扮演类游戏“MMRPG”,从而使用户在参与共享的过程中活动乐趣。CNET认为“考虑到Web上存储着数以十亿计的文件,给它们‘贴标签’通常被认为是不可行的。Flickr通过征集数以千计的志愿者解决了这一问题”[10,11]。

3 因特网对自由分类法的需求

因特网是一个整体,由无数终端连接而成的“虚拟世界”,元数据和自由分类法,作为知识组织手段,只能在有序和无序之间获得动态平衡。当蒂姆·伯纳斯-李(Tim.Berners-Lee)发明万维网(WWW)的时候,它仅是科学家的交流工具;比尔·盖茨(Bill Gates)控制了浏览器(Internet Explorer),因特网成为商人赚钱的场所,但真正的因特网不仅可作科学研究或者电子商务,而且是大众交流的场所,是理查德·斯托尔曼(Richard Stallman)倡导的开放世界(开放源码、自由精神和开放文化)。所以说因特网是大众的因特网,大众的需求决定了自由分类法的发展方向[12]。

3.1 因特网已成熟,持续完善中

无论是莫尔定律,还是Web2.0和语义网络,都不能改变的事实是:由HTML,HTTP和URI组成的因特网已经成熟,任何新的概念、技术和重量级应用只能在因特网的局部完善,而无法对总体架构产生革命性的影响。无论是洛斯·阿拉莫斯(Los Almos)的科学家,还是华尔街的金融家,他们都和印度加尔各答的学生一样使用同一个因特网,只是带宽和界面不同而已。因特网成为继电话、电视之后新的传媒,让整个世界的沟通渠道更加丰富,它是信息共有(Information Commons),全人类的公共物品并传之于后世。对自由分类法,首先是如何适应一个用于谈话的因特网问题,然后才可以考虑如何在局部完善和改进。

3.2 大众的参与是技术成败的关键,而不是唯一因素

在Google以前,Excite等搜索引擎总是设法将用户“留”在他们的网站中,而Google则不限制用户的行为。它通过出色的搜索性能成为用户的首选搜索入口,从而最终赢得用户。Google、Amazon和Ebay均公开其应用编程接口(API),允许软件编程人员调用其功能,而现在的网页设计师还在利用Flash图片、Javascript代码等技术为用户设计“精致而繁琐”的使用界面。同样是照片共享软件服务,Ofoto等不断的降低价格吸引用户,并把服务限制在注册用户,而Flickr理智地请用户决定如何共享照片并一样开放应用编程接口(API),原因就在于前者的商业模式还停留在收费服务,而Flickr已经将目标定位在个性化市场(长尾巴市场The Long Tail)。用户自己控制着因特网,访问哪个网址?点击哪个链接?都由用户自己决定,而不是网页设计师和软件编程人员。象RSS和自由分类法将控制权尽可能让于用户而专心提升界面的易用性和软件的功能,在不确定性的环境中与用户互动是未来唯一的选择。

3.3 Wikipedia的启示:我们是因特网

维基百科是自由的百科全书,为国际性的自由的开放内容的百科全书协作计划,其目标是为这个星球上的每一个人自由的提供,由他们的语言所书写的,世界知识的总和。它由吉米·威尔士(Jimmy Wales)和莱瑞·辛格(Larry Sanger)于2001年1月创建;随着成千上万的志愿者加入,到2005年8月,条目总数超过160万条,语种超过100种,其中英文条目超过60万条。面对维基百科的成功,人们不禁要问:为什么不是微软(Encarta百科全书和雄厚的资金),或者大不列颠百科全书(最大规模专业的编辑队伍和最长的编辑历史)呢?答案是过去的成功不能保证未来的成功,金钱无法购买创新,大众的参与才是项目成功的决定因素[13]。

4 结论

自由分类法并不是一成不变的,或者说它刚刚开始,无论在名词的准确定义,还是应用范围,它尚有广阔的发展空间。同时它也是快速演化和升级的,随着大众持续的需求和新的技术手段的加盟,它推陈出新的速度要远远快于目前元数据和语义网,成为目前因特网的热点研究方向,随着更多的因特网用户和更快的因特网的出现,可以预计它会不断的克服自己的缺陷,如不够精确,多语种支持不够,垃圾标签的处理等问题。在用户充分参与的前提下,自由分类法可提高知识组织效率,个性化的需求和市场使元数据和数据更密切的融合。自由文化的兴起,使创新跨越了学科、国界、文化和时空,新的因特网的一代,正在用鼠标和键盘继承和发扬民主和自由的精神,所以:“不要问因特网能带给你什么,而要说你能为因特网贡献什么?”

标签:;  ;  

元数据、免费分类(民俗分类)和大众互联网_元数据论文
下载Doc文档

猜你喜欢