分众分类:网络时代的新型信息分类法,本文主要内容关键词为:分类法论文,网络时代论文,分众论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】 G203 G254.1
因特网上信息的分类直接影响着网络用户对信息的获取。目前主要的网络信息分类法衍生自传统图书馆学分类法,仍然以学科类目为基准,采用人工语言的标准化划分,这为因特网内容搜索提供了标准支持,并极大地提高了网络传播的效率。
最近两年,随着网络日志(Weblog,Blog)、维基(Wiki)等网络应用的推广[1],信息的采集与组织都发生了巨大变化。网络日志是一种表达个人思想和网络链接,内容按照时间顺序排列,并且不断更新的Web网页,它倡导思想的交流和共享。维基则是协同编辑、内容共享的网络知识管理系统,一般由网络用户自行上传和编辑用于共享的文章和条目。这些应用开始挑战门户网站的信息权威地位,逐渐成为因特网重要的信息来源。这时,由传统分类法衍生出的一系列规范就无法满足网络用户的需求,而一种称为“分众分类”(Folksonomy)的应用在网络日志用户群中悄然兴起。它倡导一种与传统分类法截然不同的分类主张,即将分类体系完全交给大众而不是分类权威来完成。
1 分众分类的提出
“分众分类”概念的出现晚于它的应用。当时这种应用称为分布式网络信息分类社区,源于网络用户在因特网上共享信息分类的需求。在分布式分类社区出现之前,网络日志为单个网络用户共享知识内容提供了合适的解决方案,而维基进一步发扬光大,为多用户共享知识内容提供了成熟的平台。然而,人们在共享这些信息的时候,也发现了这样的问题:个人共享的信息来源复杂,没有分类,信息获取效率低下。在这种情况下,对共享信息进行分类的需求被提了出来。
最早提供共享分类体系服务的网站叫做“美味书签”(http://del.icio.us),其服务被称为“社会性书签”,建站的初衷是建立一种类似“网络收藏夹共享”的平台,让用户共享有价值的内容网址。鉴于用户数量和地址数量逐渐庞大,分类成为网站的关键问题,其服务重心逐渐向信息分类靠拢。该网站以用户自由提交相关信息分类关键字的方式尝试信息分类,如用户提交一篇关于“海啸”的新闻地址,则可以用关键字“海啸、新闻”来界定类别。这样,网站通过基于用户提交的分类关键字建立了一种完全由用户自己搭建的分类体系。与“美味书签”类似的平台被称为分布式网络信息分类社区,目前在国外主要代表是“Del.icio.us”、“Furl”、“Flickr”等网站社区,国内主要有“天天网摘”、“博采中国”、“新浪Vivi”等网站社区。
可见,分众分类的思想来源于这种“社会性书签”服务的理念,并成为“社会性书签”主要的应用。
2 分众分类的内涵
传统意义上的分类体系称为图书馆分类(Taxonomy)体系,而采用分布式分类的体系称为分众分类体系。它是指一种社群参与人运用自由定义关键字的方式进行协作分类的活动。分类的原理是向社群参与者提供一种协同构建与共享各自网络资源标签的开放式平台,通过用户自己制定分类标准和提交资源标签来实现[2]。这种标签将包括网络内容的分类、大意与链接地址等,标签对每个人都是完全开放的,用户可以自由查看并自由修改自己提交的标签。分众分类与传统网络信息分类方法最大的不同之处在于,它并不采用严格的分类标准,其分类全部由用户直接提交,分类的形成过程完全是自发的。分众分类的主要机制基于“开放性元数据标准”和“自然语言社群聚类”。
2.1 开放性元数据标签
元数据(Metadata)是“关于数据的数据”,它是提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。元数据用于描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。
都柏林核心(Dublin Core Metadata Initiative),简称DC元数据集,是对图书馆分类元数据标准(Machine-Readable Cataloging,MARC)的简化和扩展,是在充分吸纳了图书情报界所有编目、分类、文摘等经验,同时在利用计算机、网络的自动搜索、编目、索引、检索等研究成果的基础上发展起来的,其最大特点是数据结构简单,信息提供者可直接编码。DC元数据集是网络信息分类元数据的主要标准[3]。
分众分类采用的分类标签建立在DC元数据标准基础上,但与图书馆分类体系不同,用于分众分类的标签主要采用其“主题关键字”元素(在DC元数据集中采取〈dc:subject〉〈/dc:subject〉标签表示)。“主题关键字”元素是分众分类标签的核心。其最大特点是开放性——对关键字的选择没有任何限制。与图书馆分类体系给用户提供一个相对较窄的命名空间相比,分众分类给成员提供的是一个完全开放的命名空间。以“美味书签”为例,如果用户要提交一个关于Blog新闻内容的标签,用户需要按照分众分类的要求提供一组该内容所属主题的关键字,关键字完全由用户自己决定。比如将一篇题为“UU移动语音Blog新鲜上市”的新闻设定关键字,可以选用“Blog、语音、移动技术”等词汇,并得到如下一组采用XML语言编写的RDF识别标签:
〈item rdf:about=“http://www.pconline.com.cn/yp/csdt/0508/ 687609.html”〉
〈title〉UU移动语音Blog新鲜上市〈/title〉
〈link〉http://www.pconline.com.cn/yp/csdt/0508/687609.html〈/link〉
〈dc:creator〉作者〈/dc:creator〉
〈dc:date〉2005-08-12T08:16:26Z〈/dc:date〉
〈dc:subject〉Blog语音移动技术〈/dc:subject〉
〈taxo:topics〉
〈rdf:Bag〉
〈rdf:li resource=“http://del.icio.us/tag/Blog”/〉
〈rdf:li resource=“http://del.icio.us/tag/语音”/〉
〈rdf:li resource=“http://del.icio.us/tag/移动技术”/〉
〈/rdf:Bag〉
〈/taxo:topics〉
在上述的〈taxo:topics〉〈/taxo:topics〉标签中提供了Del.icio.us中以“Blog、语音、移动技术”为关键字的标签聚集页面,其中包括所有采用该关键字为主题的标签,标签的数量取决于社群用户的选择取向。这样形成的分类页面具有很大的松散性和可定制性,反映社群的共同理念,容易得到大多数参与者的采纳,因此,这种标签称为开放性分类标签。
开放性分类标签是根据个人思维的开放性与发散性对分类方法进行的颠覆性改造。从心理学角度出发,人们会出于自私心理表现出不愿共享自身知识的倾向,使得有用的元数据仅存在于个人信息领域,没有因为共享而增值。将分类分发到社群每个参与者,再形成松散的可定制分类,可以解决这种共享困境。用户既不需要独立构建庞大的分类体系,也无需强制按照既有分类标准分类,并且分类标准可以完全按照个人需要而定,从而调动用户参与的积极性。
2.2 自然语言社群聚类
传统分类体系一般采用特别创造出来的人工语言来命名类目,并且用分类号作为标识系统。人工语言是指许多因为特定目的与用途,为了某特定使用族群,而人为创造出来的语言。自然语言则是相对于人工语言而言的,它代表自然地随文化演化生成的语言,是人类交流和思维的主要工具。而网络信息分类体系一般则采用自然语言来命名类目,并且直接用词语作为信息标引和检索的标识,大大降低了使用者对分类体系的进入门槛。但目前网络上主流的信息分类体系仍保持着传统分类法学科聚类的特点,只不过是将学科聚类演化为主题聚类,用更通俗的自然语言来描述元数据,分类体系依然采用统一标准化的方式进行,难以应对互联网信息飞速变化的特点,也难以满足不同文化层次和知识背景的用户的需要。
分众分类得以实现,主要是采用社群成员共同建立的标准来进行分类体系的建构。成员提交的标签可能千奇百怪,但系统很容易通过统计方法在这些关键词中发现最适合的元数据。分众分类的分类标准是——“对于同一内容,采用使用频率最高的关键字标签来作为其分类元数据”。例如,在“美味书签”中,对同一内容可能存在如图1[4] 所示的标签分布。
容易看出,Tag2采用的关键字使用的频率最多(13次),系统将采用Tag2作为这一内容的元数据标签。这种聚类方法实际上是通过自发过程选出满足大多数人需要的分类标签,与主流网络信息分类体系相比,可以更好地满足用户的需求,帮助用户更好地理解信息分类,从而更快更准确地找到需要的信息。我们将这种有别于学科聚类、主题聚类的方式称为社群聚类,它是分众分类机制的核心部分。
基于以上两点的分众分类体系,其一般实现机制可以简单地用图2表示,作者仍以图1中的例子为例。
可见,分众分类的体系是一种基于用户提交关键字的分类,它反应的是整个社群的群体意识倾向和知识背景,具有不同成员结构的社群对同一网络内容就可能形成不同的元数据标签。基于这种关键字的分类,可以凸显出社群成员关心的热点信息,形成一个特别适合本社群成员特点的信息分类体系。可见,这种定制化的灵活分类方法非常适合目前个人因特网时代的信息特点,是一种更为有效和实用的分类体系。
3 分众分类的缺陷与改进
与其具备的明显优势相比,分众分类的缺陷也相当明显。系统存在的主要缺陷来源于其主要特点——开放的元数据标签。由于语言本身的模糊性和复杂性,系统为满足社群成员思维开放性要求而对分类关键字不加限制,必然会导致以关键字为核心的标签的模糊性。例如,在“美味书签”主页上搜索以“filtering”这个词为关键字的分类,得到以下内容[5]:
(1)Last.FM-Your personal music network-Personalized online radio station
(2)InfoWorld:Collaborative knowledge gardening
(3)Wired 12.10:The Long Tail
(4)Oh My God It Burns! Practical Applications of the Philosopher' s stone.For drunks.Brita filter makes bad vodka into good vodka
(5)Introduction to Bayesian Filtering
“filtering”这个词意思较多,在内容(4)中它表示用过滤器纯化伏特加酒的一种工艺,在内容(5)中则表示一种贝叶斯统计分析方法。显然这样的分类使得filtering这个类别的意义显得非常模糊,因为它混杂了两个相关度极低领域的内容。
为解决这种语言问题带来的模糊性,需要在分众分类中引入一种同义词控制(Synonym Control)技术来优化分类体系[6],使其达到用户使用的最优效果。同义词控制系统采用基于语义的人工智能技术,系统基于语义分析方法自动对相同或相近语义的标签进行分类统计,将语义上相近或相同的关键字合并,再进入社群聚类阶段进行使用频率统计。更高阶的同义词控制的目标就是智能化地识别出类似上面例子中的低相关度问题,采用语义相近或相同的其他关键字来避免标签的模糊性,保证分类体系的清晰有用。目前基于XML的同义词控制尚只能进行一些简单的同义分析,不能完全解决标签的模糊问题,在未来的语义网平台上,有望实现更加智能化的同义控制。
4 分众分类的细分与企业级应用可能
目前对分众分类的应用主要还集中在类似“美味书签”的这种社会性书签服务上,它在对网络信息进行分类中表现出来的优势已经越来越突出[7]。其在因特网应用蓬勃发展的同时,分众分类的企业级应用也开始进入许多全球领先企业的视野。在这里需要将社会性书签这种网络应用与即将到来的企业级应用区分开来,我们将分众分类分为两种,分别是宽分众分类与窄分众分类。
宽分众分类(见图3[4])拥有大量异质的用户,这里的异质是指用户在知识结构和兴趣领域上具有很大的差异性,每个用户都可能用自己的语言对社区中现有或尚未添加的内容提供独特的标签,每一个内容或分类都存在着相当多的标签来描述。宽分众分类的目的主要是建立内容广阔的平台,供用户在一个比较大的信息或知识范围内浏览查询。宽分众分类体系可对热点信息做出反应,通过这种方式可以为社区吸纳更多的用户,用户的增多又可以反过来促进社区对热点的反应。另一个方面,分众分类的思想建立在大众参与分类体系建构的基础上,只有对同一内容存在大量不同的标签,系统才可能通过同义词控制等方式得出最优化的分类结构,一旦参与人数不足,分类的片面性就很容易暴露出来。由于其面向大众的特点,宽分众分类是目前多数提供社会性书签服务的网站的主要选择模式。
窄分众分类(见图4[4])与宽分众分类最大的不同在于用户特质。窄分众分类并不需要拥有数量庞大的用户群,同时用户也无需异质,更多时候,用户在知识结构和兴趣领域上具有很大的同质性。这是因为,窄分众分类的目的是对某一领域或专业的信息或知识提供共享平台。社区成员基于对同一领域或专业的兴趣加入,内容的提供者有时候就是社区某个成员,他给予自己提供的内容一个标签,期望在社区中存在和自己具有共同兴趣,可以共享相关信息或知识的其他成员。在这里,窄分众分类已经不再是一个构建大众分类体系的平台,而是在较窄范围用户中共享专业化信息或知识的平台。这种模式有利于社群中的知识共享的实现,也是将分众分类引入企业级应用的契合点。
基于对窄分众分类的理解,使基于分众分类的知识共享体系成为了可能。目前一些IT业的领先企业,如IBM公司,已经开始尝试将这一理论通过软件环境来实现。这种体系的建立,将有利于在组织内快速、高效、自发生成最优组合团队,在高符合度知识结构下进行协作。
周荣庭,郑彬,中国科学技术大学科技传播与科技政策系 合肥 230026