情报学中的序性结构初探——以Web2.0下的分众分类为例,本文主要内容关键词为:为例论文,情报论文,学中论文,分众论文,结构论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G350 [文献标识码]A[文章编号]1003-2797 (2008)03-0007-06
有序,又称秩序或序,是一个与无序相对的概念,贝纳德效应、天街现象以及电流的运动等等都是有序现象的典型表征。有序性的概念起源于自然科学领域,逐步发展并应用到了社会科学等领域。
随着互联网的飞速发展,新兴的第二代互联网(Web2.0)已经成为学术界、IT业界和广大网民所研究和关注的热点。目前,Web2.0没有公认权威的定义,它只是相对于传统互联网服务而言的一种新的服务模式:以Flicker,Craig list,Linkedin,Tribes,Ryze,Friendster,Del.icio.us,43Things.com等网站为代表,以Blog,TAG,SNS,RSS,Wiki等应用为核心,依据六度分割、XML和Ajax等新理论和技术实现的互联网新一代模式[1]。Web2.0使得整个网络信息组织的方式出现了革命性变革,信息自组织方式在Web2.0中得到了充分体现,也给情报领域的有序性的研究添加了许多新的活力。从个人网站到博客,从在线大英百科全书到维基百科站点,从门户式的标题目录到个性化的标签,无不体现着Web2.0中有序性的特征和功能。
1 信息的有序性
许多经典学术理论派都对有序性作了深入的研究。协同论创始人哈肯(HaKen)从系统演化的角度描述了有序是一种时间结构、空间结构或时间——空间结构,他认为:“一个由大量子系统所构成的系统,在一定条件下,由于子系统间的相互作用与协作,这种系统便会形成有一定功能的自组织结构,在宏观上便产生了时间结构、空间结构或时间——空间结构,也就是达到了新的有序状态。”耗散结构论认为有序性是一种新的稳定结构,其实现机理是物质与能量的交换[2]。哈耶克从经济学的角度用“秩序”来描绘一种“事态”(state of affairs),在这个事态中,众多不同的元素相互关联起来,由对在整体中占有某些时、空的部分的认识,我们可以建立起对于其他部分的正确预期,或者,起码是一种极有机会被证明是正确的预期。
在信息链的事实、数据、信息、知识、情报各个环节中,“事实”、“数据”具有典型的物理属性,而“知识”、“情报”具有典型的认知属性,而处于链条中游的“信息”,则兼有其下游的物理属性和其上游的认知属性。因此,我们便从物理和认知两个层面来界定信息环境下有序性的范畴。在物理层面上,有序性是信息按照一定规则排列而成的时间、空间或时间——空间结构;在认知层面上,有序性是信息按照一定规则排列而成的符合用户体验需求的功能结构。然而,Web2.0颠覆了过去由少数资源控制者集中控制主导的信息他组织方式,转变成了主要由自下而上的、由广大用户的集体智慧和力量重构的信息自组织方式,使广大用户在其自组织的过程中起到了更主导的作用,这也正体现了认知层面的有序性的含义,更加强调了用户的主动性,由用户自主的有序化信息。
情报结构的有序性来源于科学体系的有序性和人的创造过程的有序性,也就是说,情报的有序性结构既来自于信息、情报创造过程的机理,也来自于知识体系自身的自组织功能。该理论虽来源于自然科学、自然哲学,却由于信息的许多固有特征,被赋予了许多新的含义。
20世纪70年代中期,布鲁克斯提出了描述情报作用的基本方程式:K[S]+△I=K[S+△S]。式中K[S]表示原有的知识结构,K[S+△S]表示吸收情报以后的知识结构,△I表示知识结构吸收的或增加的情报。该方程的意义是:原有的知识结构K[S],由于吸收了情报△I,变为K[S+△S],新的知识结构形成是由于吸收情报的结果。该方程对描述情报的概念和作用是最基本的,它从情报吸收的角度阐释了情报系统从一种状态转化成为另一种状态的序化过程。近三十多年来,这个以伪数学形式表达的简单方程引起了人们的普遍关注。马费成教授将有序性作为情报学的6大基本原理之一提出,并阐述了其在情报学领域的重要地位[3]。
2 信息有序性的特点
人们已从多种维度对有序性进行了研究,本文将结合情报环境,特别是在Web2.0环境下的各种信息现象,归纳出有序性的主要特点。
2.1 层次性
系统是有层次的,从不同的角度、不同的层次上有不同的序化特征。这种分层的特征,与序化的主体是相关的,主体通过不断的聚集以及其在相应层次上的活动,形成有序的结构和功能。网站中的网络地图则是对网站信息进行序化后层次性的最典型的表现形式。而在Web2.0环境下,宏观来看,可以把信息分为微内容、分众分类、社会网络三个层次;而从微观来看,又可以从个体、社群、高级社群等层次来体现有序性。
层次性的特点主要表现在:不同层次的信息序化程度不一样,遵循不同的序化规律,而且层次间的序化行为也是相互影响、相互作用的。
2.2 可测度性
在热力学中,人们通常利用熵的变化来衡量系统的有序性的变化。一般认为,系统中负熵的输入,将会导致系统的熵减,从而使系统趋向稳定。
由于信息具有物理和认知两个层面的属性,那么对于有序性的测度,我们也可以从物理和认知两个层面来进行。
(1)在物理层面,我们可以从信息的一些特点来进行测度,通过对信息呈现出来的特征进行分析,也就是研究显性的信息。比如通过对网站链接的分析,来研究其结构的易用性问题。
(2)在认知层面,信息的有序性是隐性存在的,无法直接进行测度。我们可以考虑通过人这一主体的直接表现来间接地研究信息有序性。比如可以考虑通过信息构建、用户满意度、用户体验等来测量。
(3)综合分析方法。某些情况下,结合两个层面的特征来进行测量效果会更好。这主要是对用户行为和用户心理进行研究,并与信息系统的性质相结合起来。
在Web2.0环境下,信息有序的结构更加多种多样,隐性信息和显性信息并存,且多数是以一些隐性的规则存在的。因此,在Web2.0环境下进行信息的有序性测度,更需要运用综合的分析方法。
综上所述,我们认为情报学中的有序性是可以测度的,只是由于信息自身的特殊性,其测量的标准、方法和指标会不同。
2.3 相对性
情报学环境下的有序的相对性,包含两个层次的含义:
(1)有序是相对于无序而言的。有序与无序是同时存在的,当其中一个要素占主导地位时,就表现为某一方的特征。比如,一个系统始终都处于有序与无序的运动状态中,我们说某个系统有序,是因为其有序的成分占了主导地位。
(2)有序的相对性也是相对于用户而言的。正如我们说有序性需要从物理与认知两个层面来定义一样,由于强调有序性的认知特性,不同的人对序的理解会有所差异,一种结构对某些人而言可能有着较高的序化程度,而对另一些人而言,序化程度则可能较低。因此,在研究如何序化信息时,必须充分考察用户的特征,以提供真正个性化的服务。
在Web2.0环境下,对用户而言的相对性也表现得更为明显。由于自组织的特性,此时的序化状态不会像其他组织那样相对稳定,而始终处于一种序与序之间的“混序状态”,时而从一种无序转变成一种有序,时而又从一种有序转变成为另外一种有序(程度的加深或者状态的改变)。
2.4 显性与隐性并存
有序性的显性与隐性特征是在信息环境中才具有的特征。序是绝对存在的,但有的序是非常明显的,很容易为用户所感知,如分类法、网站地图等,人们可以方便地利用这种序进行信息检索与体验。隐性则指这种序是暗含的、潜在的,如果不去挖掘,人们可能就无法意识到这种序的存在性。例如由信息所形成的社会网络,人们通过对信息的分析才明确了这种序的存在性和价值性。这种隐性的序,具有不可估量的社会价值。
而在Web2.0环境下,更多存在的是一种隐性的序,也就是信息在认知层面上的序,要认清这种序,我们就需要从其显性的表现中去挖掘、分析,探究其深层次的意义。
3 Web2.0自组织环境下的信息序化实例——分众分类法(Folksonomy)
一种事物或一个系统是有序的,表明它在一定时间、空间或时间—空间上呈现出了结构或功能的稳定特征。Web2.0和Web1.0最主要的区别在于其信息组织传播方式发生了变化,从以前的以“拉”为主的被动式组织转变成为了一种以“推”为主的主动性组织。在这种情况下,信息的有序性更多的是由用户自主地进行组织。分众分类法是在网络日志用户中悄然兴起的一种全新的分类法。这个术语创建于2005年,是信息架构师Thomas Vander Wal将“Taxonomy”和“Folk”这两个词糅合在一起来命名一种不断涌现的现象,即用户通过他们所能找到的关键词加标签于数字信息来生成“元数据”的一种分类法。它倡导一种与传统分类法截然不同的分类主张,即将分类体系完全交给大众而不是分类权威来完成,它的发展是随着广大网络用户对共享信息进行分类的需求而发展起来的。分众分类法可使得网络上纷繁复杂的信息呈现出一种有序的现象,用户在一定程度上也会序化成一定的群体、社群。
3.1 分众分类法中的标签
正如上文所说,分众分类法(Folksonomy)是指一种社群参与人运用自由定义标签(tag)的方式进行协作分类的活动,主要机制是基于开放性元数据标准和自然语言的社群聚类。分类的原理为向社群参与者提供一种协同构建与共享各自网络资源社会标签的开放式平台,用户通过自己制定的分类标准来提交标签,由用户群体定义标签的频率来决定信息的组织方式。标签对每个人都是完全开放的,用户可以自由查看并修改自己提交的标签。
简单地说,标签可以称之为“网络关键词”或者“非结构化元数据”。虽然它跟文献中的关键词以及传统的元数据存在着不小的差异,但根本作用都是对信息、资源进行描述,便于组织、管理、共享等等。只是传统的元数据有着严格的结构、等级、标准,需要按照固定的格式去进行描述;而相对来说,标签则自由得多,用户可以根据自己对信息的理解加以标注,没有任何格式以及内容的限制,完全是基于自身认识上的。而正是不同的用户对于相同或不同的资源进行标签,形成其社会书签,便于搜索、共享等等,使得网络信息趋于了一定的有序状态。
举个例子,大多数的浏览器都有一个收藏夹的功能,可是随着信息的快速增长,用户会发现使用这种功能简单的收藏夹,无法同朋友共享信息,而且,随着收藏的信息或网页越来越多时,我们会发现在这样一个小小的收藏夹中也存在着“信息爆炸”,我们无法快速准确地找寻到我们所需要的信息。而社会书签(Social bookmarking)则是一种灵活的、可共享的“网络收藏夹”,你可以与他人共享资源,并可以通过浏览他人的书签,找寻志趣相投的人或者找到新的有趣的研究方向等等。
3.2 两种类型的分众分类法
一般来说,分众分类法被分为两种类型:宽分众分类法和窄分众分类法。
不同用户对同一网络内容进行自定义的标签示意图
3.2.1 宽分众分类法
所谓宽分众分类网站,就是浏览者对一些相同的信息资源根据其自己的认识对他们的社会书签进行tag标签。同时,他们可以在这些网站上看到对于某些特定的资源其他用户是如何进行标签的,借用他人的“思考模式”,进而对某一类信息的相关信息和其他用户对其的标签有一个更广的理解,也可以根据自己的认识找寻到更多自己需要的相关信息。宽分众分类法网站的主页中会列出现有的流行的标签,并且根据字体的大小对其流行程度进行排序,从而形成标签云。用户则可以在此基础上根据自己的兴趣、想法,建立自己的标签云。
如下图所示,系统通过对成员提交的标签进行统计,发现其最合适的关键词作为“元数据”,并对标签进行排序。通过聚类的方法自发地选出满足大多数人需要的分类标签,更好地满足用户需求,帮其更快更准地找到所需信息。
美味书签网站(Del.icio.us)就是一个集技术、娱乐、有用的信息等等于一体的社会书签的集合。它的快速发展,大部分得益于其自身的标签累计功能。这种功能随用户数量的增加而增加,所形成的大的协作框架协议就是“分众分类法”(Folksonomy)。
3.2.2 窄分众分类法
与宽分众分类法不同,窄分众分类法更倾向于个人用户。在窄分众分类法网站上,用户对自己的内容(照片、博客等)进行标签,便于检索以及他人寻找。虽然窄分众分类法相对于宽分众分类法而言缺乏社会聚合性,但是对某类特殊的资源描述却出奇的有效,甚至超过各种搜索引擎的自动抓取机器人。其重点不是在一个网络社区中推销某一类资源,而是如何使得某一用户的信息资源序化,便于查找与共享。如今,流行的窄分众分类法网站有以分享照片为主的Flickr(www.flickr.com)网站和以分享个人博客为主的Technorati(www.technorati.com)网站等。
3.3 分众分类法的优点
分众分类法具有很多方面的有点,最主要的是平面化的类目结构和多维度揭示信息资源。
(1)平面化类目结构。传统分类法具有严密的等级结构和逻辑体系,分众分类法则是平面的、非等级的。在信息爆炸的时代,如果要按照传统分类法来对信息进行组织分类,那么用户则必须首先系统地学习其体系构建,这无疑增加网民的认识负担、影响检索效率;而如果分类体系过少,就会影响分类体系的清晰度,增加网民浏览选择的负担。而分众分类法通过标签的字号大小以及颜色的不同来表示其“受欢迎”的程度,能够实现快速而自动的信息聚类,生成系列加权列表和标签云(Tag Cloud),具有较强的大众趋同性、直观性和易用性。
(2)多维度揭示信息资源。分众分类法中的标签既不同于关键词,也不同于目录和主题词,它是在对文章概括和理解基础上产生的,是对内容的个人理解上的私人标注。在制定中,其未必针对主题,可能是时间、内容或与文章主题无关的词汇,因此标签的设定要比关键词自由和方便,它可以从多个维度来揭示信息内容。对于同一社会书签的标记,是由用户定义一个或几个标签组成,没有明确定义标签之间的关系,各个标签之间的关系是平等的,但是又可以根据相关性分析,将经常一起出现的tag关联起来,而产生一种相关性的分类,它不像传统分类法和分类表,有多重明确的关系。它还能解决传统分类法更新慢、不能及时面对新出现的学科和专业术语的问题。此外,它对于非文字类资源的序化十分有用。
3.4 分众分类法存在的缺陷
传统的分类法是建立在严谨的学术逻辑基础上的,是以学术信息的汇集、梳理和查询为目的的;而tag是以个人的感性逻辑为线索,以个人所需信息的汇集、梳理和查询为目的,以个人的经验为基础来进行汇集分类。并且,对于他人或是整个分类体系而言,这种分类法是模糊的、不精确的、随意的。此外,词形的变化、拼写错误、同名异义的问题也导致了它的模糊性。同时,在分众分类法的中文运用问题上还存在着分词结构模糊,在不同的语言环境下,对语义的认知存在明显差异的问题。目前,这种分类法的组织对象也十分有限,基本上仅限于blog等社会性网站的组织和管理,而这部分信息在网络信息空间中仅是微量部分。由于受语言、风俗习惯、文化背景等的影响,在跨国界、跨时空、跨文化的信息组织和交流中仍然存在很多障碍,作为一种基于自然语言产生的新的网络信息组织方式,其发展仍然存在着诸多问题[5]。
3.5 分众分类法的信息序化机制分析
分众分类法的应用,很好地体现了Web2.0环境下的一种新型的信息自组织方式,是有序性在Web2.0环境下的具体体现。分众分类法的序化机制主要是基于以下几种特性[6]:
(1)方便易用、众多用户参与。由于分众分类法的扁平结构,节省了用户使用传统分类法所消耗的时间和认知成本,赢得了越来越多的用户,社区范围日益壮大、使得其对信息的覆盖面越来越广。Butterfield[7]曾认为,分众分类法正是由于缺少了传统分类的等级结构、同义词控制和语义准确性,才得以广泛地实施应用。自由的选择输入关键字相比起要匹配到一个预先定义的类(尤其是具有层次结构的类)要简单得多,它可以获得正确的传统分类法90%的效果,却比其简单十倍。虽然这一数据的对比并不具有完全可信性,在一定程度上有所夸张,但却形象地说明了分众分类法的简单易用性。
(2)及时反馈、多维度交流。当用户为某一资源添加标签的时候,不仅仅是单方面的行为,也是一种相互的交流。在添加或修改的同时,用户即能看到拥有这个同一标签的资源,通过浏览这一类型的资源,用户可以对这一标签有一个从全局、所有用户的更加宽广的视角的认知,增强对该标签的理解。因此,在用户添加任一标签时,他就受到其他同样使用该服务的用户的影响,同时也影响到其他用户。通过多维的多次沟通,虽然每个个人用户的认知度不同,但最终仍然可以达成全局角度的对某一标签意义认知的一致性,从而可以共享价值、合作交流。
(3)强制共享。无论在哪种分众分类的系统下,用户都被强制性地不同程度地进行资源共享。用户真正选择的标签则变得尤为重要:这些东西不仅仅是为了方便以后易于找寻的,同时也是与他人共享的东西。两种分众分类系统都具有很强的外在网络聚合性:以Flicker为代表的窄分众分类体系允许用户去指定其联系人、朋友或家人共享其资源,而以del.icio.us为代表的宽分众分类法则允许用户去订阅他人列表,同时也允许被他人订阅。这两种分众分类法的模式,并不是相互排斥的,相反地,他们对于解释分众分类法的有序都是必需的。
综上所述,分众分类法利用庞大的用户数量、及时的多维交流模式、强制的共享性,使得资源、用户趋于有序。在宽分众分类法网站上,用户在网络上寻找与自己研究兴趣相近的人(通过标签、社会书签),也可以通过浏览订阅他人资源来挖掘自己潜在兴趣,久而久之,分散在网络上的用户就会聚集成为拥有相同兴趣爱好的社群,进而形成更大的高级社群,形成有序的、便于交流的社会群体结构。与此同时,网络上的众多用户会对标签的含义逐渐形成一个共同的认知,而网络上的资源也会相应地根据其标签而聚集在一起,形成有序的、方便用户使用的内容结构。这两个过程同时进行,相互促进,由于用户的有序,导致了网络信息资源的有序,反之亦然。
虽然说窄分众分类法对于信息的序化没有宽分众分类法明显,但是它仍然有效地使得用户的资源有序,只是程度的不同罢了。同时,某些分类对于某用户而言是有序的,对于其他用户而言却是无序的,这又再次体现了有序性的相对性。
需要注意的是,分众分类法的有序也只有当用户数量、资源数量到达一定程度后才可以呈现出来,越流行(popular)的标签,其在标签云的排名也越靠前,则越能吸引更多用户,使得分散的关于这一标签的资源聚集在一起,序化程度越高。
4 总结与展望
近些年来,国内外的诸多学者都开始关注有序性在情报学中的相关应用。虽然说关于有序性的诸多理论,如耗散理论、协同学、突变论等的研究都已经相当的成熟,但把有序性作为情报学的基本理论来研究的学者却为数甚少,还没有形成十分有影响力的研究成果。笔者认为,作为情报学的基本理论之一的有序性,仍有诸多方面值得我们去探究。我们可以从至少三方面去进行更加深入的研究:第一,有序性形成的机理,即情报学中,特别是在Web2.0环境下的有序性是如何产生、形成与发展的,如何从更深、更广的角度来探究其形成的机制,而不仅仅是局限于传统的经典理论。第二,如何对在Web2.0中的更加复杂的有序性找出其合适的测量机制,进而更深层次地去评价。第三,有序性在Web2.0环境下的应用研究,有序性原理在全新的Web2.0环境下呈现出了许多其独有的特征,研究其特征及应用,更有利于我们理解有序性的基本原理及特征。