网络信息自组织视角下的Folksonomy优化,本文主要内容关键词为:视角论文,组织论文,信息论文,网络论文,Folksonomy论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔分类号〕G254.1
1 引言
Web2.0的出现标志着互联网由过去单向的、面向操作的技术平台转变为互动的社会化空间。Web2.0不仅给网络用户带来了卓越的信息体验,而且通过标签和大众分类法(Folksonomy)的应用将网络话语权赋予了网络个体,从根本上转变了网络用户的角色,实现了网络用户由过去被动的信息接受者到信息发布者与接受者为一体的转变[1]。随着网络草根阶层话语权的开放,互联网上的信息内容更加复杂多样,信息数量急速膨胀,这种变化将进一步加深原有信息组织方法和搜索引擎对网络信息组织“力不从心”的困境。作为Web2.0的典型应用,标签和大众分类法不仅代表了网络用户通过标注行为来收集、整理和共享网络信息的需求,而且凭借其自身特点为网络信息组织提供了一个新的视角,引发了关于网络信息组织的新思考。
2 网络信息自组织与大众分类法
2.1 网络信息组织的分类
自网络诞生以来,人们就不断探索网络信息有效序化的问题,比如对原有主题法和分类法进行网络化改造,创造面向网络的DC元数据体系,开发基于关键词和后控词表的搜索引擎以及设计可以提高检全率的元搜索引擎,等等。然而,网络信息组织是一个非常复杂和巨大的工程,仅依靠少部分人采用现有方法是无法应对网络信息资源变化的。
国外学者Adam Mahtes[2]通过区分元数据生产者提出了网络信息组织的三种方式:①图书馆ICP服务商和其他信息机构提供的检索目录;②作者创建的元数据;③用户交流和共享产生的信息描述。这样的划分在原有信息组织环境中有积极意义,但在Web2.0时代,第二种和第三种划分方式在主体性质上已失去了意义,因为作者即是用户,用户即是作者。如果从组织语言的层次来分,还可以分为这样三个层次:①宏观组织方法,由权威信息机构和专业人士创制的通用组织语言体系构成,如网络版中图法、人大法和DC等;②中观组织方法,由一般网络信息机构提供的组织语言体系构成,如Yahoo、Sohu等网站的主题分类目录;③微观组织方法,由网络个体的信息标注行为产生的元数据体系构成,比如大众分类法。这种网络个体的自我信息组织伴随着Web2.0的出现而兴起,是一种普遍而又积极的网络微观层次的信息自组织现象,简称为网络信息自组织。
相对于网络信息自组织,网络信息他组织指的是专业人士利用严格的组织语言对网络上各种信息资源进行序化、加工和整理的过程。因此,宏观和中观网络信息组织就可以纳入他组织的范畴。
2.2 网络信息自组织特征
网络信息组织中的自组织特征从局部个体来看,是一个源于自我兴趣的、基于自然语言的、自发性的信息组织过程,结果是生成元数据个体;从整体现象来看,是一个与经典系统论相吻合的、动态的、自我进化的过程,结果是形成基于元数据的组织语言体系。这里所说的网络信息自组织,与计算机领域的自动化组织不同,也与以前的互联网宏观信息自组织提法有所区别,它产生于微观个体的信息行为,具有明显的社会性。系统论中的协同学认为,一个开放系统从无序到有序转化的关键在于其大量子系统之间发生的“协同作用”[3]。网络信息自组织不能只依靠计算机自动化处理,也不能完全依靠网络大众偶然的、非理性的信息行为,还需要有网络个体之间的社会性协同机制。Web2.0给网络带来了更加强大的社会性,为网络信息自组织的形成提供了可能性。因此,网络信息自组织存在的条件可以归纳为三个,即:庞杂无序的信息,大量自由个体和自由信息行为以及社会性协同机制[4]。其中最后一个协同机制是网络信息自组织的动力机制[5]。
社会性协同机制是网络信息自组织形成和发展的必要条件,也是最重要的条件。前两个条件在混沌的网络信息自组织过程中就已经出现,而网络信息自组织真正走向有序是通过引入切实有效的社会性协同机制。协同的过程包含了信息个体与群体之间的博弈,协同的平台主要是涉及各种主题领域的网络信息系统,协同的结果是得到关于某一资源较为一致的描述。大众分类法是Web2.0出现以后,网络信息自组织发展的必然结果,也是大量网络用户在管理网络信息资源过程中经历无数次协同的结果。
2.3 大众分类法与自组织
自Thomas Vander Wal[6]于2004年首次提出大众分类法概念以来,国外对大众分类法进行了广泛深入的研究,国内毛军[7]、梁桂英[8]、余金香[9]等一批学者也提出了不少有代表性的认识。笔者认为,大众分类法本质上是一个内嵌于网络信息系统的社会化标签系统,也是一个基于自然语言的松散的元数据发布共享系统。这里的网络信息系统可以是社区网络、Wiki系统、博客系统等形式。
大众分类法的形成主要表现为大量网络用户在开放的信息系统平台上自发地运用基于自我认知和社会认知的自然语言(即标签)对感兴趣的内容进行描述性标注,通过标签的聚合和关联,并依靠标签对资源的映射功能实现网络资源的共享,从而实现个人和社区的网络信息管理。大众分类法的形成过程就是一个典型的网络信息自组织过程,其内在的协同机制表现为对标签的社会性协作过滤。
在协作过滤过程中,较为热门的标签会在标签云图(tag cloud)中以醒目的方式推荐给其他用户,该标签的认知度将随之不断提高,而那些较少被人过问的非热门标签随着时间流逝会逐渐淡出人们的视野,并最终以“协作过滤”的形式被用户遗忘和抛弃。“热门”与“淘汰”标签影响着用户个体和群体的标注行为,这种情况可以理解为标签选择利用过程中马太效应影响的结果。在这个优胜劣汰的过程中,那些利用率高的少部分标签慢慢积累下来,形成了核心词汇,从而使大众分类法本身具有了一定的稳定性。作为一个标签元数据系统,大众分类法因为受到大量微观个体信息行为与宏观协作模式的制约作用两方面影响,所以具备一定的动态自我进化功能。
标签和大众分类法是网络信息自组织发展的产物,标志着网络信息的组织主体已经由专业信息机构扩大到一般社会机构和一般网络用户,网络信息组织的方式也发展到了专业机构组织与网络大众自我组织并存的状态。
3 大众分类法的特征分析
3.1 主要特性
大众分类法除了具有典型的平面化结构之外,还具有自由性、社群性、动态性、共享性、标签稳定性等特性。其中平面化、自由性和社群性等一些特征是原有信息组织方式不具备的。
3.1.1 平面化结构 传统分类法具有严密的等级结构和逻辑体系,大众分类法则是平面的、非等级的,词与词之间是网状关系。平面化特征是自然语词简单堆聚的结果,为简易信息组织和自由沟通提供了便利。
3.1.2 自由性和社群性 自由性指任何网络用户都可以自由地创造、共享和查看标签。自由性的存在调动了网络用户积极性和能动性,为网络信息组织注入了活力。Web2.0给互联网带来了更加强烈的社会性,而大众分类法更多表现出社群性,因为其反映的是某个网络社区群体的知识背景和认知倾向。不同的网络信息系统可能会产生不同的大众分类法,这主要取决于网络社区的性质以及该社区用户的兴趣、爱好、文化层次、语言习惯和认知水平等因素。社群性的存在,导致了网络信息分而治之的组织倾向。
3.1.3 动态性和共享性 大众分类法由用户、标签和资源三个元素及其相互关系构成,三者间多维映射的互动关系使大众分类法结构不断发生动态变化。新词汇、新标签不断进入大众分类法系统,可以方便网络用户及时发现和跟踪社会“热点”、舆情“走势”等。大众分类法通过将标签显性化共享,搭建了用户与信息资源之间的桥梁,不仅提供给用户更多的相关资源,而且为用户发现志同道合者和为网络社群交流提供了便利。
3.1.4 标签稳定性 标签稳定性来源于大量用户对标签的社会性协作过滤机制。Adam Mathes[10]提出大量标签遵循负幂分布,即少量的标签(一般为热门标签)被大量的人使用,大量的标签只有少数人使用,更大数量的标签只有一到两个人使用。苏瑞竹和欧阳剑[11]在研究中指出,约80%用户的标注信息采用了约20%的标签,然后是约20%用户的信息采用了近80%的标签,而后者则是典型的长尾分布。惠普实验室的研究人员发现,如果某一资源被标引次数超过100,那么与该资源相关的标签在数量和形式上会趋于固定[12]。这些被大多数人使用的“少量标签”积累下来,便形成了大众分类法中较为稳定的核心词汇。
大众分类法的特征源于其特殊的形成机制,虽然与已有的分类语言相比具有简单易用、对新事物反应敏感的优势,但它也存在一些与生俱来的缺陷。
3.2 主要缺陷
3.2.1 标签语义的模糊性 大众分类法是一种基于标签语法层次的简单聚合分类,因此,同一标签能够映射出不同语义的资源,再加上语言本身的复杂性和用户标注的随意性因素,信息组织的清晰度和资源查询的准确度都会降低。尽管一些门户网站和社区网络提供了基本分类目录体系用以梳理信息资源,但是这种分类体系过于粗浅,无法减轻网民浏览和查询信息的负担。
3.2.2 语法结构杂乱,缺乏近义异形词控制 含义相近的语词经常被用户用来标注同一个资源,相似资源总是分散在多个近义异形标签下面。这主要由大众分类法的自由特性引起,周荣庭,郑彬[13]认为,系统为满足社群成员思维开放性要求而对标签关键字不加限制,再加上标签语义的模糊性,必然会进一步恶化标签体系的混浊状况。这种完全自由的标注行为和语词缺乏控制的情况正是传统信息组织方法极力避免的,大众分类法中纯粹自然语言的标签无法解决近义异形词滥用的问题,也会干扰大众分类法的发展和应用。
3.2.3 标签粒度过低 标签虽然能够支持单词或词组的索引和检索,并侧重于对标注对象局部内容的揭示,但如何用复合词组揭示标注对象表达的更为深层的特定含义,是提升大众分类法性能的关键问题。现有标签系统不注重对包含特定意义的复合词组的支持,造成无法运用一些单义复合词组来确切表示文档内容,比如“中国特色社会主义”,把其中每个单元词分开来看都无法表示整体的含义。
3.2.4 共享受制于地域语言文化差异 大众分类法的标签语词直接来源于网络用户的自然语言,不同省份、民族地区、语言文化区域和各个国家的用户都在创造自己的大众分类法,都在用自身相对独立的语言和思维“解释”着网络信息资源。大众分类法的出现加剧了网络信息组织分而治之的倾向,为跨语言文化的信息共享增加了新难题。
这些问题影响了网络用户充分的信息共享和沟通需求,降低了网络信息空间的有序性,使网络信息更加难以管理控制。只有正确认识并不断完善大众分类法,优化大众分类法的体系结构,促使大众分类法与网络信息系统产生良性互动,才能使其发挥潜在的价值作用。
4 大众分类法的优化
4.1 优化角度的选择
作为一种新的组织方法,大众分类法将以自身的特点影响着网络信息组织的发展方向,而网络信息组织的发展也将塑造出更为理想的大众分类法,从而创造出新的网络信息组织模式。国外学者对大众分类法的研究已经从概念性研究转向了具体应用研究,不少学者在标签定量分析、用户定量分析和标签系统设计等方面取得了进展。其中,Louis[14]提出的元数据生态学理论最有启发性,其基本思想为:设计合理的元数据,建立可控的、动态发展的元数据词汇表,同时鼓励作者和用户创造标签词汇,并作为受控词表收词的备选,与受控词表一起构建和谐的网络信息组织环境。目前,国内外关于优化大众分类法的主流思想是将现有的主题法和分类法、本体词表和语义网的科学思想与大众分类法相结合,对标签实行一定的层级化,建立大众分类法内部的网状语义联系,以实现对网络信息的全面控制。
任何一种优化思想都不能脱离技术来实现,其优化的措施和效果将会在网络信息系统平台的设计和改造上得到集中体现。笔者认为,从系统角度对大众分类法进行优化将起到主导作用,因为用户的信息行为是无法控制的,无意义的、语法错误的垃圾标签无法杜绝。从大量标签到大众分类法的演化过程中,社会性协作过滤机制主要依靠网络信息系统提供的标签功能来实现,通过优化系统平台的功能,可以实现标签的合理选择、资源的有效聚类和标注行为的规范约束,从而保证大众分类法的健康发展。优化大众分类法的根本目标是通过净化、管理和完善标签元数据系统,实现网络信息资源的高效利用。
4.2 具体优化建议
如何设计社会化标签系统事关大众分类法的有用性和存在基础。笔者在借鉴国内外理论成果的基础上,结合对国内外标签系统的调查,针对现有标签语义不明确,语法结构混乱,标签缺乏维护,缺少通用性等不足,提出了6项优化设计建议,以期为网络信息系统的建设提供帮助。
4.2.1 系统建议功能 加强Tag的共享功能,在网络用户检索或标注资源时,系统要通过显性化提示向用户推荐符合标准的高质量标签,适当时候增加输入限制功能,以避免网络用户生产出各种错误的、无意义的、不规则的标签。这样,从标签生产阶段开始就为日后的标签处理和过滤工作奠定了良好的基础。
4.2.2 建立受控词表,引入后控手段 网络信息系统不仅要建立规范的受控词表作为核心元数据集,还要采用后控制手段对不断产生的大量标签进行筛选、融合,将其与核心标签关联,起到有益的补充作用。这就可以形成有一定稳定性且具备动态进化能力的标签集合,既不失规范,又增加了效率,从而提高大众分类法对新资源的响应能力。
4.2.3 用户分级制度 用户的标签可谓五花八门,产生出大量“噪音”,这加重了系统负担,降低了分类的准确性。不能仅依靠宣传培训来促进用户添加优秀的标签,系统还要通过监控标签的有效性来设置用户级别,比如内容创建者、浏览者、评论者、管理员等,不同级别的用户享有不同的权限和话语权,使之对信息组织产生不同的影响,从而提高用户的自律意识和标签质量。
4.2.4 使用自动聚类和归类技术 相似的标签一般难以避免,而相似标签对应的是具有相似主题的资源。除了对标签集合进行人工控制外,还要利用计算机自动化处理功能,为系统引入自动聚类和自动归类的方法,进一步提高标签的管理水平,优化标签结构,从而让主题相近的信息资源尽量汇聚在一起,以提高用户信息查询效率。
4.2.5 提高标签检索性能 未经控制的标签,其检索的精确度与检全率都不理想,部分系统还未提供标签检索入口,对于热门标签的显示缺乏规律性。目前,大众分类法基本上仍强调浏览查询功能,忽略了提升基于标签关键词的检索性能。只有提高标签检索性能,才能实现大众分类法的快速利用,减少用户查询信息时产生的焦虑。
4.2.6 提高标签系统的兼容性和开放性 提高标签系统的兼容性、开放性,以实现标签集合的移植和共享,促进不同网络信息系统对信息资源的协同组织。为此,标签的存储格式需要标准化,而且系统开发语言要有平台独立性,不同系统还要开放相关PI接口,以实现标签功能上的互操作。
通过改良网络信息系统的标签功能,增强标签协作过滤的合理性和有序性,从而形成更优秀的大众分类法,为网络信息自组织服务。
5 结语
Web2.0时代的网络已经远远超越了其最初形态,网络信息组织工作也越来越复杂和艰难。标签与大众分类法的出现适应了时代需求,为广大网络用户参与信息组织提供了途径,不但满足了他们的信息需求,而且激发了他们对信息组织的创造力。大众分类法产生于网络信息组织的微观层次,既是网络信息自组织发展的必然结果,又为网络信息自组织的发展奠定了坚实基础。优化大众分类法要从其孵化的温床入手,要通过完善网络信息系统相关的标签功能来克服其缺陷,发挥其优点,以提升网络信息自组织的效率,促进整体网络信息组织的飞跃发展。未来的网络信息组织将会是严谨的宏观组织与松散的微观自组织有机结合的一种形态。
收稿日期:2008-10-29修回日期:2008-12-17