标签分类及相关理论问题研究_用户研究论文

标签分类及相关理论问题研究_用户研究论文

关于TAG分类及相关理论问题的研究,本文主要内容关键词为:理论论文,TAG论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

自1998年,美国人约舒亚·沙科特提出TAG以来,TAG得到了极大发展。2004年,中文网站BlogBUS[1]、365KEY[2]等开始应用TAG,使得TAG在国内逐渐流行。目前TAG广泛应用于新闻分类、论坛专题化、网站的TAG化等各个领域。通过互联网,我们可以检索大量与TAG相关的网页资料,即使在国内最大的学术性网站——中国期刊网中也可以检索到数量可观的介绍、说明TAG的文字。到底什么是TAG?它有什么魅力,能够迅速在互联网上流行?

“TAG(网络标签)作为一种自由而有序的信息分类技术,对传统的信息分类和传播方法进行了革命式的颠覆,它以‘人’为信息传递和交换的核心,实现了由‘机器—人’到‘人—人’的传播方式的改变,开创了互联网信息传播的新阶段。”[3]这样的评价相当高,明确反映出TAG在此学者眼中的分量和对TAG的推崇。实际上,TAG字面的意思就是标签,本没有分类的含义,所以在书签网站最先得到应用使用。但是,TAG的广泛使用使得TAG部分地具有了分类功能,并且成为“一种更为灵活和更为有趣的分类方式。”[4]“TAG为短语,TAG是平行的,不像目录考虑一级二级目录,TAG有超链功能。”[5]……以上种种论述,无疑有助于我们加深对TAG分类的理解。为了更全面的了解TAG分类的优劣以及TAG未来的取向,很有必要对TAG分类的相关理论进行系统的研究和评析。

TAG的应用十分广泛,并会不断出现新应用,有关TAG分类的研究也一定会逐渐增加。笔者撰写此文旨在对TAG分类相关理论作一梳理,以便给TAG研究人员提供一个相对完整的研究角度和视野。囿于笔者的能力,搜集的资料或许不全,再者,真正可供参考的资料不多,所以,不当之处在所难免,恳请诸位方家批评指正。

1 TAG分类基础研究

1.1 处理对象

传统的文献分类比较适合学术性信息的处理,换句话说,更能够处理知识性信息。而网络分类,特别是TAG分类更加适合非学术性信息的处理。出现这种情形基于以下几个原因:1)目前搜索引擎收录的主体仍然是非学术性消息;2)广大用户使用最多的还是非学术性信息;3)学术性信息仍然由学术机构或者数据库厂商所控制,采用的是传统的分类体系;4)对于学术性信息进行自由分类主要依靠社会性书签网站来完成。基于上述种种原因,TAG分类的对象以非学术性信息为主就不难推断了。

当然,TAG处理的对象主要集中在非学术性资料的现状不可能一成不变,随着搜索引擎中学术性资料的增加,学术性数据库与用户交互功能的增强,TAG势必会逐渐进入学术领域,用于学术资料的处理和组织。如何做好与现有分类体系的兼容,自然应该成为TAG开发过程中重要问题之一。

南京大学图书馆汇文OPAC系统更新后的“热门检索”功能,向用户提供了一个月以内的热门检索词以及检索次数[6],实际上已经向TAG功能靠近。尽管如此,但毕竟不是TAG,而且各个检索词的分类和组织功能还不明显,另外标签云(Tag Cloud)[7]等功能也没有提供,所以,这一系统仍然有待于进一步完善。

实际上TAG的使用越来越广泛,从博客管理(如博客要来一场Tag革命[8]),到邮件管理(如GMAIL[9]),再到文件管理(如gbaopan的博客[10]),无疑均取得了巨大的成功。这些成功无疑会为学术性资料的处理和组织,以及TAG在学术领域的应用提供有益的借鉴。

1.2 用户

在传统图书馆时代有公务目录和读者目录两种类型的目录。同样,对于相同的网页资料,管理人员和用户往往有不同的理解。因而管理人员所用的TAG(后文简称“后台TAG”)也会与用户使用的TAG(后文简称“前台TAG”)不同。后台TAG要相对固定,而前台TAG则可以随用户的需要采用时新的、简单的词汇。后台TAG相对来说数量较少,而前台TAG则相对较大,一个普通的网页资料可以拥有20个以上的TAG,在书签性网站中对同一资料赋予的TAG数量可以多达数百个,而且数量还会随着用户的增加而不断地增加。TAG的规模和数量的不同,自然会导致TAG的处理方法不尽一致。而这种不一致无疑会给TAG管理、服务以及程序设计带来一定的困难,但同时也能为深化研究网页资料提供线索,也许后者正是TAG的魅力所在。

前台TAG主要的目的在于满足用户的需要,所以,动态性应该成为主要的特色,所要求的技术和处理的方法可能更加复杂。同时为了满足不同用户的个性需求,研究人员和开发商必须加强对前台TAG赋予权的研究。至于TAG检索方法则可以通过标签云(Tag Cloud)以及概念图(Concept Map)[11]技术进行可视化呈现和展示。目前,关于后台TAG的研究还不多。尽管后台TAG面对的对象主要是网站管理人员和网站开发人员,但是,后台TAG的使用对于网站内容的组织却很关键。如果后台TAG使用得当,则可以实现网站内容组织的自动化、智能化,比如栏目调整、自动分类化等工作的自动实现。所以,研究后台TAG技术与方法也必将成为下一步的重点研究课题。

1.3 同现率

因为TAG基本上是自由的,也就是说由用户来进行自由分类,所以我们不能排除资料的拥有者为了提高点击率而故意提供虚假TAG的情形的产生。特别是那些由作者提供TAG,而用户无法修改的网站或者资料,出现这种做法的可能性更大。如何研究各个TAG内在的联系,并由系统自动查找各个TAG本身的关联,将来应该成为研究的重点。同时,对于原来同现率为0的词汇,一旦其同现率出现变化,应该用特别的色彩或者形状加以区别,以引起用户的注意,方便用户了解最新的发展趋向,社会研究人员也可以研究读者对TAG的取舍趋向,从中发现共同的社会心理现象,了解社会问题产生的背景和缘由。如果不同TAG间出现大量的同现现象,也即同现率超过一定的阈值,应该由个别、特殊关系转变成共性、普遍关系。至于阈值如何确定,则应该加以系统的、长久的跟踪研究。

换句话说,未来的研究重点可以放在TAG关系库的建立。TAG库的建立是第一步,而TAG关系库的建立才是目标所在。而只有通过TAG关系库的建立、同现率的统计,才能为全面的语义网络的实现准备条件。

现有的网络信息分类方法或者传统图书资料分类方法为信息表达和信息组织提供了大量有益的经验和教训,所以TAG分类不可能无视这种经验和教训的存在,而应该充分吸收其有益元素。目前,出现一些新的组织方法,比如语义网、本体等,这些方法的产生无疑有其特殊的背景,也有其独到之处,所以,TAG同样也必须吸收新型网络组织方法的优点,完善TAG在分类方面的作用。

1.4 后续处理方法

对于既定的TAG,可以有不同的后续处理方法。TAG本身是平面的,可以作为平面的分类方法。但是,对TAG的后续处理却可以形成不同的分类思路。比如我们可以通过字面匹配的方法,进行自动聚类,从而形成立体的分类体系,使得TAG分类更加具有立体感、层次感。也可以通过分类主题一体化的思路,自动将TAG归入到已有的分类体系中来,从而实现既能与原有分类体系相兼容,同时又能够适应网络资料的快速多变特征,从而真正体现网络资料分类或者网络信息组织的特点。

TAG本身只是提供了信息本身的表达方法,类似于主题词或者关键词,严格地来说,它本身并不是分类。但是因为TAG本身采用了不同的后续处理方法使得TAG本身具有了一定的分类能力,所以也往往被作为分类方法来看待。但是,不同后续方法的采用使得TAG的分类功能或强或弱。所以,加强TAG后续处理方法的研究对于TAG分类功能的开发有重要意义。

2 TAG分类深化研究

2.1 纵向关系表达

对于新知识、新消息来说,通过TAG可以较好地表达不同信息来源之间的联系,但是,TAG也不是完美无缺,存在的问题是显然的。一些已经形成定论的、具有较强系统性的学科,TAG表示的体系性不足。这主要是因为TAG是一种平面性的分类体系,无法准确地表达出相关TAG的层次,表达出内容本身的多层次关系,所以,用户得到的往往是具有广度的信息,有助于拓宽人的视野,但是于对于深度的信息表达则有所欠缺。

这一现状的产生与公众对网络信息的关注程度有关,而普通大众的着眼点相对来说集中在生活、娱乐性信息,对这些信息的表达也侧重于平面信息,而专业性、学术性信息的表达则有所不同。就以中国期刊网发表的论文来说,除了关键词(相当于TAG)外,还有中图分类号一项。中图分类号的要求,无疑有助于读者快速了解论文所在的学科以及在学科体系中的位置。也就是说,学术性、专业性信息的表达需要纵向和横向两个方面的参照系。而TAG分类就目前的情况来说,还相对单一,侧重于横向关系的表达,如何加强纵向关系的表达,仍然有待于进一步研究。

2.2 赋予权

传统信息分类是形成以学科分类和高校专业设置为基础,兼顾文献特点的分类大纲,而传统网络分类则是形成用户查询特点的分类大纲。而TAG型分类方法,则充分利用用户自身的知识体系,对相关资料赋予TAG标志,同时又充分考虑用户的查询习惯,是传统网络分类法的进一步提升。TAG这种大众分类的本意就是充分利用用户的知识资源,形成“人人了解分类,人人进行分类,人人使用分类”的一种理想的资源共享模式。但是,不可否认的是,TAG分类目前并没有达到尽善尽美,存在的问题也是显然的。目前,大多数网络采用的TAG基本上是一次完成,不太可能像维基百科一样自由修改,这样的情形势必导致新型信息垄断的产生。

一部著作在不同的时代往往会有不同的阐释,也会被打上不同的TAG标签,有不同的用途。在网络时代同样也是如此,某一网页资料拥有者所赋予的TAG往往与使用者所赋予的TAG有很大的差异。这些差异既有语言本身的差异(比如中文、英文、日文等),也有时代的差异(比如不同时代的流行词汇、表达方法等),同时还应该有不同学科领域专家对同一资料的解读所形成的差异(比如缩略语、专业词汇等)。这些差异,不可能在其资料的拥有者所赋予的TAG中全面得到反映,如何扩大用户赋予TAG的权力将是TAG发展过程中不可逾越的一道鸿沟。

2.3 兼容性

网络分类体系目前有两个主要方向,一种是采用相对固定的分类体系,比如YAHOO、SOHU等门户网站所作,基本上沿袭传统图书分类法的思路。已经有大量的论文对这一问题进行了研究。另外一种就是目前引起广泛注意的TAG分类方法,也称为大众分类方法。这两种方法各有其优劣,如何结合二者所长,在广度和深度两个方面满足用户的需求,同时亦满足网站的发展,TAG未来的研发不能不考虑。

实际上,对相对固定的信息采用固定的分类体系,优点十分明显。而对动态性较强的实时性信息(比如新闻报导、论坛发言)采用固定的分类体系既不可能,亦不太现实,只能采用与此相应的动态分类体系。有基于此,笔者认为,网络分类单独采用固定分类或者动态分类体系均存在一定的弊端,同时采用固定与动态分类体系才是唯一举措。如果对此种观点不存异议,那么,必须要回答如下问题:如何结合二者之长?是在一部分类法中同时采用两种思路,抑或每一种分类法各自处理不同的对象?

围绕上述两种思路,笔者作如下设想:1)在同一分类法中采用固定与动态分类体系,也就是说在基础的类目方面(原则上在3级以上,相当于学科体系中的大类、一级及二级学科)采用固定分类体系,而对新型类目(3级以下类目)不作区分,采用动态分类体系进行动态调整。这样既保证现有学科体系的完整,也保证与现有学科体系的兼容。2)区分不同的对象运用不同的分类方法,对于动态性、实时性信息采用TAG型动态分类方法,而对于学科性、系统性信息采用固定分类方法。这种方法的优点是能够维持目前网络资料分类的现状,但是对目前已经发现的问题却难以圆满地解决。这种方法首先必须解决如下问题:正确区分动态性、实时性信息与学科性、系统性信息,并能够通过相关程序自动实现对资料的归属。在网络环境下,这种方法的实现难度不小。上述两种思路,均需进一步深入研究。

2.4 多重列类者之间

传统的分类方法对某一文献资料的分类基本上实行单一列类,为了适应日益出现的交叉学科、横断学科以及多主题资料的需要,会少量采用交叉归类的办法。而在网络中,多重交叉列类的情形却大量出现。无论是第一代网络分类体系,还是第二代网络分类体系,均大量采用了多重交叉归类的方法,但是这种方法对于用户来说则相对隐蔽,不为大众所知。而在WEB2.0技术中广泛应用的TAG则直接采用多重交叉列类的方法,以实现文本、图像、音频、视频之间的互相关联,是一种显性的表达方式,人人知晓、人人可用。

多重列类在第一代网络分类体系和第二代网络分类体系虽然大量出现,但是单一资料被多重列类的数量有限,超过3个类目的很少。而在TAG分类中情况发生了根本性的变化,单一资料赋予TAG的数量在5个以上的很普遍。

单一资料可以赋予多个TAG无疑有助于更深入地揭示资料的内容,能够全面反映每个角度的信息,有助于了解各种不同信息之间的全面联系,也有助于各种背景资料的获取,同时也有利于交叉学科、横断学科之间的资源共享,同样,大量无益的联系、胡乱的联系、错误的联系也势必会导致专业理论的混乱、专业学科界限的模糊,从而扰乱学术本身的严肃性。如何在TAG赋予过程中避免可能出现的混乱和模糊,应该为TAG研发人员和TAG迷们所重视。

2.5 发展趋向

网络分类与信息组织不是一成不变的,而是一个动态发展的系统。随着网络技术的发展,网络分类技术与网络信息组织技术也在发生不断的变化。网络信息分类法以数亿信息资源为处理对象,处理的信息是数字式、多媒体、动态的、虚拟的,因而网络信息分类也应该具有高度的普适性和广泛的动态性。而传统的文献分类方法面对网络信息的处理则存在不少的困难,主要有以下几种原因:一是处理的对象发生了变化,面对更多的动态对象和实时信息;二是处理的数量发生了变化,传统图书馆处理的对象只有数千万的文献资料,而网络分类需要处理则是数百亿的网页资料,数量不在同一级别;三是处理的技术也发生了变化,传统分类采用人工的方法,网络分类必须采用自动分类方法。TAG只能是众多网络分类方法的一种,不可能成为唯一的网络分类方法。事实上也正是如此,语义网络、本体等新型网络组织技术与方法的出现和流行就说明了这一点。

网络本身就是一种网状的体系,所以网络分类也应该向网状组织方式过渡。超级链接技术,为网络分类提供了实现网状组织的技术手段。TAG本身通过相同标签的超级链接,实现了不同文本之间的相互联系。但是,TAG本身的联系仍然有待深化。或许单一标签在同一文本中重复多次出现,应自动实现该文本所有标签与其它文本所有标签之间的自动链接,从而在更大范围、更高层次上建立起词间关系网络,从而为语义网络的最终实现准备条件。

标签:;  

标签分类及相关理论问题研究_用户研究论文
下载Doc文档

猜你喜欢