社会标签规范研究--学术博客标签_博客搜索论文

社会标签的规范性研究——学术博客标注,本文主要内容关键词为:规范性论文,学术论文,标签论文,社会论文,博客论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

近年来,Web2.0技术与服务已经得到非常广泛的运用,如博客、RSS、Wiki、开放API、社会标注、社会网络服务、Ajax等。其中,博客信息组织是用户使用率较高的一种方式。作为新环境下重要的信息组织形式之一,博客通过用户参与,发表新知识,和其他用户内容链接,进而非常自然灵活地组织网络信息及内容。博客不仅是用户发布个人信息的场所,近年来也被广泛用于学术交流,成为网络学术信息交流非常重要的组成部分。

1 博客的学术性

1.1 博客对学术交流的影响

根据博客在网络中双向互动、超文本链接、动态更新、容易获取等特点,其对学术交流有着如下积极影响[1-3]:

(1)增强学术交流的交互性。博客的盛行为网络用户提供了友好的交流平台。对于学者来说,进行学术交流更为便利和快捷,能在网络帮扶下,快速捕捉博主的学术动态。对于普通用户来说,也可通过博客中自由评论等方式与博主交流观点,从而达到集思广益的效果,进而更加有利于扩展学术思路以及学术成果的影响范围。

(2)加快学术交流速度。网络的更新速度很快,因而时效性很强。在以博客为平台的学术交流模式中,此特点体现得尤为明显。一旦博主通过发布最新博文或者接收到最新评论,人们通过网络及时获取相关信息,往往可以提供比传统媒体更新、更及时、更接近真实、基于自身体验和观察的第一手资料。博客的出现使得学术界的各种信息能得到更为及时有效的传递。

(3)丰富开放存取学术信息资源。博客是开放存取(Open Access,OA)的一种重要的模式,其对信息资源的共享和交流的注重使得学术交流更加自由化、开放化、公益化。以博客为平台传播的学术信息资源和开放存取期刊、电子预印本、开放仓储等一样都具有“科学信息的免费获取、便捷快速的获取形式、学术信息的实效交互性、学术信息的传播自由性”[4]等特性,丰富了开放存取学术信息资源。

1.2 学术博客的类型

以博客为平台,发布及讨论学术内容,具有学术交流价值的博客称为学术博客。笔者认为学术博客一般有以下三种类型。

(1)学术机构建立的博客。一些学术机构,如图书馆、专业学会等建立了某个研究领域的博客,从而成为学术博客的一种。如华东师范大学图书馆的博客“编目精灵”(http://catwizard.net/)专注于文献编目领域,紧密跟踪国内外文献编目研究领域的进展,系统介绍国外编目研究报告;上海图书馆数字图书馆研究所的博客“数图研究”(http://www.kevenlw.name/)专注于数字图书馆领域,系统跟踪国外数字图书馆研究进展。在后文我们的实验数据中,统计得到的中文学术博客中有45个学术机构建立的博客。

(2)学术会议建立的博客。由于博客可作为一种比较好的交流方式,现在一般专业学术会议召开前后,会建立相关博客,将学术论文贴在相应模块中,或者展开某一个专题的讨论。这类博客也是学术博客的一种。如中国研究生媒体联席会议的博客(http://cpmjc.blog.163.com/)是搭建中国研究生媒体交流与合作的稳固平台,该会议每年召开一次,在博客中发表相关学术论文,使得会议成员互助合作,进行充分的学术交流。

(3)专家建立的博客。专家个人建立的博客数量众多,在其中发表的博文多具有较高的专业学术价值。此类博客博主在某领域属于专家,博文具有广泛的影响力,被引用的次数较多,成为某领域典型的学术博客的一种。如科学网(http://www.sciencenet.cn/)就是一个以学术交流为主的博客社区;再如新浪博客中的“图林博客圈”(http://q.blog.sina.com.cn/library)集聚了图书馆学领域内关于图书馆学术、图书馆事业、图书馆文化、图书馆生活、图书馆资讯等方面专家的博文。

1.3 学术博客的获取方法

高质量的学术博客对于网络学术信息资源是一个有益补充,笔者认为获取学术博客主要有两种方法。

(1)博客引文。学术论文是科学研究成果的文字表述,而引文则是反映学术利用与影响的重要判断依据[5]。结合学术论文本身所具有的学术性、科学性、创新性等特点,共同决定了其引文的可靠性和学术性。因此,学术论文后引用的博客通常具有较高的学术价值,可以认为是获取高质量学术博客的一种方法。在本文实验部分,我们对中英文图情领域的期刊引文进行了统计,发现英文学术论文很少引用博客,而中文学术论文中有不少博客引文。因此,实验中我们采用博客引文方法获取中文学术博客。

(2)博客搜索引擎。搜索引擎是获取网络信息资源的有利工具,而目前有很多搜索引擎都推出了专门针对博客这一类型资源的垂直搜索。如英文博客搜索引擎有Google Blog、Technorati等,中文博客搜索引擎有百度博客搜索引擎、搜搜博客、有道博客搜索、搜狗博客搜索等。在实验中,我们采用博客搜索引擎方法获取英文学术博客。

2 学术博客标注

2.1 学术博客标注的作用

社会标签(social tagging)是一种灵活、有趣的文章或图片等信息的分类方式。用户标注的社会标签也被广泛用于学术博客的组织与检索,具有两个作用。

(1)组织博文。用户对博文标注时,首先需要对博文内容进行主题分析,形成若干能代表博文主题的概念,然后用自然语言的词语把分析出来的主题概念标识出来,直接表达博文信息的主题内容。例如:中文博客“竹帛斋主”程焕文的博文《诚邀李英强来广东讲述立人乡村图书馆》的标签是“李英强、立人图书馆、乡村图书馆、免费服务、公共图书馆、教育”[6],便将此篇博文的主要内容进行了清晰、简明的组织,使得读者能够迅速捕捉博文主要信息。再如英文博文“Library Professional Development”的标签为:“acrl(136);ala(26);amigos(12);business(10);CE(9);copyright(39);……”[7],同中文博文相同,每个标签均有链接,可以将此文的相关信息组织起来,集中显现。

(2)检索博文。用自然语言标注博文不仅揭示、组织博文,更有利于检索相关信息。在主题标引的基础上进行检索是从博文语义方面和文献客观描述形式来组织博文的。它可以直接从事物、问题和对象入手对博文进行特性和族性检索,直观性强,动态性好,便于随时检索到最新信息。读者只需点击任意标签,均可链接到相关信息。例如上述中文例子中的标签“乡村图书馆”或英文例子中的标签“acrl”,均可检索出其相关网络信息。

2.2 中英文学术博客标注对比分析

学术博客标注与其他网络学术信息标注不同,其标签规范性方面上较其他资源,如学术论文、图书更差,但其对标签规范性的要求也较其他资源低。本文后面实验部分具体检验了学术博客标签的规范性。在此,笔者根据实验数据,分析中英文学术博客标注的差异。

(1)形式差异。英文学术博客标签多在其后用括号注明出现频次,中文学术博客标签没有频次统计。读者可通过英文标签频次的多少对博文内容和主题有更加深入、确切的了解,也提高了相关博文检索的检准率。因此,英文学术博客标签形式上更为规范。

(2)内容差异。英文学术博客标签多与博文内容相符,中文博客标签有时出现与博文无任何关系的词语。例如“编目精灵”中的一篇博文《网上查标准(附GB3792《文献著录》)》的标签是“乐此不疲、若有所思、标准”[8],其中“乐此不疲”和“若有所思”则显然与此文毫无关系。再如英文博文Recycling Information的标签为“Copier,Copiers,Document Technology Solutions,DTS……”[9]等12个不重复的标签,尽管标签数量众多,但均与博文内容有一定联系。

(3)名称差异。英文学术博客标注名称大多统一,用“tag”来标识。但中文学术博客标签前名称很不统一,除了“标签”外,还有“大类标识”、“分类”、“类别”等各种叫法,有的甚至没有任何标识,不利于博文的检索。因此,中文学术博客在此方面欠缺规范性。

3 中英文学术博客标注的规范性评价实验

为探究学术博客标注的规范性情况,笔者于2010年7月至8月间以图情领域为例,进行了中英文学术博客标签与主题词表对比实验,并运用SPSS和Excel软件对实验结果进行统计分析。

3.1 实验设计

3.1.1 实验目的

(1)学术博客标注的社会标签与主题词表中的主题词的重合率有多大?

(2)中文和英文学术博客社会标签有什么相同和相异之处?

3.1.2 实验步骤

(1)中文学术博客及其标签的获取。为了获取高质量的图情领域的中文学术博客的社会标签,我们采用博客引文方法,以《中文社会科学引文索引2010-2011年来源期刊目录》中的20种图书馆、情报与文献学期刊(如表1)为研究对象,统计这20种期刊2005-2009年发表的论文的博客引文,作为实验样本,并获取这些学术博客的所有社会标签。

(2)英文学术博客及其标签的获取。为了获取有代表性的图情领域的英文学术博客社会标签,采用博客搜索引擎方法。根据对iSchools的研究兴趣的统计结果[10]选取了图情领域的50个检索词(如表2),用这50个图情领域的英文检索词在博客搜索引擎Technorati(http://technorati.com/)和Google Blog(http://blogsearch.google.com/)上共检索到500篇学术博客,作为实验样本,并获取这些学术博客的所有社会标签。

(3)区分客观标签与主观标签。社会标签分为两类:一类是与学术博客内容相关的标签,称为客观标签(objective tags);另一类是与用户主观判断相关的标签,称为主观标签(subjective tags)。客观标签由于代表了用户对学术博客内容的表示,因此,被用于本实验与主题词进行比较。而主观标签代表的则是用户的喜好、评价等主观意见,因此,不用于比较实验。

(4)标签与主题词的比较。将每篇中文学术博客和英文学术博客的客观标签先进行去重处理,再将中英文客观标签分别添加到《分类主题词表》(Web版)和《美国国会图书馆主题词表》(Library of Congress Subject Headings,LCSH)中进行检索,计算并记录那些重合的词。

3.1.3 评价指标

实验主要用最大值、最小值、平均值、标准差等统计指标来考量学术博客的社会标签。标准差的计算公式见公式1。

(公式1)

3.2 实验结果分析

下面对依据上述方法获得的相关数据进行分析,由于本实验中英文学术博客获取的方式不同,因此分开分析。

3.2.1 社会标签数量

(1)中文学术博客

中文学术博客采用博客引文的方式获取,统计结果见表3。在484篇有博客引文的图书馆学情报学期刊论文中,共有6 205条引文,其中有834条是博客引文(占13.44%),我们即以这834篇博客引文为样本进行标签对比实验。从表3数据可以看出,图书馆学情报学期刊论文引用博客资源的总量还不多,但数量增长很快。由此可知,学术博客在网络学术信息资源中日渐凸显重要作用,学者对其学术性、科学性、可靠性产生了信任和认可,也因此促进了学术博客标注规范性的需要。

在每篇学术论文中,作者给出的关键词是对论文内容的提炼和反映,而标签是用户为博文添加的,分为客观标签和主观标签,前者是与博客内容相关的标签,后者是用户主观判断的标签。笔者分别对其数据进行了统计,见表4。提取484篇有博客引文文章的关键词,共计1 781个。同样,获取博客引文所有的标签,并进行数量统计,总计只有308个标签,可见当前中文博客引文标签数量还很少。从表4可以发现,在仅有的308个标签中,客观标签数量(282个)远远多于主观标签数量(26个),这说明中文博客标注的客观性较好,少有主观色彩标签的干扰。

(2)英文学术博客

英文学术博客采用博客搜索引擎的方式获取,共500篇博文。我们统计了这些博客的标签数量,见表5。英文学术博客总的标签的平均值为36.782,最大值为227,可见英文用户对于学术博客标注具有相当高的热情。其中,客观标签的平均值为35.572,最大值为221,二者相差无几,表明英文博客社会标签中客观标签居多,很少有主观标签,博客标注的客观性较强,这与中文学术博客标签是一样的。

3.2.2 标签与主题词的重合率

(1)中文学术博客

如表6所示,为了探究用户给予的社会标签在组织和检索学术博客时规范性究竟如何,我们将每篇博文的客观标签与《分类主题词表》进行匹配,得到完全匹配的客观标签数量为80个,占总客观标签的28.37%。由此可知,当前中文博客引文规范性欠佳,匹配率不高。而与引用该博客文章的关键词完全匹配的客观标签只有10个,说明用户赋予的标签与有该博客引文的文章作者所要表达的思想及内容相近度较低。

(2)英文学术博客

我们将每篇英文博文的客观标签与《美国国会图书馆主题词表》(Library of Congress Subject Headings,LCSH)进行匹配,得到每篇博文与主题词匹配的标签占总标签的百分比,见图1。由图1可知,在(0.2,0.3)区间上是主题词的客观标签占总标签的百分比的最高值,即标签与主题词的匹配率多集中在20%-30%之间。这就说明英文学术博客社会标签的规范性也处于较低水平,在规范性控制上有较大的上升空间。

3.2.3 中英文学术博客标签对比分析

通过实验我们发现,中英文学术博客标签的相同点体现在两方面。

(1)社会标签客观性较强。由实验数据可知,中英文博客标签里的主观标签与客观标签在总标签中所占比例相差悬殊。用户主观判断的标签很少,在赋予社会标签时,用户十分注重与博客内容的相关性,从而体现了博客中社会标签较强的客观性。

(2)社会标签的规范性均有待提升。尽管用户标注的标签客观性很强,但是毕竟多为自然语言,与受控语言比起来,规范性不足。诚然,自然语言相对于受控语言来说,具有易用性,其标引易于实现自动化,可对博文进行专指标引。但自然语言由于不受规范化的控制,不能反映概念语词之间的一一对应关系,也不能反映概念关系的隐含性,因而选词没有严格限制,词量过多、过杂,一个概念可以通过几个不同的词汇来表达,反而会分散主题,影响标注的一致性。由于中英文博文标签中主题词的客观标签所占百分比均不高,所以急需提升博文中社会标签的规范性。

中英文学术博客标签的差异性体现在两个方面:

(1)社会标签数量和出现频次不同。对样本进行数量分析后发现,中文博客标签总量虽然很少,但在学术论文中的引用率逐年上升,但标签几乎无出现频次的统计;而英文博文则几乎不会被学术论文引用,但其标签数量多,标签后附有频次统计。这说明英文博客标注的社会参与度很高,而中文博客才刚刚起步。

(2)社会标签的重视程度不同。随着中文博客日渐兴起和不断扩张的影响力,学术交流中对博客认可度不断提升,但较之英文博客的影响力仍旧相去甚远。这也源自于国内外用户对社会标签的重视程度不同。在国外,社会标签的使用率很高,人们认为这是积极参与、表达自我认识的一种重要的表达方式,因此英文博客社会标签数量丰富、出现频次集中,而中文博客标签少之又少。

4 学术博客标注规范性控制建议

学术博客不像图书、学术论文等正式出版的学术信息资源,它毕竟是一种新兴的非正式的网络学术资源。因此,现在对学术博客标注规范性的要求还较其他资源低。但是通过调查发现,中文图书馆学情报学期刊引用博客资源的总量虽然还不多,但数量增长很快,所以对学术博客的标签规范性控制必须尽快引起足够重视,来引导和加强学术博客向正式网络学术信息发展。

学术博客与其他学术信息相比,有两点鲜明的特色:一是学术博客通常是某领域内的系列博文,不像图书或学术论文为单篇孤立的文献,因此适合对标签重复利用。二是学术博客的标签通常是博主自己给予的,不像图书或学术论文的标签是读者加的,因此实现学术博客标注的规范化既有其迫切性又有其可行性。

4.1 编制规范标注词汇列表

主题词表是信息组织和检索中实现规范化的一个重要工具。为提高学术博客标注的规范性,可考虑建立标注规范词汇列表。此列表中的规范词可以来自于传统主题词表,或是规范后的标注。如此一来标注规范词汇列表可使博主在自我理解博文的基础上,加强标签标注的规范意识,降低自我赋词规范难度,从而加深对相应博文信息内容特征的正确分析程度,利于博文标注更为规范。此外,中文学术博客需要同英文学术博客一样,在标签后面加上该标签出现的频率,便于识别高频标签,提高标签重用性。

4.2 建立标签推荐系统

鉴于学术博客通常是某领域内的系列博文和博客的标签通常为博主赋予,可以建立基于监督学习的标签推荐系统。以博主以前文章的标签作为训练数据,来预测相关博文的标签,推荐给博主标注参考。这种自动标注不仅通过标签推荐增强了学术博客标注的规范性,也有利于该博主与其他博主的标签的结合,形成由标签构成的自由分类法。

5 结语

规范性工作是实现信息资源组织和检索的规范化、标准化的一项重要措施,在提高检索效率、确保标记质量、增强交流科学性、学术性等方面起着十分重要的作用。在Web2.0网络环境中,学术博客标注的社会标签规范性研究成为博客信息资源持续发展与共建共享的关键。

标签:;  ;  ;  ;  

社会标签规范研究--学术博客标签_博客搜索论文
下载Doc文档

猜你喜欢