中外大众标注比较研究,本文主要内容关键词为:大众论文,中外论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2015.002.003 1 引言 随着Web2.0技术的迅速发展,Delicious、Flickr、Youtube等的大众标注系统已逐渐兴起并迅速伸至国内。Social Tagging打破了传统的信息组织方式,为信息资源的标引、检索、分类和共享带来了新的启迪。 目前国内关于Social Tagging的译法较多,常见的诸如“社会化标签”、“社会标注”、“大众标注”等,其中,“大众标注”不仅可以准确地表达出Social Tagging中蕴含的标注行为和过程,而且可以体现出标注主体是普通大众,因此笔者采用大众标注作为本文的论述对象。自2005年开始大众标注的相关研究一直呈现持续上升趋势,且与最新应用环境紧密相连,如近几年随着移动互联的发展,已有学者开始探讨将大众标注运用在移动终端上,以改善各种推荐服务[1]。但由于国内外大众标注研究起步不同,国内外的研究是否存在明显差异,基于以上疑惑,笔者提出了如下两个研究问题:中外大众标注研究趋势有何异同;国内外对于大众标注的研究框架有何差异。针对以上问题,笔者搜集了从2005-2013年的国内外相关学术文献并结合大众标注的实际应用,借助计量分析和可视化的方法,从研究层面到研究维度再到研究主题由浅入深、层层递进深入探讨和对比了国内外大众标注的研究成果和应用的差异,希望借助对比分析发现国内研究的优势和不足,促进国内大众标注的进一步发展。 2 文献综述 从2005年至今,大众标注发展迅速,其应用领域也逐渐拓宽。为了解大众标注的中外研究差异,本文首先运用文献计量法探讨了中外大众标注发展趋势的差异,随后构建了大众标注的研究框架,基于研究框架对中外研究成果进行了更深入的对比分析。以下分别针对对比分析、文献计量法、研究框架在大众标注领域的应用现状进行论述。 对比研究是认识事物的基础,在大众标注领域,一些学者对大众标注应用情况进行了对比分析。关晶等在2010年对大众标注在高校教育领域的应用进行了中外对比研究,结果发现大众标注在国内高校教育领域尤其是在开放资源网站上的应用还远落后于国外[2]。2014年余春从使用对象、应用领域、应用模式等方面比较了中美大学图书馆应用大众标注的情况[3]。可以看出大众标注领域的对比研究多是针对其实际应用情况而尚未有学者利用文献信息,全面对比中外大众标注研究的差异,这也为本文的研究提供了契机。 本文运用的主要研究方法是文献计量法,它可以理清某一领域的发展脉络、发现学科热点,构建学科研究框架。在大众标注领域,运用文献计量法进行分析的较具有代表性的则是冯祝斌和徐晨的文章,前者通过对大众标注文献的核心作者、期刊、文献数量的研究分析了大众标注的研究现状[4],后者则探讨发现了大众标注研究群体的特征并确定了其研究维度[5]。笔者借鉴前人的研究成果,运用文献计量法来研究发展趋势的差异并辅助构建大众标注的研究框架,进而分析国内外大众标注研究的差异。 在研究框架方面,起奠定作用的是国外Kasperson等构建的一个行为、心理、社会和文化四位一体的框架,并用此来系统地评估风险[6]。后来Zhang和Benjamin在2007年的文章中对其进行了改进提出I-model模型,该模型用信息、技术、人以及社会四个模块来确定信息科学相关领域的概念框架,得到了广泛的认可[7],另一方面国内赵宇翔和杨小勇分别针对UGC和体育学,从宏观、中观、微观三个层面构建了各自的研究框架[8,9]具有一定的借鉴意义。以上这两种方法对于本文研究框架的确立都有一定的指导意义,本文将结合这两种方法来构建大众标注的研究框架。 3 数据来源 为探索大众标注的中外研究差异,本文分别从国内外的知名数据库采集了大众标注文献。国内以CNKI全文数据库作为数据来源,主题确定为“Social Tagging”、“Folksonomy”、“社会化标签”、“大众标注”等与大众标注密切相关的词,检索年限设定为:2005-2013年,检索共得到中文文献592篇,经过去重和剔除没有同行评议的文献后得到有效文献505篇,其中期刊文献393篇,会议文献10篇,硕博论文102篇。国外选取the ACM Digital Library,ERIC,Expanded Academic ASAP,Library & Information Science Abstracts,Library Information,Science & Technology Abstracts,Library Literature,Web of Science八个数据库,以“Social Tagging”、“Folksonomy”、“Social Bookmarking”为主题词在相同的时间段共检索出1363篇英文文献,同样经数据清洗后得到有效文献1298篇,其中期刊文献835篇,会议文献463篇。 本文利用Bibexcel和SPSS作为数据分析工具,结合文献计量学和可视化方法,统计近九年国内外大众标注的发展趋势,在此基础上构建大众标注的研究框架,并进一步探讨和挖掘了中外研究内容的差异。 4 中外大众标注发展趋势对比 4.1 文献的时序分布对比 文献时序分布的统计有助于我们了解大众标注的发展动态和发展趋势。由图1可以看出整体上国内外的文献分布具有相似的发展趋势,大致经历了三个发展阶段:第一阶段是2005-2008年,属于大众标注的萌芽期,这段时间相继问世了如Youtube、Twitter、Technorati等应用大众标注的知名站点,计算机国际学术会议也引入了大众标注的议题,大众标注开始受到专家学者的关注,而他们关注的重点主要是大众标注的概念、功能及模型的初步探索等基础方面。第二阶段是2009-2011年,这三年是Social-Tagging蓬勃发展时期,学术成果不断涌现,文献数量急剧增长,研究视角也由基础研究转向更加注重大众标注的实际应用。大众标注的研究领域拓展到了图书馆、电子商务、教育、医疗等领域。第三阶段是2012年至今,这两年大众标注的研究逐渐走向成熟,文献增长速度放缓,甚至在2013年无论是国内国外,文献数量都出现了下滑趋势。虽然文献数量有所回落,但研究深度却不断增加。在这一阶段,学者更加注重大众标注系统中存在问题的解决并进一步探索了大众标注新的应用环境:移动终端。结合本体和语义来弥补大众标注的固有缺陷,对各类算法、模型进行改进等都是这一阶段的主要研究方向,此外随着文献总量的增多,该领域的综述类文章开始出现并增多,这诸多迹象都在表明大众标注的研究更加的系统化、深入化,可以预见未来几年大众标注仍会是相关领域的研究热点。 4.2 文献的期刊分布特征对比 笔者分别对国内外的文献期刊进行统计分析,以揭示国内外大众标注研究领域的基本特征,为确定研究框架提供支撑。根据统计,国内的393篇期刊文献共分布在117种刊物上,而国外的835篇期刊文献分布在402种刊物上。在期刊数量上,国外期刊是国内的3.4倍之多,可见国外接受大众标注的期刊较之国内更多,文献分布较散。由表1可以看出,国内大众标注文献主要发表在图书情报及计算机类的期刊上。笔者对这两种期刊上的大众标注文献进行统计,发现分别有230篇和71篇,共占总期刊文献数的76.59%,是国内研究大众标注的主要阵地。而在国外,这种占统治地位的期刊并不存在,大众标注分布的期刊种类相对较广,而国外学者也更注重大众标注的实践和应用研究。值得一提的是Nurse Educator,该期刊上共有大众标注相关文章13篇,可见在国外,大众标注不仅吸引了图书情报和计算机领域的专家学者,而且其他领域学者也逐渐参与其中,故管理类、医学类、教育类等杂志上都出现了大众标注的文章。总的来说,国外大众标注的期刊种类更加丰富,研究领域较之国内更广,各领域的学者都积极地将大众标注引入到自己领域,拓展了大众标注的应用范围。 通过以上对文献的时序分布和期刊分布的分析,我们发现国内外大众标注呈现相似的发展趋势:都经历了从最初的基础理论和简单应用的研究到近几年扩展大众标注的应用领域和站点,改进算法等,而且多数文献分布在计算机、图书情报类的期刊上。但国内大众标注的发展依然同国外存在一定的差距,从期刊类型上就可以初见端倪。医学、教育学、管理学期刊的出现表明国外大众标注的研究领域比国内更广泛,且注重应用研究,而国内研究仍以理论研究为主,忽略了应用。为更深入了解差异所在,在本文的第5部分笔者根据文献关键词信息利用文献计量分析中的共词分析法构建大众标注的研究框架,希望进一步发现框架内的具体、细微差异。

图1 国内外文献的时序分布图

5 大众标注研究框架的确立及中外对比分析 研究框架的确立,可以理清大众标注的研究层次,进而清楚发现中外的研究差异,并帮助其他研究者准确定位自己的研究。笔者根据已经采集的文献抽取了国内外文献的关键词进行文本分析和共词分析,希望结合定性和定量方法来确定大众标注的框架,随后基于研究框架,笔者运用对比分析法挖掘了中外研究的差异。 5.1 大众标注研究框架的确定 笔者采取由浅入深、由表及里的方式依次从研究层面、研究维度、研究主题三方面来确定大众标注的框架,确定流程如图2所示:依据文献信息和经验来确定层次,根据文本分析进一步细化层次的划分确定研究的维度,最后根据共词分析确定研究主题。

图2 确定框架的流程图 具体实施过程如下:本文借鉴杨小勇关于体育学科框架的划分方法[8]来确定大众标注的研究层次,将其确定为宏观、中观、微观三个层面。随后笔者利用文本分析法对收集到的文献关键词进行分类,根据关键词的词义、词性以及关键词在该领域的特殊含义将其大致分为:基础理论研究、技术研究、应用领域研究以及应用站点研究,以此作为大众标注的四个研究维度。笔者依据这四个维度在该领域的地位做出了维度和层次的关系图(图3)。可以看出,基础理论研究是整个大众标注领域的基础与核心,属于宏观理论层面,它是上层技术和应用的基础。各类算法和模型是大众标注发展的重要支撑,它以底层理论为基础,同时也是上层应用的基石,属于中观技术层。位于金字塔最上层的是大众标注的应用领域和应用站点,属于微观应用层。但有趣的是,不同于其他领域的发展,大众标注的研究是应用先于理论,如图3所示,Delicious、Flickr、YouTube等站点中大众标注应用的兴起和发展,才引发了学者对大众标注的理论和功能的研究兴趣,进而开始对大众标注技术层和理论层的研究即中观和宏观层面的研究。而随着中观和宏观层面研究逐渐深入,坚实的理论基础加上技术层的创新又反过来促进了顶层应用的进一步发展。

图3 大众标注维度和层次关系图

笔者进一步采用共词分析来确定大众标注的具体研究主题。利用收集到的文献数据,使用Bibexcel软件提取出中英文文献的关键词,从中选取占中英文关键词总数47%的高频关键词作为共词分析的源数据,经过SPSS19的聚类分析和多维尺度分析,得到国内外关键词聚类图和知识图谱(图4、图5),聚类分析可以看出目前该领域的研究热点,而多维尺度分析可以得到各热点间的联系程度和位置,因此以聚类分析为主,辅以多维尺度分析就可以清晰地看出大众标注的研究主题。结合图5(a)和图5(b),我们可以看出,国外的基础理论和应用研究分别聚集成两个类别,而国内由于大众标注的应用研究还不够成熟,学者多是将应用与基础理论研究结合在一起研究,这使得国内的基础理论和应用研究聚集成了一类。但借鉴国内外的关键词聚类图及国外的知识图谱,笔者认为将基础理论和应用研究作为两个不同的主题分别进行研究更为合理。经分析,国外大众标注的研究主要集中在四个方面:大众标注基本理论、标签系统、本体和语义研究以及大众标注的应用。国内的研究主要集中在:大众标注基本理论、标签系统、大众标注的应用、用户交互和个性化研究四个方面。关键词的聚类图和知识图谱,不但可以清晰地展示出大众标注的研究主题,而且可以清楚地看出每个研究主题内部包含的研究方向,这就为进一步的中外对比研究提供依据。

(a)国外关键词的知识图谱

(b)国内关键词的知识图谱 5.2 基于研究框架的中外对比分析 大众标注的研究框架基本构建起来之后,下面者将按照宏观、中观、微观三个层面探讨中外研究差异所在。 5.2.1 宏观层面 结合图3至图5可以看出:处于宏观层的是理论研究,研究主要集中在大众标注概念、特征和类型,用户行为和关系,标签质量的评估和控制,发展趋势研究等方面。以下将针对这四个研究方向分别进行分析。 (1)大众标注概念、特征和类型的研究。在基础概念方面,虽然大众标注经历了近十年的发展,但国内外对大众标注还没有统一的定义。Folksonomy的提出者Thomas认为大众标注既是对对象的描述,同时也是一种自下而上的分类[10]。Golder则认为大众标注是为了方便组织信息,而对内容添加的元数据[11]。Jakob将其看做一种社会化的索引方式[12],可谓仁者见仁智者见智。而国内关于大众标注的理论研究的文献很多,但并没有深入挖掘大众标注的内涵机理,仅停留在简单介绍Social-Tagging功能上,对于大众标注的定义也多是借鉴国外学者的观点。而大众标注的分类,国内的研究也还很少,而国外的Golder、Angus等则分别针对文本标签和图像标签进行了系统详细的分类[13,14]。总的来说,国内对大众标注的概念、分类等基础理论的研究还相对滞后且创新性不足。 (2)用户行为和关系研究。国外对用户行为和关系的研究起步较早,且多为实证研究。如Binkow就通过对139名学生进行问卷调查,研究了社会认同原则对用户标注行为的影响[15]。Firan则调查了音乐分享网站Last.fm上的用户偏好和标签之间关系[16]。Sen等研究了MovieLens网站用户行为的影响因素[17]。相比之下,国内的研究尚处于初级阶段,研究内容以理论研究为主,鲜有实证研究。直到2013年才出现了两篇研究用户行为的实证文章,分别是吴丹从标签数量、形式和质量三个方面比较了图书馆和图书分享网站用户标注行为的差异[18];王娜等则通过问卷调查的方式探索了用户行为的动机及其影响因素[19]。可以看出国内对于用户行为的研究尚处于初级水平,与国外还有一定的差距。 (3)标签质量的评估和控制研究。大众标注是用户为网络资源添加的元数据,因此同义词、多义词问题,用户主观性、拼写错误和垃圾标签都会影响标签的质量,进而影响大众标注应用功能的实现。因此对标签质量的评估和控制成为学者研究的一个重要方向,国内外学者提出了数十种评价方法,归结起来主要是:人工评价和自动评价,自动评价又分为有参照评价和无参照评价[20]。对标签质量的控制对策主要有:加强对标签的管理控制,加强对用户的培训,完善标签推荐和提供基于标签的个性化服务等方法[21]。对于标签质量的评估和控制研究,国内外的差异并不大,但是中外学者研究的均是英语标签的质量问题,鲜有学者研究汉语标签问题。由于汉语与英语本身存在很大的差异,中外用户的标注行为也不尽相同,因此有针对性的研究汉语标签的质量评价和控制对国内大众标注的发展具有重要意义。 (4)大众标注的发展趋势研究。从2007年国内出现第一篇大众标注的综述类文章开始,研究大众标注发展趋势的文章经历了从定性研究到定量研究的过程,研究成果十分显著。2011年之前这类文章多是对前人研究的总结,从定性的角度简单的介绍大众标注的概念和基础应用,从2012年开始,随着该领域文献数量的增多且文献计量法和可视化技术被引入进来,学者们开始运用定量的方法研究国内外文献的数量、期刊、单位、研究群体的分布及变化,更有部分学者运用内容分析法对文献内容进行了深入剖析。相比国内,国外的综述类文章却为数不多,仅有Trant在2009年发表了一篇文章用定性的方法总结了大众标注的发展现状[22]。对国内外发展趋势的研究不仅是对前人成果的总结,更是通过总结来发现研究的不足和漏洞,为未来研究奠定基础。 5.2.2 中观层面 处于中观层面的是技术研究,学者围绕大众标注系统中的各个功能模块如标签推荐、标签检索等提出了一系列的模型,而在模型的研究中尤以算法设计为主,因此国内外出现了大量关于算法的文献。本文将从算法的针对对象、算法的设计和算法的应用三个方面探讨中外算法研究的差异。 (1)在算法研究对象方面,国内设计的算法多是针对文本标签,而国外由于图片、视频和音乐共享网站已经发展得比较成熟,且拥有大量可获取的数据样本,因此国外的算法研究逐渐由最初针对文本标签的算法设计转向对图片、视频、音乐等多种形式对象的算法研究;另一方面,各种算法都是针对英语标签的设计的,对于中文标签,或是多语言标签则研究的较少,这同时也是国内学者应该关注的一个方向。 (2)在算法设计上,研究主要集中在针对各种算法的固有缺陷引入另一个模型的变量对原有模型进行扩展和整合,或是针对标签所特有的标签冗余、语义模糊等特点对传统的算法进行改进性研究。笔者发现国内在2010年之前关于算法研究的文献才12篇,2010年迅速增长至35篇,之后又呈现逐年增长趋势,通过对这些文献的分析,笔者发现虽然国内起步较晚,但发展迅速,同时也涌现出一系列先进的研究成果,到目前为止与国外的差距并不大。 (3)在算法的应用上,国外研究群体除了计算机和信息领域的学者对算法进行研究,其他学者更多的是将大众标注引入自己的领域,多注重算法的应用研究[23]。如在推荐算法方面,日本学者Chika等就为日本著名的食谱网站“cookpad”设计了一个基于标签的推荐系统,该系统可以根据食物的营养成分来推荐食谱[24];而国内更加注重算法的设计和理论研究,较少进行实践研究,设计的算法和模型大多也是利用大众标注网站的标签数据进行测试,很少基于真实的系统做出实时的测试,对于算法和模型的具体性能、响应时间并未进行测试。 整体来说,国内的算法研究还落后于国外,差异主要在:一方面,国内的算法针对对象形式较为单一,且缺乏对汉语和多语言标签的各种算法的设计;另一方面,国内设计的算法大多未经过实践的检验,更没有针对特定的网站进行算法设计。因此借鉴国外先进的研究成果,并将注意力从算法设计转移到算法应用方面,才能真正改变国内算法研究的滞后现状。 5.2.3 微观层面 位于微观层面的是应用领域和应用站点的研究。在应用领域方面,从2003年Joshua创办Delicious网站至今已有11年的历史,在此期间大众标注迅速延伸至图书馆、教育教学、商业、知识管理等各个领域。图书馆是大众标注最早开始应用的地方,2005年Casey提出Library2.0的概念[25],标志着大众标注在图书馆应用研究的正式开始。而后随着大众标注应用的不断深入,企业、知识管理、教育教学甚至是医疗领域都开始引入大众标注来改善网站性能、提高用户参与度等。而大众标注的应用站点也已涵盖社交网站、搜索引擎、娱乐网站、电子商务、即时通信、政府网站、企业网站等网站类型。由于大众标注在应用领域的差异主要在应用广度上,而在应用站点上的差异则是应用深度不同,因此笔者将分别探讨国内外在这两方面的研究差异。 (1)在应用领域方面,与国外相比,国内大众标注的应用领域和应用范围还相对较小。国内的应用研究多集中在图书馆方面,关于大众标注与图书馆融合模式的探讨[26],PennTags等OPAC系统分析[27]以及考察国内外高校和公共图书馆对大众标注实际应用情况的实证和理论研究为数较多。而国外则开辟了:电子游戏、医疗、学校教育等新的应用领域。在医疗领域,构建了基于Web的标签系统ICDTag,利用大众标注来重新组织医疗博客[28];或调查大众标注在护理领域的知识共享和学习上的应用方式以及医生对于大众标注的使用动机和接受程度[29]等都是该领域的研究热点。在学校教育方面,国外已有学校开始尝试把大众标注等Web2.0技术引入课堂,教师则以学生使用Del.ici.ous分享教学资源、使用大众标注注释教学资源的次数等作为考查学生学习的一种方式[30,31]等。在电子游戏领域国外出现了一类基于社交网站的称为“Human Computation Games”[32,33](HCG)的游戏,Bernstein等就设计了一款名为“collabio”的HcG游戏[34],通过游戏来鼓励玩家对网络资源进行标注,根据使用标签的质量进行竞赛,以游戏的方式不仅提升了用户标注的积极性,而且为网站积累了大量的高质量标签,而国内尚没有此方面的研究。出现这种差异现象的原因主要是国内大众标注的研究群体大多数是信息及图书情报领域的专家学者,而在国外,除了这两个领域,护理、认知科学、智能系统以及神经信息处理等多领域的学者都有参与其中,从而拓展了大众标注的应用范围。 (2)在应用站点方面,笔者根据Alexa网站排名汇总出位于前十位的网站应用Social-Tagging的情况表(表2)。排名前十的网站涵盖了五种网站类型,可以看出表中除了Google、Baidu这两个搜索引擎网站,其他网站都运用了大众标注技术,而社交网站、电子商务和娱乐网站更是允许用户进行标签检索并提供了标签云服务。在这8个应用大众标注站点中,美国的站点共有5个,国内的站点却只有3个,不仅国内网站数量少于国外而且国内大众标注的功能实现和与网站的融合方面都落后于国外。笔者分别对国内外同类型的网站进行考察,结果发现,除社交网站外,国内其他网站对大众标注的应用都落后于国外。如在电子商务网站中,Amazon已经开始使用大众标注对商品进行分类和检索,而国内的淘宝、京东等网站对大众标注的应用还不够成熟;在搜索引擎网站的应用情况差异更大,国外专业的标签搜索引擎Quintura、Technorati等已经广为人知,而国内尚未有此类网站。在电子邮箱方面,网易和QQ邮箱也开始使用标签对邮件进行分类,但应用水平还落后于国外的Gmail。虽然国内大众标注应用起步较晚且整体水平落后于国外,但近几年国内大众标注的应用网站也在逐渐增加,出现了较具代表性的网站如虾米音乐和SongTaste网站等,且随着社交网络逐渐盛行,未来国内大众标注的应用站点定会逐渐增多,同时应用深度也会逐渐加深。 以上的应用站点和应用领域是大众标注应用的主要阵地,除此之外,大众标注还应用在学科导航[35]、旅游网站[36]、地理信息系统[37]等方面。且随着移动3G的发展,已有学者开始将大众标注应用到移动设备上,如用户可以通过加入大众标注功能的地图应用程序[38]来分享自己的地理位置,通过具有标签推荐功能的视频[39]和图片[40]软件分享自己喜欢的视频和图片等。

在分析了大众标注三个层面的差异之后,笔者发现国内外在研究层面和研究维度的划分方面并没有差异,差异主要位于各个维度内部的研究主题上,即国内大众标注的研究并未在研究层面和维度上出现大的漏洞,但在研究主题上却同国外存在明显的差异。综合以上分析可以看出,国内偏向于理论研究,关于大众标注的介绍类和算法设计类文献较多,但对大众标注的内涵机理及应用并未进行深入的挖掘和探索,而国外则是理论和实践并重,无论是大众标注的算法应用还是应用站点及应用领域都比国内更加广泛,研究也更加深入。 6 总结 本文以2005-2013年的中外相关文献数据为基础,通过确定大众标注的研究层面、研究维度和研究主题,完成了对大众标注整体研究框架的构建。随后,笔者进一步分析了国内外在宏观、中观、微观三个层面的研究差异。结果发现,在宏观层面,相对于国外,国内对大众标注的内涵机理如概念、特征和分类等基层理论的研究不够深入,存在一定的漏洞。在中观层面,国内外研究的侧重点并不相同,国外多注重算法的应用研究,国内的研究则多集中在算法自身的改进而相关的应用研究较少。在微观层面,国内大众标注的应用还停留在图书馆、电子商务、社交网站等传统领域,国外则开始尝试将大众标注应用在电子游戏、医疗、高校教育等领域并取得了不错的效果。整体来说,国内大众标注的研究还不够成熟,在宏观和微观层面都有待进一步深化。 为对比中外大众标注的研究差异,笔者尝试构建了一个基于大众标注的研究框架,较为深入地探讨了差异所在。与此同时本文也存在一定的不足,如文献数据难以完整的获取,对关键词的处理上存在一定的主观性等,笔者将在后续的研究中进一步进行改进,以得到更精准的结果。
标签:文献分析法论文; 差异分析论文; 主题模型论文; 用户分析论文;