基于词共现的社会化标签研究热点可视化分析,本文主要内容关键词为:热点论文,标签论文,词共现论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doí:10.3772/j.issn.1000-0135.2012.02.012
1 引言
在Web2.0的浪潮下,过去10年见证了社会网络在以用户为中心的设计、信息共享等方面的作用,其中成功的例子是包括Wikis、社会网络服务(SNS)、Blog以及支持内容共享,包含社会化标签的网站的出现,社会化标签是这些众多服务中的重要一员。社会化标签(social tagging),又名社会化书签(social bookmarking)、社会化分类(social classification),通常还被称为Folksonomy、Social Annotation、Collaborative Tagging、Social Indexing。其中,人们常用的是Social Tagging和Folksonomy。前者表示的是社会化标注,后者是大量社会化标注所产生的结果,使信息资源浮现出类别的特征,称之为大众分类[1]。社会化标注作为一种用户驱动和群体交互式的标引机制,允许用户对资源赋以个性化标签,并可通过标签的聚合和相关度来实现信息组织。笔者通过在Web of Science数据库中以“social tagging”、“folksonomy”、“collaborative tagging”、“social bookmarking”、“social annotation”为关键词进行检索,发现关于社会化标签研究的最早文献始于2006年,众多研究者对社会化标注的研究已经进行了5年有余,通过对社会化标签研究情况的简单梳理,可以将其概括为几个方面。
(1)概念辨析类
Ying Ding等对社会化标签的性质、如何使用标签、如何将标签和其他网络功能联系起来进行探讨[2],将文献计量学和标签计量学进行比较,认为文献计量学方法论能够应用于分析网络中的标注行为。Angelova对用户标签之间的关系、标签的关联强度以及隐含关系进行了研究[3]。
(2)功能应用类
Lee和Ge研究了高等教育环境下,基于个性化标签的开放知识管理的个性化和社会化特征[4]。Nanopoulos等对个性化标签在音乐检索方面的应用以及个性化音乐推荐进行了探讨[5]。Parke和Gaiser通过对社会化标签的个性化和社会化的特点进行识别,帮助个性化知识的组织和获取[6]。当使用社会化标签对博物馆的在线馆藏进行标注时,存在问题诸如标签质量、与传统标引系统相比缺乏可扩展性、缺乏互操作性的问题,Hunter和Gerber提出一种集成系统,克服了社会化标签系统的许多限制[7]。此外,Goh和Chua认为社会化标签是一种资源发现的有效方式[8]以及将社会化标签应用于学术型数字图书馆[9]。
(3)互操作性研究
Good等从文件空间的覆盖、每个文件的元数据(标签)密度、标注一致性、与MeSH标引的一致性这些标准,对两个学术性社会化标签系统“Connotea”和“CiteULike”的元数据与PubMed进行了比较,认为在生命科学领域对社会化标签的使用需要吸引更多的用户并创建新的用户平台,以鼓励更多有用的个人性质的标引行为[10]。Lu等从语义相似性角度,通过美国国会图书馆的主题词表预测社会化标签。作者认为,由社会化标记标注的大量信息对其信息组织和检索提出了新的挑战,一种可行的方式便是将社会化标记与受控词表联系起来[11]。Kim和Decker引入了一种语义标签模型,目的是更清晰地展示标签之间的结构、语义和关系,提高社会化标签的数据共享性和互操作性[12]。
(4)对社会化标签的个性化推荐的研究
Symeonidis和Nanopoulos认为社会化标签系统能够提供①标签到用户;②资源到用户;③具有共同偏好的用户这三种类型的推荐,并提出了统一框架对三种类型的推荐进行模型化[13]。Barragans-Martinez等认为基于标签的推荐提高推荐系统的覆盖性和多样性[14]。
对社会化标注的研究中存在许多专用词汇,也产生许多新鲜概念,哪些是社会化标记的热点研究问题,这些问题之间有哪些联系,如何从整体对其研究领域进行把握,探悉其研究的主题结构和研究热点,需要进一步通过定量手段进行确定,因此,本文从词共现的角度,通过运用多种信息可视化方法,对社会化标注这5年的研究情况进行可视化揭示。
2 研究方法
众多研究表明,共词分析在揭示研究主题之间关系和展示其间隐藏的不易发现的关联方面,具有强大的功能。在共词分析方法中,聚类分析被用于度量将词汇汇成簇的这种连接关系的强弱。聚类密度是衡量聚类能力的重要指标[15]。聚类中心度,作为所有外部连接的总和,能够用于评估一个聚类和其他邻近聚类交互的强度[16]。信息可视化技术使传统的数据分析更加透明化,由可视化技术生成的可视化结果能够使人们以多层次多角度来观察研究对象间的关系。例如,一个聚类算法能够对研究对象产生聚类,但是却不能说明这些对象间的联系以及一个聚类内的对象如何与另一个聚类内的对象相联系。
在本研究中,使用了系统聚类的方式以树状图的形式进行聚类结果的展示。在这样的树型结构中,邻近的聚类或一个类中的互相毗邻的对象很容易识别,但是,在树状结构中,邻近关系被用来展示最接近的聚类或对象,这种简单方式不能对更复杂的对象间关系进行揭示。此外,聚类分析也不能揭示对象间关系的强弱程度。基于上述的探讨,对研究对象进行可视化分析必须借助更广泛的技术和手段,如Pathfinder associative networks[17]、自组织地图self-organizing maps[18]和多维尺度分析multidimensional scaling(MDS)analysis[19]。
在文献计量学和科学计量学领域,基于书目信息对科学图谱进行描绘的想法一直影响着众多研究者将近20年时间。在这期间,多种科学图谱被开发。科学图谱的多样性显示了文献著者、文献之间、期刊之间以及关键词之间潜在的关联,并且这种潜在关系通过引用、共引、文献耦合或关键词共现等研究方法进行展示。多种可视化技术被应用于描述科学图谱,其中最流行的技术是多维尺度分析技术(multidimensional scaling,MDS)引用。MDS被广泛地应用于构建文献著者之间关系的科学图谱[20]、文献间关系的科学图谱[21]、期刊间的关系[22]以及关键词之间的共现关系[23]。在众多的信息可视化技术中,MDS具有以下优点:
(1)MDS中使用的数据不受任何事先分布假设的约束;
(2)能够处理不同类型的数据,包括定序变量、定距变量、定比变量;
(3)已经被不同领域的研究所使用,是一种成熟、应用广泛的方法;
(4)很多商业软件如SPSS和非商业软件如XGvis包括MDS[24]。
因此,本文的研究手段是通过共词分析方法,借助多维尺度和聚类可视化分析方法,对社会化标签研究领域中的热点词汇进行识别,对其关系进行检验,揭示这些热点关键词之间的亲疏远近关系。研究过程大致分为四个阶段:原始数据收集、原始矩阵(文献一关键词矩阵)、关键词共现矩阵和MDS分析。其中,每一步都需要变量操作。
3 研究过程
3.1 数据来源
本文以ISI的Web of Science数据库作为数据来源,以“social tagging”、“folksonom*”、“collaborative tagging”、“social bookmarking”、“social annotation”为主题词分别进行检索,将检索文献限定为“article”和“proceeding article”,时间限定选定为“all-year”,经过去重和精简后,共得到文献192篇,见表1。从表1可以发现,检索所得文献和实际相关文献之间存在相当的数量差异,造成这种结果的主要原因是笔者在进行文献检索的过程中发现,不相关文献强调的问题诸如生物标记物、社会福利系统以及生物研究的标记技术与本文研究主题毫不相关;其次,每个检索词的检索结果有若干重复文献,因此,笔者对这些不相关文献和重复出现的文献进行了剔除。之后对192篇文献的关键词进行人工抽取。关键词是文献作者对文献内容的高度概括,对关键词进行统计分析能够得到有关social tagging的研究前沿和热点主题。其中42篇文献在收录时没有包含关键词,需要从文献标题、摘要或文献内容中人工抽取关键词。经过对42篇文献关键词的人工抽取以及150篇文献的作者关键词进行采集,共得到1036个关键词。
3.2 数据规范化
传统的共词分析中,为了便于词汇的分类,研究者通常需要对关键词进行规范化。在这一过程中,研究者需要考虑关键词的同义词、缩略词等问题。在本研究中,如果文献包括作者关键词,即不对关键词进行任何规范化,如果不附带作者关键词,即进行人工抽取,共得到1036个关键词。之后对重复关键词和同义词进行了去除,对无意义的词进行了清洗。每个关键词及其出现频率按降序排列,共有296个关键词。为了更清晰的对social tagging研究领域进行描绘,本研究将阈值设定为3,去掉了出现频率为1和2的关键词,因为频率为1或2不能集中体现研究领域的热点和前沿,因此得到频率>=3的关键词共64个,见表2。依据有两点:一方面,关键词的出现频率越高,与其共现的词可能也越多。相应地,如果一个关键词和少量的词共现,则将较难产生有意义的相似性分析结果。另一反面,在图谱的生成过程中,有多个变量的选择会影响MDS分析结果的Stress Value。对这些变量进行选择和确定,对产生有说明性的研究结果具有很大影响。有学者通过研究发现,如果与源关键词共现的关键词数量减少,即共现阈值变大,则在同样的实验环境下产生的相应Stress Value也会变小[25]。然而,如果增大共现阈值,则会损失一定数量的共现关键词,会影响在可视化环境下对词与词关系的展示、观察和分析,不利于深入的揭示研究对象间的关系。综合考虑,在本研究中,将共现阈值设定为3,得到共现对象64个,便于在可视化环境下的观察。
可以发现,social tagging的研究始于2006年,其文献量随时间递增,2006年被Web of Science数据库收录的相关论文仅2篇,2007年和2008年增加至16篇,2009年和2010年均为56篇,2011年截至8月30日,相关文献共46篇。见图1。
图1 social tagging发文量随时间变化
3.3 实验阶段
本研究中,64个关键词和192篇文献组成了原始矩阵。矩阵中的每一个文献通过固定关键词的权值进行描述,权值的多少显示了关键词和这篇文献的关联程度。在本实验中,给关键词赋权值的方法是在文献—关键词矩阵中,如果文献j中存在关键词i,则=1;否则,=0。
步骤二,即生成关键词—关键词共现矩阵,如果关键词i和j的共现频率为n,则=n。共现频率越高,则表示两者关系越紧密,即其共同描述的研究主题越相近,显示在MDS图谱中为两词的距离越近。经过计算,得到了64*64的共现矩阵。
第三步,使用distance-based相似度量计算每个关键词之间的距离。为了建立关键词之间的可视化关联,首先要确定任意两个关键词之间的相似性。通常不能直接将共现频次应用于MDS,因为普通的共现频次不能恰当地反映对象间的相似性[26]。为了确定对象间的相似性,需要使用相似度量对共现频次进行转化。相似度量一般分为直接相似度量和间接相似度量两种方式[27]。直接相似度量通过对共现频次进行规范化来决定两个对象间的相似性。间接相似性度量通过比较共现频次的两个向量来确定对象间的相似性。大多数研究者倾向于使用间接相似度量在共引数据的基础上对著者或期刊进行科学图谱的创建。本文采用基于距离的相似性度量来规范化词与词之间的距离。值得注意的是,不同规范化方法的选择不会改变度量对象之间的本质关系,而只是改变其相互之间联系的程度。本文选用基于距离的相似性度量进行计算:
这里,参数c是一个常量,c>1,所以能保证经过规范化的相似值处于0和1之间。在本研究中,c 被设置为1.4。变量δ是任意两个关键词之间的距离。计算δ的公式如下:
通过计算任意两个关键词之间的相似距离,然后创建相似性矩阵。在此基础上,使用SPSS的多维尺度和聚类分析进行可视化研究,目的是描绘social tagging的研究地图,客观地显示此专题的研究热点和主要问题。MDS能够在低维度空间定位研究对象,任意两个研究对象在低维空间上的距离尽可能正确的显示两者的相似性和关联关系。对象之间的关联性越强,两者之间的距离也就越近。在MDS图谱中,每个点的位置显示了关键词间的相似性。具有高度相似性的关键词聚集在一起,组成了研究领域的前沿。因为其健硕性和三维的MDS显示平台,本研究选择SPSS软件进行MDS分析。
可视化图谱维度的选择也会影响Stress Value,维度越高,相应的Stress Value则会变小,说明拟合程度也会更高,同时,维度增加也允许研究者在可视化空间中多角度地观察展示结果。由于在SPSS环境下,最大维度为3,因此本研究选择维度为3。此外,Minkowski距离被用来计算可视化空间中两个对象间的距离[28],在SPSS环境下对Minkowski度量参数的选择会影响到MDS分析结果的Stress Value。对于k值的选择取决于研究者的选择,在本研究中,将k设定为1。
综上所述,为了得到较好的拟合效果,必须对共现阈值、可视化空间的维度以及MDS分析中Minkowski参数k进行设置。在此基础上生成MDS 图谱,通过聚类分析进一步确定研究热点和区块。在聚类分析中,不需要事先对研究对象进行分类,而是依赖于对象之间的相似性进行聚类。本研究使用“系统聚类分析”对MDS分析结果进行再一次验证。最后,将MDS分析结果和聚类结果进行对比和结合,通过相关的文献回顾,可以描绘出social tagging的研究热点、发展趋势。
4 研究结果和分析
在这一步中,将相似矩阵输入到SPSS中进行可视化分析。表2列出了本研究的主要数据结果,包括Minkowski参数,RSQ,Stress Value以及聚类数。Stress Value<0.10,RSQ>0.90被认定为拟合效果好,本研究的Stress Value和RSQ都在这一范围内,说明结果具有效力。
图2包括了由64个关键词组成的7个聚类。
图2 多维尺度分析输出结果
C1:folksonomy(k22)、social tagging(k42)、Web 2.0(k51)
C2:social bookmarking(k39)、tag(k46)
C3:social networks(k3)、semantic web(k37)、recommender system(k32)、collaborative tagging(k14)、social annotation(k38)、ontology(k29)
C4:classification(k11)、collaborative filtering(k 12)、information retrieval(k24)
C5:World Wide Web(k7)、search engine(k34)、controlled vocabulary(k16)、knowledge management(k4)、ranking(k6)、Blog(k9)、Flickr(k21)、Delicious(k18)、metadata(k28)、recommendation(k31)、social networking site(k40)、Wiki(k52)、subject heading list(k8)、tensor(k47)、audio(k55)、user interface(k49)、user-generated content(k50)、semantics(k59)、social tagging system(k64)、image retrieval(k23)、image tagging(k56)
C6:social web(k43)、social software(k41)、CiteULike(k10)、MeSH indexing(kl)、subject indexing(k61)、OPAC(k57)、RSS(k33)、Upper Tag Ontology(UTO)(k5)、Youtube(k53)、tag cloud(k44)、internet(k25)、knowledge sharing(k26)、tag ontology(k45)
C7:digital collection(k19)、RDF(k30)、semantic representation(k36)、latent semantic analysis(k27)、semantic relation(k35)、thesaurus(k48)、random walk(k58)、social media(k60)、semiotic dynamics(k2)、emergent semantics(k20)、collaborative system(k13)、data mining(k17)、complex networks(k15)、taxonomy(k62)、video(k63)、algorithm(k54)
从图2可以看出,C1距离其他聚类较远,说明它是一个较为独立的聚类。Folksonomy(k22)、social tagging(k42)——作为本研究的“源”关键词,由于它们与其他词汇关联的方式是通过固定方式确定的,因此,在可视化空间中和其他与之共现的词汇保持着大致相同的距离。在k22和k42作为中心词被确定之后,一组与之有关联的词汇通过共现关系被确定下来。例如,C2中的social bookmarking、tag 也是经常与之共现的主要研究词。
C3代表了包括了ontology、semantic Web、annotation、social network等关键词,说明围绕social tagging的研究中存在关于语义网、本体这一方向,强调了语义网和社会网络对社会化标签发展的重要性。标签的易用性和随意性导致大众分类系统具有局部变动和分散变动两方面问题。局部变动是指标签不能总是正确和连续的表达用户的心理模型,缺乏语义表达能力;分散变动是指大多数标签系统都用自己的方式对标签的含义进行诠释,因此对不同服务平台上对标签进行集成,很难找出标签的含义和关联[28,29]。这些缺陷是由于标签系统缺乏统一的结构和语义表达所造成的。构建标签的概念体或本体,将其应用于社会性标签系统中标签数据的表达,是这类问题的研究方向之一。
C4与C5相邻,C4表明了社会化标注在信息检索领域的研究主题,而C5聚类是这一主题的细化,包括了受控词汇、元数据、知识管理、推荐系统。社会性标签不仅是一种个人分类过程,也是一种标引的社会化过程,是一种新型的元数据创建方式,给信息检索带来了新的挑战。它通过两种信息存取的范式:信息过滤(IF)和信息检索(IR)实现用户对已做过标记的网络资源进行存取。因此,信息过滤和信息检索成为了聚类团中的重要组成部分。
推荐系统作为继信息检索和信息过滤之后的第三种解决信息超载问题的技术,发源于信息过滤领域,用于识别用户可能感兴趣的内容集合,挖掘与用户、内容集合相关的信息源。与信息过滤不同,推荐系统积极地预测用户感兴趣的标签,将它们添加到传递给用户的信息上。
社会化标记作为创建元数据的一种新方式,引起了图书馆和信息科学领域研究者的注意,众多研究者对将社会化标记融入图书馆环境,将大众分类(folksonomy)与正式分类融为一体进行了可行性研究,例如将由用户生成的社会性标记与专家制定的主题词表下的主题词进行比较,检验两者的差异和关联。此外,协作性过滤作为基于群体的信息过滤机制,是推荐系统中应用最为广泛的技术之一,关于它的研究通常是与用户生成内容、排序以及搜索引擎相联系。
C6是关于社交网站的相关词汇聚类。社交网络通过提供免费空间和软件允许个人构建公开或半公开的资料,正是社交网络提供了社会化标签的应用平台,通过社会化标签,网络上的团体使用标签定义资源(站点、图片、视频、音频等)间的连接。各种社会软件通过开发共享的知识构建、元认知以及知识生产,在支持学习和知识过程中起到了关键作用[30]。与此同时,信息过滤范式下,用户处在被动位置,期待系统能够推送给其感兴趣的信息,社会化标签工具能够实现简单的信息过滤存取模型,用户通过RSS订阅一个特殊的标签集,当符合这个集合的新资源被标引时,用户会得到提醒。在信息检索范式下,用户通过浏览和询问主动搜索信息。在标签查询过程中,用户键入一个或多个标签来获取与搜索标签相关的资源列表。为了实现浏览可视化,一种叫做“Tag-Cloud标签云”的交互模型应运而生[31]。
C7是最大的聚类,位于分析图的中央,它包含了7个子聚类,C7-1(digital collection、RDF);C7-2(semantic representation、latent semantic analysis、semantic relation、thesaurus); C7-3(random walk、social media); C7-4(semiotic dynamics、emergent semantics); C7-5(collaborative system、data mining、complex networks、taxonomy); C7-6(video、algorithm)。可以发现,数字资源和资源描述框架距离较近,语义表达和标签本体组成了一个小的研究簇,对潜在语义分析和语义关联、叙词表的研究联系紧密,语义动力学和新生语义(emergent semantics也称涌现语义、自发语义)形成了一个研究子领域。此外C7-3、C7-5、C7-6分别代表社会媒体、数据挖掘、视频这些研究对象及与其研究相关的关键词。
5 结语
多维尺度分析从语义角度对研究对象进行揭示,通过与系统聚类结果进行综合,进一步确定了关于社会化标签的研究热点,发现对社会化标签的研究主要集中在大众标签的语义表达、标签概念化(本体)、信息过滤、推荐系统、与传统主题词表的兼容问题、对社交网络平台的研究,此外,还存在一些小的聚类代表了社会化标签的研究前沿和趋势。本文通过文献计量方法,对社会化标签5年的研究情况进行了共词分析,以期为众多研究者提供这一领域的研究图谱,从语义层次加深对整体研究情况的了解。
标签:聚类论文; 语义分析论文; 可视化论文; 相关性分析论文; 用户研究论文; 相似性度量论文; 社会化平台论文; 文献回顾论文; 用户分析论文; 关键词分类论文; 相似性论文;