基于协词分析的馆藏资源语义聚合研究_语义分析论文

基于共词分析的馆藏资源语义聚合研究,本文主要内容关键词为:语义论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1 引言

      图书馆作为一种重要的知识服务机构,其馆藏资源的合理、高效利用至关重要。传统的图书馆馆藏资源主要是图书、期刊、杂志等实体馆藏资源,随着科学技术的发展、互联网的广泛应用,由各类电子图书、期刊、网络报纸、数据库等构成的馆藏数字资源正不断丰富。目前我国图书馆建设正处于以数字图书馆为主、实体图书馆为补充的复合图书馆形态[1]。然而由于我国图书馆建设正处于起步阶段,一方面受到管理体制和理念的影响难以实现文献资源共建共享,形成“馆藏资源孤岛”和“馆藏资源超载”的现象;另一方面用户由对信息的需求转化为对知识的需求[2]。因此迫切需要对图书馆丰富的馆藏资源进行聚合,从而揭示出其隐含的知识内容并将聚合结果以可视化形式呈现给用户,为用户个性化需求提供高效、全面的知识服务。最终实现图书馆知识服务水平和能力的提升以及馆藏资源利用率的提高,不断推进图书馆信息服务的发展。

      2 共词分析与馆藏资源聚合

      2.1 馆藏资源聚合

      馆藏资源聚合的本质是对馆藏数字资源的聚合,主要包含两方面的内容:聚集和融合。馆藏数字资源的聚集侧重于按照数字资源实体外部特征建立资源导航。当然实现这一过程的基础条件是将异构的资源载体和不同分布的数字资源实现物理或逻辑上的集中以便于用户以统一的方式获取资源,即解决数据源的异构性和离散性,实现对数据的集成。馆藏数字资源的聚集虽然能使数字资源系统化、组织化,但资源间缺乏语义关联不能为用户提供知识服务,还只是馆藏数字资源形式上的聚合;馆藏数字资源的融合则根据某种语义关联对不同数字资源实体的内容单元进行整合使其形成具有知识关联的数字资源体系,进而方便用户按照其特定的需求进行全面、准确、快捷的知识发现,实现个性化的知识服务。从这一角度而言馆藏数字资源的融合实现的是数字资源内容上的聚合。我们可以看到馆藏数字资源的聚合与一次性、全面获取数字资源不同。后者只是按某种机制或标准链接不同类型、不同来源、不同载体的数字资源,使相对独立的资源实体之间产生联系实现无缝链接的一种信息整合[3]。前者已上升到知识整合的范畴,通过对数字资源实体中内容特征及其构成的关联所形成的知识进行组织,最终帮助用户获取知识。因此要想实现资源聚合就必须挖掘出资源间的某种语义关联。

      2.2 共词分析

      共词分析是计量学中常用的内容分析方法之一,它是以文献资源中关键词这个知识单元作为研究对象。共词分析通过表征文献内容的关键词共现情况来确定各主题之间的关联关系。关键词是对文献内容的精炼和概括,能较好地体现文章的核心内容、研究主题。两个(多个)关键词出现在同一篇文章中的次数越多说明其所代表的主题越相关;如果两篇(多篇)文章出现相同的关键词越多则说明这两篇文章在研究内容上有一定的相似性。由此统计一组文献的关键词两两之间在同一篇文献出现的频率,便可形成一个由这些关键词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系[4]。因此,利用共词分析法可以将主题内容相近的文献资源聚合到一起,从而揭示出某一学科领域的主题内容、主题分布、热点主题等。通过词与词之间的共现频次来度量关联强度,共现频次越高则关联强度越强。

      3 基于共词分析的馆藏资源语义聚合流程

      不同论文作者使用相同的关键词,研究出现相同关键词的论文之间的关系我们可以看做是基于元数据的微观语义关系。因为文献资源中一篇文献的关键词对该文献内容进行了描述,实现了对文献信息的概念抽象;而不同论文出现相同关键词越多能够表明论文内容相似性的这种关系是计量学领域专家分析总结得出的,具有明确性并且得到广泛认同。此外,关键词和论文之间的这种概念、关系只要通过本体语言进行再组织能够实现XML语言描述使机器可读。这与语义网中本体定义的四层含义:概念模型、明确、形式化、共享相契合[5],而且共词分析所描述的概念、关系运用语义网语言描述也可进行语义推理。

      另外,前文提到利用共词分析统计关键词对共现频次可以形成共词网络。在共词网络中每个节点代表关键词,节点间的连线代表共现关系。节点的大小代表出现频次,节点间连线的粗细代表共现强度。节点越大说明所代表的关键词出现频次越高;节点间连线越粗说明两关键词间的共现强度越强。语义网中的一条关系由两个节点和一条带有属性的边组成,所有关系则由无数个节点和无数条边组成,构成一个网状结构[5]。从共词网络和语义网的这种可视化展示角度而言,二者的理论和方法研究可相互借鉴。因此,将计量学中共词分析方法引入到馆藏资源聚合研究中可以实现基于共词分析的馆藏资源语义聚合。本文设计了基于共词分析的馆藏资源语义聚合流程,如图1所示。

      

      (1)确定数据源并获取数据。由于一篇文献中的关键词较少且都是作者自己标引,同时关键词中存在许多同义词、近义词,缺乏较为规范的语义逻辑。因此要对关键词进行映射使其具有规范性和受控性,从而提高共词分析结果的准确性。另外,共词分析需要一定数量的文献资源作为统计基础,文献量太少难免分析得不够全面;数据量太大势必会造成混乱且数据处理工作会相当繁重,因此,在选定学科领域进行分析时要注意文献量的适中程度,最好收集的文献量不应低于1000条[6]。在做共词分析时要从适量源数据中抽取出能反映文献内容的关键词作为分析对象,这样才能提高数据的准确性从而得到更精确的聚合结果。

      (2)数据预处理。为避免数据量太过庞大而造成数据不准确及操作太过繁杂,通常选取高频关键词作为研究对象。某一关键词出现的频次越多说明该领域相关问题研究越多。由于关键词中存在许多同义词、无意义的词、错误写法等,需要对其进行数据清洗,将低频词去除,将同义词、无意义的词、错误写法等进行合并、删除。

      (3)构建共现矩阵和相似矩阵。选定了数据对象后,可以通过构建共现矩阵来分析共现数据。统计每个关键词在文献中同时出现的次数,利用Excel和VBA实现共现矩阵的生成。在生成了共现矩阵之后,需要生成相应的相似矩阵来计算共现矩阵中共词对的关联度,主要测度方法有Dice指数、余弦指数、Jaccard指数、Ochiia系数等。

      (4)聚类分析。由于共现矩阵将资源内容关联以高维数据集合的形式存储下来,难以体现资源间的隐含关系。因此,需要利用聚类的分析方法把众多研究对象之间错综复杂的网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来。聚类分析实质上是寻找一种能客观反映资源之间亲疏关系的统计量,然后根据这种统计量把资源分成若干类[7]。目前常用的分析方法有系统聚类、主成分分析(principal component analysis)和多维尺度。

      (5)战略坐标分析。共现分析通过聚类使得被分析的关键词对按紧密程度划分为一个个的类团,一个类团代表了该资源主题相关的一个组成部分,同时也能够体现该类团在该主题内容中受关注的程度。为了更明确地反映类团在该主题内的构成与作用,并且进一步将聚类的结构以更加直观的方式显示出来,战略坐标图就是较好的选择。

      4 基于共词分析的馆藏资源语义聚合知识服务的内容体系

      在整个聚合研究中,如何根据聚合结果为用户提供知识服务而非仅仅是满足信息需求是至关重要的。在上述数据处理、聚类分析、战略坐标分析的基础上,我们可以借助本体、主题图等语义技术实现基于主题的语义标引,将热点主题、研究主题与文献、作者、期刊等资源联系起来。实际上利用本体或主题图可以构建文献、作者、期刊等资源实体的类与库。因此,这些资源实体间已存在丰富的语义关联,对这些资源实体的多维语义标引。用户通过检索词进行检索会得到基于主题的主题导航和相近检索词,主题导航的检索结果包含聚类分析得到的研究主题。通过各个主题的检索就会得到各个主题领域的核心作者,进而得到这些领域专家的相关文献。基于共词分析结果的聚合最终为用户实现知识服务的内容体系如图2所示。

      

      5 实证研究

      5.1 数据获取与预处理

      本文以CNKI中国学术期刊网络出版总库为数据源,选取主题=“社交媒体”进行检索,共得到1181篇文献记录。将获取的数据对象存入Excel中,将得到的关键词进行合并同义词、删除无意义词以及关键词映射后最终得到872个关键词。根据关键词的词频排序,可以得到如表1所示的部分高频关键词。由于数据量过大会给人工处理数据造成困难,且很多出现次数少的关键词很难与其他关键词构成共现对,造成共现矩阵过于稀疏,会对结果造成影响。因此,选取词频为5次及以上的关键词进行研究,共筛选出75个高频关键词作为最终数据。

      

      5.2 构建共现矩阵

      利用VBA程序生成如图3所示的共现矩阵。

      在实际的计量化分析中,词对频率是绝对难以反映词与词之间真正的相互依赖程度,因此,有必要对词频率进行包容化处理,包容化处理的结果能反映出两词间的紧密联系的程度[4],对词对频率包容处理的方法包括包容指数法、临近指数法、相互包容系数法。本文中采用相互包容系数法中的Ochiia系数对共现词对频率进行包容处理,得到如图4所示的相似矩阵。相似矩阵中的数字为相似数据,取值在0到1之间。数值越大就表明两个关键词之间的关联度越大,相似度越好;反之,数值越小就表明关键词之间的关联度越小,相似度低。

      

      

      5.3 聚类结果分析

      在得到共现矩阵和相似矩阵之后,需要对关键词共现相关矩阵进行聚类分析。通过聚类分析使得关系密切的主题聚集在一起形成类团,表达某一领域分支的组成[7]。本研究利用聚类分析软件SPSS,采用聚类分析中最常用的系统聚类法。系统聚类是一种类别聚合过程,首先认为每条数据自成一类,然后根据对象之间的相似程度,由高到低逐步合并,直至最后合并成一类,部分分析结果如图5所示。

      

      从系统聚类结果来看,社交媒体作为信息发布、传播、共享的途径和工具已广泛应用于人们学习、工作和生活的各个方面,并在政府、企业、科研机构等发挥着重要作用。该领域的研究不像其他学科领域有比较集中或突出的分支主题,相对而言该领域的研究范围比较广泛,因此,聚合结果可细分为14个聚类。本文根据聚类结果列出部分分支主题研究类团,如下页表2所示。

      为了正确确定各类团主题,文中引入粘合力的概念。粘合力是用来衡量类团内各主题词对聚类成团的贡献程度,表达每个主题在类团的聚集过程中所起作用的程度。通过计算类团内每一关键词与其他关键词共现频次的均值来确定类团内各关键词的粘合力。在类团中,粘合力最大的词称为中心词,中心词在确定类团的名称与性质中起至关重要的影响[8]。

      此外,社交媒体研究中还涵盖了媒体或新闻事件在公众中传播方式的研究,社交过程中媒体参与方式、程度的研究,传统媒体与新媒体之间的比较研究,以互联网为媒介的网络媒体的研究,电视媒体与其他媒介的互动融合研究,社交媒体的营销与管理研究,数字媒体的信息安全、电子商务中的社交媒体营销研究等主题。

      

      5.4 战略坐标分析

      虽然聚类分析将联系紧密的关键词聚成一个个类团,组成社交媒体领域的研究内容。但类团之间的关系并没有表明即无法明确哪些是核心类团,从而无法得出该学科领域的热点主题,因此,本文借助战略坐标图对其进行揭示,如图6所示。图中X轴为向心度,表示类团间相互影响的强度。沿着X轴方向类团在坐标中的位置越靠右,类团向心度越大,说明该类团与其他类团关系越密切。Y轴为密度,表示类团内部联系强度。沿着Y轴方向,在坐标中位置越靠上,类团的密度越大,说明该类团内部各成员间的联系密度强。从图中我们可以看到类团4所代表的“以互联网为媒介的网络媒体的研究”、类团1代表的“媒体或新闻事件在公众中传播方式的研究”、类团7代表的“电子商务中的社交媒体营销研究”、类团8代表的“社交媒体中信息发布与传播模式、策略的研究”这4个类团处于第一象限,它们的密度和向心度都是所有类团中较高的,类团中成员间的关系密切,即类团中成员都是相关性很高的关键词并且这些类团与其他的类团联系也很紧密,特别是类团1和类团4。这些主题是社交媒体领域的重要研究内容和热点问题。

      

      6 结语

      以往学者利用共词分析对某一学科领域进行主题分析仅仅局限于学者自己对该学科领域的研究分析,虽然能够通过发表论文、专著等方式实现共享和信息服务,但也只是了解该领域有哪些研究主题和热点问题。而这些研究主题和热点问题又有哪些学者在研究、其相关文献又有哪些,我们很难深入了解。通过对社交媒体领域的相关文献资源进行基于共词分析的语义聚合的实证研究,我们可以知道基于共词分析的语义聚合在共词分析法得到某一学科领域的研究主题和热点问题的基础上,通过在用户层借助本体、主题图等语义技术构建资源服务平台,将这些基于共词分析的聚合结果进行基于主题的语义标引实现用户检索词推荐和主题导航以及热点问题掌握并将各分支研究主题的文献、作者等相关资源以可视化形式提供给用户,从而满足用户信息需求到知识服务的转变,最终实现基于语义的信息检索进而提高用户检索结果的全面性以及图书馆知识服务水平和能力。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于协词分析的馆藏资源语义聚合研究_语义分析论文
下载Doc文档

猜你喜欢