共词分析方法研究(1)共词分析的过程和模式_主题词论文

共词分析法研究(一)——共词分析的过程与方式,本文主要内容关键词为:分析法论文,过程论文,方式论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 共词分析法的起源与原理

共词分析方法最早在20世纪70年代中后期由法国文献计量学家提出的。1986年,法国国家科学研究中心CNRS(Centre National de la Recherche Scientifique)的M.Callon、J.Law和A.Rip出版了《Mapping the Dynamics of Science and Technology》[1]。共词分析经过20多年的发展,方法已经被广泛应用到许多领域。到目前为止,共词分析方法产生了大量的应用成果。在人工智能、科学计量学、信息科学和信息系统、信息检索等领域都得到很好的应用。

共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。共词分析就是以此为原理,将文献主题词作为分析对象,利用包容系数、聚类分析等多种统计分析方法,把众多分析对象之间错综复杂的共词网状关系简化为以数值、图形直观地表示出来的过程。

2 共词分析法的过程

运用共词分析法进行文献情报的分析研究大致可分为六个步骤,在实际的操作上有些步骤是可以合并的或重复使用的。

2.1 确定分析的问题 利用共词分析法基本原理可以概述研究领域的研究热点,横向和纵向分析领域学科的发展过程、特点以及领域或学科之间的关系等等。不同的问题有不同的分析过程,采用不同的数学计量方法。

2.2 确定分析单元 有学者认为共词分析可以选择文献中的关键词、主题词为共词分析的基本单元。在共词分析中借助数据库管理软件以及SPSS统计软件进行识别统计,对计算机而言同义不同词的词在统计过程中,被看作两个完全不相关的词汇,对统计分析的结果产生很大干扰。因此,被分析的词汇最好是受控的、被统一标引的主题词。只有这样,共词分析方法利用文章中词语对的共现频次来反映包含在文章中的概念才能成立[2]。

2.3 高频词的选定、为方便文献的组织与检索,标引人员用主题词对文献的内容进行分析、提炼,数个主题词间的组合、限定反映文献中的内容,因此如果文献集中关于某一问题的研究越多,则相应主题词出现频次也越多。为简化统计的过程及减少低频词对统计过程带来的干扰,通常共词分析选择高频主题词为分析的对象。共词分法对高频词数量的选择没有统一的见解,如果主题的范围过小,则不能如实反映学科知识点的构成;如果主题的范围选择过大,则给共词分析过程带来不必要的干扰。用域值表示高频词划分的频次值,高频词域值越高,高频词的数量越多。高频词阈值是被认定高频词的词频总和,占所有词频总和的比率。高频词的确定主要有两种方法:一种是结合研究者的经验在选词个数和词频高度上平衡,该方法具有一定的主观性;另一种是结合齐普夫第二定律辅助判定高频词的界限[3]。

2.4 共词出现频率 为反映高频词之间的关系,两两统计它们在同一篇文献中出现的次数,如果两个主题词在众多的文献中出现频率高,则说明它们之间的关系密切。共词分析对文献中的这种词对的共现频率进行计量化分析,揭示这些词对的关系及其规律的过程,实现对学科结构、研究热点、学科发现动态的分析。在共词分析中,为方便词对共现频率的运算,设计共词矩阵,对于N个高频词的共词分析中,便形成一个N*N的共词矩阵。在实际的计量化分析中,词对频率是绝对值,难以反映词与词之间真正的相互依赖程度,因此有必要对词频率进行包容化处理,包容化处理的结果能反映出词间的紧密联系的程度,对词对频率包容处理的公式有以下三种:

a.包容指数法[4]。包容指数主要用来计算主题领域的层次,计算公式为:

2.5 共词分析中统计方法 共词矩阵的计算是共词分析中的重要一步,在此基础上采用不同的统计学方法,揭示共词中的信息,常用的分析方法有:聚类法、关联法、词频法、突发词监测法等。有关这方面的研究在下文中进行详细的阐述。

2.6 对共词结果的分析 共词分析过程的各种数学统计,是为了以更客观、更直观的方式反映主题间的关系,要深入揭示隐含在文献群的知识,必须结合相关学科的知识对统计的结果进行科学分析。

3 共词分析的类型

词对出现频率是共词数量化处理的基础对象,为进一步揭示隐藏在主题关系中的知识,许多学者做了大量的研究,他们将各种统计知识、数据挖掘原理应用到共词分析中来,目前比较常用的处理方式有以下四种:

3.1 共词聚类分析法 词对在同一篇文献出现的频率,反映词对间关系紧密的程度。在由词对共现所构成的主题词关系网络中,一个主题与多个主题形成关联,相互间构成立体状的关系网,在这种关系网中,很难分辨出由哪些主题词组成类团。为此,需要借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之间的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小[7]。

类团分析是共词聚类分析的核心内容,有关这方面的研究在随后的《共词分析法研究(二)》。

共词聚类分析法在评价学科文献的发展有着广阔的应用前景,许多学者利用这种方法在不同领域内进行文献评价。蒋颖[8]利用共词聚类分析法,对1995~2004年全球文献计量学领域的主题内容进行了分析,她将这10年的文献分成两段,每5年一段,纵向对比这两个时间段的类团构成、主题演变,发现文献计量学领域内部结构正在发生变化;领域内部主题范围进一步扩展;研究对象出现多样化趋势等。张晗[9]用共词聚类分析法以及类团的战略坐标分析法,对生物医学的现状进行分析,聚类的结果表明分析结果与有关生物信息学进展报道的内容吻合,说明共词聚类分析是一种有效可行的文献计量学分析。类似的报道还有很多。

3.2 共词关联分析法 关联规则是描述一个事物中物品之间同时出现的规律的知识模式,更确切地说,就是通过量化的数据描述物品A的出现对物品B的出现有多大的影响。其主要对象是事务数据库,最早应用是售货数据,例如,在购买面包的顾客当中,有70%的人同时购买了黄油,这些关联规则具有一定的商业价值,商场管理人员可以根据这些关联规则更好地规划商场,把面包和黄油摆放在一起,以促进销售。在共词分析中,也存着这种相关的关联,如在一篇有关某病的药物治疗文献中,对该文的标引时,除了有“病A/药物治疗”的主题词外,“药B/治疗应用”的主题词也很有可能同时存在,以表达药B有治疗某病A的功效。在同一篇文献中,很多的主题词间都存在着这样的逻辑关联关系,共词关联分析以此为原理,通过关联统计方法,揭示主题词间的依存关系,在这基础上可现实对文献知识的提取以及组织文献数据库的作用。在共词关联分析的过程,涉及到4个重要的概念[11]:

对文献数据库进行关联规则挖掘可以理解为在满足一定支持度和可信度条件下,寻找出频繁在一起出现的两个或多个主题词/副主题词组合,通常分如下两个步骤[12]:

第一步,在设定最不支持度的值后,找出支持度大于等于最小支持度的主题词/副主题词的所有组合(即频繁集)。

第二步,利用频繁集生成关联规则。对手每个频繁集A,若B∈A,B≠,且Confidence(B→(A-B))≥minconf,则构成关联规则B→(A-B)。

运用共词关联分析法对学科文献进行分析评价,国内外很多学者展开了这方面的研究。在国内,张晗[11]利用关联规则算法,对4种抗肿瘤药物主题词和副主题词组配模式进行分析,抽取出与这四类药有关的、有效的语义关系搭配模式,从而为文献检索和建立知识库提供依据。崔雷[13]尝试根据书目文献数据库中主题词副主题词之间的语义关联规则抽取知识,获得具体的药物与疾病之间的知识,并认为,由这种方式所抽取的知识具有高度可靠性。国外有人利用关联规则算法对大型医学电子病历数据进行分析,获得了病人所接受的检查项目和最终诊断结果之间的关联规则[14];Cimino等[15]对主题词和副主题词的组配规则进行研究,通过使用简单的模式匹配规则来自动生成医学概念之间的语义关系,以应用于建立医学知识库。

3.3 共词词频分析法 词频分析法是利用能够揭示或表达文献核心内容的关键主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法[16],是定性分析法的一种。该方法通过统计主题词(关键词)的频次排序,结合领域的科学知识,分析高频词所承载的科技内容,将主题进行相应的分类与组织,从而揭示领域研究的范围与热点。词频分析法在文献学分析中很常用,在共词分析中,共词聚类与共词分频分析的相互结合,发挥各自优势,取长补短,做到定量与定性良好结合,有助于增强计量结果的可信度与准确性。

3.4 突发词监测法 突发词监测是Kleinberg于2002年提出话题的突发监测(Brust detection)算法[17],它关注焦点词—相对增长率突然增长的词。Kleinberg认为话题的报道数量不是平滑增长,而是在不同水平之间跃迁。魏晓俊[18]认为突发词监测与高频词词频不同,前者主要是从关注词自身的发展变化出发,关注单个词发展的阶段性,而后者主要是对领域中各个词的增长势头进行比较。由于科技领域中的局部热点变化不一定会引起全领域的注意或者研究,但又是领域发展中不可缺少的部分,比如关于某学科的教育研究,不一定会引起全领域范围的讨论,但是它的研究本身也会不断发展。因此基于单个词的词频增长率变化更有可能涉及到领域局部热点的变化。突发词监测法更注重的是研究领域内,那些研究活跃、有潜在影响研究热点的因素,因此,突发词监测有助于发现推动学科(或主题)研究发展中的微观因素。

在共词矩阵中,所有的词都是高频词,但对于以主题词A为中心词的研究组成来说,对于该研究组成而言,所有相关主题词根据它们共现频率的不同,也可分为组成中的高频词与低频词。在学科的发展过程中,其它词的词频变化,可能会影响到该研究组成的状态、性质及发展,因此对突发词的监测能从更微观的角度把握、监测学科的发展动向。

在共词的聚类分析中,类团是由多个主题词构成的,某一主题受关注的程度不同,会直接导致类团的成长与分化。监测类团中主题词的发展变化,有助于解释类团发展变化,掌握领域内各研究热点研究进展的脉络。

目前,在国外,已有学者用突发词监测法开展文献学评价研究,Ketan Mane将突发词引入到共词分析中[19],在国内尚未见此类报道。

4 结束语

共词分析对内容相关的文献中存在相同主题词对的现象进行分析,词对共现的频率越高说明这两个主题词关系越密切。由于组合的主题词能反映文献的研究内容,对主题词对共现频率进行聚类、关联、词频及突发词监测等的数学统计,揭示文献群间存在的内容联系,以便对文献集进行重新组织,进而提高数据库检索效率;结合文献群的内容统计分析,有助于专家对学科研究进行客观评价,同时也方便情报人员挖掘文献集中所隐含的知识。对共词共现频率的统计分析除了上述方法外,还是许多数学统计方法应用到文献计量中,如因子分析法、贝叶斯分类法等等,各种统计法与数据挖掘的运用是文献计量分析的重要发展趋势之一。

标签:;  ;  ;  ;  

共词分析方法研究(1)共词分析的过程和模式_主题词论文
下载Doc文档

猜你喜欢