共词分析与共引分析方法的比较研究,本文主要内容关键词为:方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
共词分析(co-word)和共引分析(co-citation)是随着电子文献形式和网络文献形式的出现而发展起来的两种重要的文献计量学方法。近年来随着科学知识图谱逐渐成为科学计量学研究的热门领域,共词方法和共引分析方法也成为人们所关注的焦点。作为情报学研究方法的重要组成部分,二者均可广泛应用于科学评价、科技管理等诸多领域。尤其是这两种方法都可以应用于学科范式可视化研究,但有的学者利用共词分析方法来研究,有的学者利用共引分析方法来对某学科或领域的范式进行研究。那么两者之间有何异同呢?为了更好地理解并恰当的利用这两种方法,本文试图从起源、概念、方法和过程等几个方面对二者做简要的比较分析。
1 共词分析与共引分析概述
共词分析法最早是由法国文献计量学家Callon提出的。利用共词分析法的基本原理不仅可以揭示研究领域的研究热点,横向和纵向分析领域学科的发展过程、特点以及领域或学科之间的关系,而且还可以反映某个专业的科学研究水平及其发展历史的动态和静态结构,其最终分析研究结果可以作为高层决策者制定战略决策和长远发展规划的基础。
共引分析法始于Small于1973年提出的以文献为单位的共引分析,是将一批文献(或著者、期刊)作为分析对象,利用聚类分析、多维标度等多元统计分析方法,借助计算机,把众多的分析对象之间错综复杂的共引网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来的过程[1]。之后,共引概念推广到与文献相关的各种特征对象上,从而形成各种类型的共引概念,如词的共引、文献共引、著者共引、期刊共引、主题共引和类的共引等。自White和Griffth 1981年提出著者共引分析以来,其理论发展也已经比较成熟,除了可以反映科学的知识结构外,还被用来研究科学交流模式和信息检索中知识结构的可视化。另外,期刊共引的引入并运用于期刊及学科领域的研究,主题和类的共引的引入并运用于领域分析,乃至利用共引理论来探讨科学范式等等,都将共引分析理论研究提高到新的高度。
2 共词分析与共引分析比较
2.1 起源
共词分析方法最早是在20世纪70年代中后期由法国文献计量学家提出的。1986年,法国国家科学研究中心CNRS(Cntre National de la Recherché Scientifique)的Callon,Law和Rip出版了Mapping The Dynamics Of Science And Technology[2]。此书的出版使共词分析方法得以广泛推广。而共引分析是在1973年由美国情报学家Small最早提出的,他在《美国情报学会杂志》(Journal Of American Society For Information Science)发表了Co-Citation In The Scientific Literature:A New Measure Of The Relationship Between Two Documents一文,提出了“共引”的概念[2]。同年,Marshakova在她关于利用参考文献进行文献分类的论文中,也提出了共引的概念。
2.2 研究对象及性质
共词分析的原理主要是对一组词两两统计它们在同一篇文献中出现的次数,以此为基础对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化。它利用大量文献中共同出现的关键词对有效地反映文本关键词之间的关联强度,减少了关键词的空间,用一套结构图有效地层示了关键词之间的关联[3]。
而共引分析的基本原理主要是以具有一定学科代表性的一批文献为分析对象,利用聚类分析、多维尺度等多元统计分析方法,借助计算机,把众多的分析对象之间错综复杂的共引网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来,在此基础上分析研究分析对象所代表的学科及文献的结构和特点[1]。
由两种方法的基本原理可以分析出,共词分析属于内容分析方法的一种。它是先探讨词与词之间的亲疏关系,通过分析词之间的关系推断学科的研究热点或研究范式。其研究对象是词或词组。由于高频词往往反映的是热点,所以共词分析适于研究新学科的研究范式或者成熟学科的研究热点。而共引分析的理论基础是同时被引用的文献在主题上具有或多或少的相似性,因此同被引次数可以测度文献在内容方面的相关度,其属于引文分析方法的一种。它是先探讨文献与文献之间的亲疏关系,通过以往发表的高被引的文献来反映学科的结构,其研究对象是文献。由于高被引文献的形成需要较长的时间,而新兴学科的研究往往人数众多而不集中,作品比较分散,被引用情况不稳定。因此,由共引分析得出的结论往往不能反映新文献所代表的研究主题,从而其更适于研究成熟学科的研究范式,不适于学科的研究热点研究。
2.3 假设前提
可靠性是人们选择研究方法的一个很重要的指标,而可靠性的测度除了考察方法的实施过程,还可以从其实施的假设前提来分析。共词分析的假设前提最早是由Whittaker于1989年提出的,而共引分析的前提假设最早由Small于1974提出。
从表1中可以看出,二者的共同点在于两种方法的实施都基于一定的假设前提之上。不同点在于共词分析实施所需要的假设多于共引分析所需要的假设。共词分析的假设前提主要是作者选择的词汇能够在一定程度上反映主题内容,而共引分析的假设前提主要是同被引的文献在主题上具有一定程度的相似性。一个是基于词的假设,一个是基于文献的假设。一般来说,一种方法的实现所需要的假设越多,即所需要的条件越多,那么由该方法得出的结论就越不可靠,并在使用过程中越容易出现问题。另外,由于汉语词汇本身所具有的语义模糊性以及词与词之间关系的不确定性,同时鉴于共引分析的文献间所具有实在的相互引用关系比共词分析的词与词之间的关系更为确定,所以在研究同一问题时共引分析方法比共词分析方法较为可靠。
2.4 影响因素
共词分析与共引分析两种方法经过20多年的发展,各自都在不断的发展、完善,共词分析主要经历三个阶段,共引分析的发展经历了两个方面的改进,其发展过程见表2。
从表2中两种方法的演进过程可以看出,共词方法与共引方法的发展影响因素不同。影响共词分析方法的因素有:一是共词分析结果的可视化需要,如包容地图和战略坐标都是结果可视化的不同表示;二是分析对象形式的改变,即从以往需要人为集中选择的文献到现在的以数据库结构形式为主的分析对象。而共引分析方法的发展两个影响因素是:一是对分析对象选择的精确性要求,即对高被引文献选择的不同要求;二是对分析对象进行聚类的准确性要求,如聚类方法研究进展。由此可以看出,共词分析更注重结果的可视化和分析对象的形式,而共引分析更注重对分析对象的精确性处理。但不论如何发展,两种方法的最终追求都是通过对分析对象的处理来准确地反映客观事实。
2.5 应用过程及范围
同为两种文献计量学方法,共词分析与共引分析的应用既有相同点又有不同点。从表3和表4可以看出,二者的相同点在于:(1)应用过程都需要确定分析领域、将原始矩阵转化为相关矩阵、数据的综合处理所用的方法等。(2)都可以用于揭示研究领域的发展过程,信息检索和反映学科结构。而不同之处在于:(1)数据的获取方式不同。共词分析数据直接从选择的文献中抽取词汇,不需要外在的数据库,而共引分析数据的获得需要一些引文数据库。(2)应用范围不同。共词方法的应用范围比共引方法小。一是因为分析对象不同。共词方法分析基础是词或词组,共引分析的对象是文献。而两个较大领域之间词共现的几率比较小,所以利用共词方法时选择高频词会很困难。再者,两个领域之间知识输入与输出的关系往往反映在文献的相互引用上,而不一定反映在词共现上。因此,共引方法可以选择多领域进行分析,而共词方法的选择领域应该尽可能小一些。另外,共引方法可以揭示微观的文献所代表的主题关系、中观的学科结构和宏观的科学结构,从而将文献信息所反映的科学的、领域的、知识的关系可视化,其不仅用于传统的文献计量学领域,更广泛应用于科学学研究,揭示科学的发展规律与趋势。而共词方法往往只可以用于某具体的学科结构或研究领域分析。共引方法还可以用于科学交流模式的分析,而共词方法多用于具体学科研究热点的分析。因此,理论上共引方法的应用范围比共词方法广。(3)使用的关键因素不同。对共词分析来说,词对出现频率是共词方法数量化处理的基础对象,对不同的词对处理方式产生不同的共词分析类型。如共词聚类分析法、共词关联分析法、共词词频分析法和突发词监测法等[6]。而共引方法始于以文献为单位的共引分析,之后经过共引概念的推广而形成了各种类型的共引方式,如:词的共引、文献共引、著者共引、期刊共引、主题共引和类的共引等。其中文献共引、作者共引和期刊共引是共引分析方法最常用的三种类型。从两种方法的类型来看,共词分析的类型是从处理词对的方法形成的,共引分析的类型是从共引概念在各种特征对象上的推广而形成的。从这个方面看,共词分析使用的关键在于选择处理词对的方法,而共引分析使用的关键在于选择恰当的特征对象。
2.6 存在问题
由于两种方法实施所需要的假设前提具有一定的理想性,共词分析和共引分析均不可避免的存在着一些问题。共词分析是基于词的分析,而词的选择很容易出现问题,尤其关键词的选择具有很强的主观性和随意性,由此造成同一主题内容由不同词表示或者同一词表示不同的主题内容,因此,得出的结论不能完全符合客观事实。
共引分析是基于文献之间相互引用关系进行的分析,而文献间的引用本身存在着许多问题。引文中存在着引用动机的复杂性、引文数量随机性等问题,造成引文分析结构的不准确。由此造成共引分析方法也存在分析结果的不准确性。
3 小结
作为两种重要的文献计量学方法,由于共词分析和共引分析在利用过程中存在着交叉,人们在选择利用时会出现一些问题。而研究方法对研究问题和研究结果是至关重要的,所以本文对两种方法从几个方面进行了比较,以期减少利用中出现的问题,并得出以下几个结论:(1)起源上来说,共引分析方法稍早于共词分析。(2)研究对象与性质方面,共词分析研究对象是词或词组,属于内容分析方法的一种,共引分析研究对象是文献,属于引文分析方法一种。(3)从假设前提来看,共词分析多于共引分析,由此其可靠性弱于共引分析。(4)从方法演进上来看,两种方法发展的影响因素有所不同。共词分析是基于分析结果可视化的需要与分析对象形式的改变两种因素而发展的,共引分析发展的影响因素是分析对象选择的精确性要求和分析对象进行聚类准确性要求。(5)从应用上来比较,二者在应用过程和应用范围上有相同点,也有不同点。不同点在于数据获取方式、应用领域及应用关键因素三个方面。共词分析多用于比较微观的具体的学科或领域,而共引分析既可用于微观的学科与领域,也可用于中观和宏观的科学结构的分析。共词分析多用于研究新学科、领域的研究范式或者成熟学科的研究热点,而共引分析多用于研究成熟学科的研究范式或学科结构。两种方法均存在一定程度的问题。
收稿日期:2009-10-05