基于共词分析的主题类型划分方法比较研究,本文主要内容关键词为:类型论文,方法论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G350
在当前众多文献计量方法中,共词分析以其自身的优势和特点(适用于对文本主题和内容的分析研究),自始至终被用于定性和定量分析学科主题演化情况,监测和描绘不同学科领域的动态发展过程。现有基于共词分析的学科主题动态跟踪方法主要包括基于图谱展示的定性分析和基于相似性测度的定量分析两种类型,两种方法互为补充是进行学科主题动态跟踪的重要手段。主题类型划分则是基于共词分析的学科主题演化分析流程的重要环节,其对主题演化的最终结果将产生重要影响。
1 学科主题演化概述
学科主题演化是指学科主题在时间维度上的发展变化过程。与空间变化相比,时间演化体现的是学科主题的新陈代谢,展示了某一学科的发展态势和未来走势,是研究学科发展规律的重要手段。学科主题演化通过比较不同时间段的映射网络,获取对学科主题产生、消亡、分化、融合等方面的趋势性认识。
在主题演化分析领域,单个主题词语的演化非常复杂,很难通过某种方法直接进行分析判断,即使依靠学科领域专家的主观判断也很难得到准确结果。因此,需要寻找其他分析手段来代替对单个主题的直接分析,从而达到对学科主题演化分析的目的。主题网络是由许多单个主题构成的聚类集合,是单个主题的上位层次,其演化情况可以在很大程度上反映单个主题的演化趋势,同时,定量分析主题网络的演化情况在目前条件下也可以实现。
2 主题类型划分原理
现有主题演化分析流程包括John Law于1992年提出的标准学科主题演化分析程序[1]和Kostoff等人于1990-1991年间开发的DT法分析流程[2]。无论采用哪种方法,主题演化分析流程都大体包括主题数据库形成、主题网络识别和主题聚类间相似(或非相似)分析(也称聚类比较)三个阶段,只是在具体环节上有所区别而已。John Law的标准学科主题演化分析程序中不用对主题类型进行划分;而在Kostoff的DT法中,主题类型划分是分析流程的关键。
学科主题演化的分析实质上是通过学科主题网络的演化分析来实现的。为了进行主题演化相似分析,应将主题网络内的主题划分为核心主题(Core Themes)和次要主题(Sub-Themes)两种类型。在统一科学计量模型的中心-边缘原则中,转化空间是由一个核心点(也称为中心或核)产生的领域,围绕在中心周围的区域称为边缘地带[3]。借鉴该原则,核心主题就是主题网络的核心要素,代表主题网络的主要内容和类别,核心主题的变化情况会影响和反映主题网络的变化情况;而次要主题是核心主题的下位类内容,描述了核心主题的性能、属性、构成成分等相关特征,次要主题的变化不会对主题网络发展产生根本影响。核心主题与次要主题之间有着紧密的联系,核心主题变化会影响次要主题的变化,而次要主题变化几乎不会影响核心主题变化;但当核心主题保持不变时,次要主题也有可能发生变化。
核心主题与次要主题的有机结合构成了一个完整的主题网络,在主题演化过程中,二者缺一不可。虽然核心主题相对次要主题来说对主题网络的发展作用更大,但主题网络的演化分析只有二者的共同参与才能收到良好的效果。
3 主题类型划分方法比较
3.1 DT法中主题类型划分方法
DT分析法主要包括两个组成部分:抽取多词短语频次的算法和短语临近分析法(多词技术短语之间的物理临近或短语联合频次)[4]。多词短语频次算法就是词频统计法,选用一定数量的高频词作为广义技术主题;短语临近分析法是在广义技术主题确定的基础上,计算广义主题短语每次出现时与其物理临近的前后50个词以内的短语频次,形成次要主题短语频次词典。然后通过用户预定义的用于量化广义主题与次要主题关系的关联强度指标来确定次要主题的内容、范围和顺序[5]。
DT法中采用词频统计法识别广义技术主题(即核心主题)和采用短语临近法识别次要主题都存在一定的局限性。高频词语代表的核心主题不一定体现与其他主题间的关联能力,主题凝聚能力不一定较强,因此,也就无法真正体现其在主题网络中的核心地位和对主题网络发展的重要影响。虽然高频主题的主题关联概率相对较大,但高频主题也有与其他主题关联很少的情况,因此,这种识别核心主题的方法具有较大的波动性。同时,采用词语间关联强度识别次要主题的方法体现了两个主题间的密切关系,能够很好地体现主题网络的构成情况。但是短语临近法识别次要主题的方法仅限于从文章摘要中抽取主题词语的情况,当主题词语来源于文章标题、关键词等款目时,该方法就会失去效用。
另外,DT分析法中主题网络的识别是在广义主题与次要主题间关系确定的基础上进行的。当次要主题由广义技术主题产生之后,就已经决定了主题网络的构成形式和内容,聚类只是一种通过计算主题关联强度用以展示已经形成的主题关系网络的可视化手段。因此,DT分析法中是主题类型划分决定了主题网络的产生,与本文所要求的主题类型划分需要以主题网络的识别为基础,是主题网络决定主题类型的划分截然相反。
3.2 社会网络分析法
社会网络分析(Social Network Analysis,SNA)是社会科学和行为科学中的一种独特的研究视角,它注重单元之间的相互关系,其内容包括按照关系概念或过程来表述的理论、模型及应用。社会网络分析强调从关系或者是结构的角度把握研究对象,不仅给出了一个结构性的研究视角,更进一步发展出了一套具体的测量方法和指标来描述网络的结构性特征。社会网络是社会行动者及其间关系的集合,也就是说,社会网络是由多个点(社会行动者)和各点之间连线(行动者之间的关系)组成的集合。社会网络分析的实质就是用点和线来表达网络,给出社会网络的形式化定义[6]。
一个网络之所以区别于其他网络,首先考虑的一个因素是“关联性”。如果几个网络要素之间相互联系很紧密,它们在网络中就可能居于重要地位。而对于一个网络来说,如果其中的要素之间都相互紧密联系,这样的网络可能具有较高的凝聚性。在社会网络中,与“关联性”密切相关的另一方面研究就是要素之间的“距离”。有的要素可能与网络中的任何一个要素都建立了联系,与其他要素的距离都很近;有的要素可能与其他要素联系比较少,相对“孤立”一些。如果要素之间的距离不一样,我们就可以找到这些要素在网络中所处的位置来。
在社会网络分析中,关联性由中心度来测度。中心度又包括整体中心度、局部中心度、点度中心度、中间中心度、接近中心度和特征向量中心度等不同类型,对本文主题划分具有直接借鉴作用的是点度中心度的测度。点度中心度认为如果一个点(或行动者)与其他很多点(或行动者)有直接关联,该点(或行动者)就居于中心地位。依此思路,在社会网络分析中,测量一个点的点度中心度,就可以通过计算与该点有直接关联的点的数目得到。而社会网络分析中的距离指的是测地线距离,是两点之间测地线的长度。测地线是指在给定两点之间可能存在的长短不一的多条途径中长度最短的途径[7]。
从以上分析可以看出,社会网络分析可以通过计算关联主题数量的方法识别出一个主题网络中的核心主题(核心点)和次要主题(非核心点),关联主题数量最多的为核心主题,其他的为次要主题,次要主题的顺序由测地线距离来决定。但该方法计算比较简单,对于核心主题和次要主题本质特征的表现相对不足。虽然社会网络分析法及其相应软件已经在文献计量研究中得到了大量采用,其识别核心主题和次要主题的方式也在一定程度上反映了两种主题的本质特征,但从目前使用情况来看,社会网络分析法还主要用于进行学科主题关系的聚类和可视化展示,用于主题类型划分的应用很少。
3.3 关联强度算法
Kostoff认为,在某一领域经常一起出现的现象假定是相关的,关联强度又假定与共现频次相关。依据这一原理,DT法采用主题间的关联强度形成了各种主题网络,以研究学科主题的分布和变化趋势[8]。同时,在文献计量领域,研究者通常会采用相关统计算法来计算变量或聚类间的相似度值,这一数值正是关联强度的具体体现。可见,关联强度算法已在主题识别和主题聚类中得到了广泛使用。
关联强度作为测度主题之间关系紧密程度的数量指标,包括单个主题与单个主题间的关联强度和单个主题与其他所有主题的总关联强度两种类型。单个主题间的关联强度体现了单个主题间的关联程度,这种测度无法反映单个主题对其他主题的凝聚能力。总关联强度则弥补了单个关联强度的缺陷,较好地体现了某一主题的主题凝聚能力和在主题网络中所处的地位。
在文献计量研究和统计分析中,常采用相关系数来测度主题词语间的关联强度,如果将与其他主题的相关系数值加总就可得到每个主题的总关联强度值。总关联强度又分为某一学科领域的总关联强度和某一主题网络内的总关联强度。某一学科领域的总关联强度为某一主题与同一时间段某一学科领域中所有其他主题的关联强度和;某一主题网络内的总关联强度是只计算某一主题与该主题所在主题网络内其他所有主题的关联强度和。总关联强度既可以识别核心主题也可以识别次要主题。核心主题是主题网络中总关联强度最高的主题,次要主题是在核心主题识别之后主题网络中剩余的所有主题,次要主题的排序由与核心主题的关联强度值确定。
社会网络分析中认为,中心度代表了权力和地位,是影响网络发展的重要因素。中心度越高的点其位置越重要,对整个网络的影响越大,越能说明整个网络的发展情况。反之,地位越无足轻重,处于边缘地带,对整个网络的影响就越小[9]。通过上面对总关联强度的分析可以发现,总关联强度正是中心度的充分体现。总关联强度值高,则说明该主题具有较强的凝聚能力,在相应主题网络中处于中心地位,代表了整个网络的发展情况;总关联强度值低,则说明该主题凝聚其他主题的能力较弱,在主题网络中处于边缘地带,对其他主题和整个主题网络的影响较小。
在基于共词分析的学科主题动态跟踪图谱法中,关联强度是主题聚类和可视化图谱形成的基础,但在现有基于共词分析的学科主题动态跟踪相似方法中,尚没有对主题网络内的主题类型进行划分。关联强度算法较好地反映了不同主题类型在主题网络中所处位置的区别和主题凝聚能力,因此是划分核心主题与次要主题的理想选择。
3.4 三种主题类型划分方法比较
从表1中可以看出,DT法中主题划分法和社会网络分析法都无法很好地体现主题网络中核心主题和次要主题的本质特征,而关联强度算法则符合这一要求。
4 结束语
展望未来,随着科研管理者和科研人员对高质量情报需求的日益迫切,学科主题演化分析方法将会逐渐被情报界所重视和利用,作为主题演化分析重要辅助手段的主题类型划分方法也将得到不断发展。