共词分析法应用的规范化研究——主题词和关键词的聚类效果对比分析,本文主要内容关键词为:主题词论文,分析法论文,关键词论文,效果论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
共词聚类分析法已成为情报学中的一个研究热点,广泛应用于学科的结构与热点分析。据统计,2001年以来有关共词聚类分析的文献呈逐年增长的态势[1]。共词聚类分析法以能概括文章内容的词汇作为分析对象,通过一系列的统计手段,将具有一定语义联系的词汇聚集起来形成类团,用以表达学科研究结构与研究热点。具有较高语义概括能力的关键词或主题词自然就成了共词聚类分析法常用的统计对象。笔者利用中国知网(CNKI)检索共词聚类分析法具体应用方面的文献,统计发现,选择关键词或主题词的文献几乎各占50%。在词汇的处理上,无论选用关键词还是主题词,都没有明显的区别,通常对词汇不做处理[2-3],或只作一些简单的处理,如:删除一些标引明显错误的词组、对关键词进行简单去重[4],说明在词预处理的问题上,无论是选用关键词还是主题词,并未见明显的区别或相关的处理规范。理论上,由于主题词在词形与词义的表达上有严格的控制性,主题词的聚类效果比关键词好,这几乎是大家的共识。但在相同的、常规的处理条件下,两者的聚类效果差别有多大,很少有人关注这一点,如果两者的聚类结果只存在少量差别,这是很容易理解的事,毕竟聚类结果仅仅是科学系统摘要信息的人工“快照”[5];如果两者聚类效果差别很大,就应当引起重视,尤其对于关键词聚类过程是否存在值得改进之处,值得深入思考。
2 关键词与主题词聚类效果实例对比(主题词聚类结果参照文献[6]的研究结果)
2.1 数据处理
为检验相同条件下,关键词与主题词是否有相同的聚类效果,本文选定肿瘤的遗传学方面的文献进行共词聚类分析:期刊来源选自《中文核心期刊目录总览》(第四版)的7种肿瘤学核心期刊,以中国生物医学文献数据库(CBM)为检索平台,检索式为:(主题词=肿瘤/加权/全部树/遗传学)and(刊名=中华肿瘤杂志or刊名=中华病理学杂志or刊名=中国肿瘤临床or刊名=癌症or刊名=肿瘤or刊名=实用肿瘤杂志or刊名=中华放射肿瘤学杂志)and(出版年=2002-2006)。共检索到相关文献672条,798个主题词、2063个关键词。采用相同的预处理,分别对主题词、关键词做适当处整理(对同义关键词也做了统一性的处理),删除有明显错误的词组后,得到785个主题词、1894个关键词,按词频由高到低排列,选取前60个高频词,如表1和表2所示。
2.2 词频分析
比较表1和表2的高频词,关键词的最高词频值为51,主题词的最高词频值为167;关键词的最小词频值为5,主题词的最小词频值为14;关键词的平均词频值为13.4,主题词的平均词频值为38.63。可以看出,对于同一文献标本,关键词的平均词频值只有主题词的三分之一;从词频值的落差来看,关键词最大值与最小值之差为46,主题词的落差为153。共词聚类分析法是以词间的共现频率作为聚类的直接参考依据,并且共词聚类分析法是一种敏感聚类方法[7],对于相同的文献标本,关键词的词频只有主题词的三分之一,如此大的反差,必将对聚类结果产生极大的影响。从文献学的词汇分布角度来说,词频值反映学科主题研究的活跃程度,高低词频值之间应存在一定的落差。但统计结果表明,相对于主题词,关键词的词频值表现得更加平均,对于聚类而言,将使得类团之间的边界更加模糊,不利于词汇的正确聚集归类。综合对比两表的词义,发现与主题词词义相同的关键词有34个,占总数的56%,说明在对文章内容的概括上,作者与标引专家还存在比较大的差别。
2.3 聚类结果
聚类过程也采取相同的处理模式。分别对两表的词组生成60*60的矩阵,计算矩阵词对的共现频率。采用相互包容系数法,对矩阵进行运算。将运算结果导入到SPSS 13.0中统计、选择系统聚类算法,设置相关参数后,生成冰柱图与树状聚类图。在第15层对聚类结果进行划分。为方便本文的比较,选定全部类团进行分析(见表3),每个类团的编号,按类团划分时的顺序所确定。
3 聚类结果分析
3.1 类团表现上的差异
主题词8个成员以上的类团有3个,而关键词类团成员最多只有6个;2个成员的小类团,主题词有8个,关键词只有2个。本例的聚类结果表明,主题词的聚类容易出现大、小类团两极分化的现象,而关键词聚类的类团成员个数相对平均,通常在4-6之间,文献[8]和文献[9]也有类似的聚类结果。造成这一现象的原因,可能是作为热点的主题词,在词频的表达上比对应的关键词更加强势(见表1、表2),容易出现大类团,而关键词的词频值相对平均,在词的共现关系网中,各方的吸附作用处于相对平衡的状态,类团成员个数的分布也相对平均。
3.2 类团相关性分析
对关键词、主题词的聚类结果(见表3)进行对比分析,从类团成员相似性的角度,可以分为4种类型:①相近型是指成员基本相同的类团尽管成员有所出入,但由于相同成员占多数,被认定为相近类团;②拆分型是指一个大的类团被拆分为数个小类团,在表3中,主题词第5号类团,在关键词中拆分成6、11、12号三个小类团,尽管这些小类团还存在一些其他方面的成员,但大部成员都能在对应的大类团中找到;③交错型,是指类团之间成员交错出现,但类团之间的相似度低;④不相干型是指类团之间的成员不存在(或微弱的)相交性,属于完全不同类型的类团。在这4种类型的类团中,相近型与拆分型可以反映出主题词、关键词聚类结果的相似性。值得注意的是,在结果相近型的三个类团中,有两个类团是对部位肿瘤的具体描述,如“食管肿瘤”(喉肿瘤)与“癌,鳞状细胞”、“肝肿瘤”与“癌,肝细胞”,并且也只有两个实体成员,这种类团缺乏深入研究的基础;而拆分型的类团,也只表现出对一个主题词类团的拆分,并不具备较强的代表性。因此,可以认为,本例在相同的聚类条件下,主题词、关键词聚类结果并不具备一致性。
3.3 类团质量分析
类团作为学科研究点的一个缩影,一个质量好的类团,其成员必然有良好的语义逻辑一致性。因此,判定类团的质量,最直接的方法就是分析类团成员概念是否一致。本例虽然没对每个类团的属性进行深入分析,但通过类团成员的基本概念,还是可以分辨出主题词、关键词聚类在质量上的差别。如主题词的7号类团将“癌前状态”、“基因,P16”、“基因,P53”、“基因,肿瘤抑制”、“突变”、“基因缺失”等导致癌症发生的基因方面的主题词聚集进来,而关键词的聚类中,却把这些重要的学科领域概念分散到多个类团中,导致主要概念被模糊化,比如,在关键词5号类团中,尽管有“肿瘤抑制基因”、“杂合性缺失”,但同时还包括了“结直肠肿瘤”、“染色体”,这样很难分辨得出那些是类团的重点。同样,主题词能将“基因,MDR”、“抗药性,肿瘤”等表达肿瘤耐药性一类的主题词聚集在一起(13号类团),而关键词却将“多药耐药”与“细胞凋亡”、“基因转染”等词聚集在一起(12号类团),模糊了肿瘤耐药性的这一领域概念。并且这种类型的类团还有很多。
表面上关键词聚类能将高频词平均分布到各个类团中,似乎关键词的聚类结果比较合理,但实质上共词分析法(包括主题词聚类)只能从概要的角度勾画出学科研究结构,并不能精确分配所有的成员。当类团成员不多,并且词汇的语义逻辑性又不一致性时,类团的属性就很难定位,从战略坐标图来定义,这种类团很容易成为边缘性的类团,所以关键词成员“平均”划分的结果并不科学。尽管主题词聚类容易产生一些只有两个成员的类团,这种类团在分析时通常被忽略,从而不利于学科研究点的全面表达,但是大类团在学科研究的热点与重点的表达方面,具有明显的优势。实事上,共词分析法通常只对数十个高频词进行分析(只占领域内概念的小部分),难以全面反映领域的研究点,只能对领域内的热点和重点有所体现,因此,主题词的这种表达效果是可能理解的,也是符合客观实际的。从本例的对比研究分析,在相同的聚类条件下,主题词、关键词的聚类结果表现出很大的不同,相对地,关键词的聚类效果更令人担心。
4 共词聚类分析对象的辩证思考
4.1 共词聚类分析法的应用
从共词聚类分析法的性质特点来说,主题词自然是最合适的聚类对象。在标引上,主题词通常由相对固定的标引专家所标引,具有相当的稳定性和权威性,不像关键词通常由作者标引,存在诸多变量;在语义相关性方面,主题词重视语义之间的逻辑组配,这也符合共词聚类的特质,因为被聚集的词汇,只有相互之间应存在较强的逻辑关系,才能有效表达出某一研究点。特别生物医学类的主题词,既有系统性也有深度,能全面、深入地揭示文章内容。因此,将共词聚类分析法应用在生物医学领域,并以主题词作为分析对象,最能发挥共词聚类分析法的优势,结果也是最可信的。由于关键词从标引到组织,存在很多不确定性,加之共词聚类的敏感性,很难客观、准确地反映学科研究的真正现状,共词聚类分析法在其他领域应用时应当审慎,对聚类结果也应当有客观、清醒的认识。
4.2 提升关键词的聚类效果
用主题词聚类结果去衡量关键词的聚类效果也许不太客观,毕竟没有权威的机构或个人证明主题词聚类就是“金标准”,毕竟关键词在词义概括的灵活性和新颖性上具有自身的优势,应用关键词进行聚类分析也具有一定的内在道理和客观的现实需要,问题的关键在于如何扬长避短,充分体现出关键词的优势,笔者认为,应从以下两方面着手:
4.2.1 彻底合并同义词 同义关键词的存在严重干扰了聚类结果,是提高聚类质量必不可少的一步。笔者认为应当在数据整理、构建关系数据库时实现整合,因为有些词,特别是外来词,可能有多种拼写方式,严重影响到词频值的准确性。关键词数量众多,表达形式各异,这是一项不容易完成但必须完成的工作。
4.2.2 去除通用词与泛义词 诸如“肿瘤”、“研究”、“方法”这类意义不具体的词汇,是关键词标引中常见的现象,它们没有实质的或具体词义,却有着较高的词频值,也对聚类过程产生较大的干扰,在数据的预处理时,应尽量清除。
4.2.3 注重对新颖关键词的保护 关键词最大的特点在于能及时揭示最新、最前沿的概念,但这类词由于对应的文献量不够多,不一定能符合高频词要求,应将它们划为被聚类的对象,以发挥关键词的自身优势。
4.3 应当制订聚类的相关规范
尽管共词聚类分析法以客观的方法揭示学科研究结构而引起重视,但在整个处理统计过程,存在许多的“主观”因素,或不规范的地方,影响到聚类效果的准确性。尤其是关键词,由于自身的不足,更要注意到以下几点:
4.3.1 文献量的规范 共词聚类分析法透过一定量的学科文献量,通过一定的统计方法以揭示学科研究的主题。从笔者的相关统计中发现,收集文献量最少为62篇[3],文献量最多的约4.2万篇[10],差距十分明显,甚至达到混乱的地步。从表2中发现,一般情况下关键词的词频值要比主题词的少了三分之一(也许其他学科没这么严重,本研究收集的文献为600余条),文献量收集过低,将使得关键词词频值的偶发因素大为增加,肯定不利于文献内容的揭示。笔者认为,当以关键词作为聚类对象时,收集的文献量不应低于1000条。
4.3.2 词义整合规范 对于研究者来说,对原始数据的词义整合是一项专业的、繁琐的工作,需要付出很多的精力来完成。词义的整合深度也不容易把握,整合过浅,将影响聚类的效果;整合过深一方面增加整合的难度,另一方面也可剔除部分具有实体意义的边缘性关键词,或表面相似实质有差别的关键词。因此,有必要深入探讨并制订相关规范,确定关键词整合的“度”方面的问题。笔者认为,对关键词的共词聚类分析,词义整合的质量,与聚类结果的准确性密切相关。
4.3.3 高频词的划分 高频词的划分涉及两方面的问题:①量的问题,就是被划分高频词,参加聚类词汇的数量;②度的问题,就是指被列为高频词的最高和最低的词频值是多少。参与聚类的主题词过少将不利于学科研究主题的揭示,据所查找到的相关文献,参与聚类词汇最少的有20个[2],多的为97个[8],通常的词数在30-40区间。聚类的词汇量越多,矩阵构造越复杂,数据统计工作也大为增加,但为确保合适的类团数和合理的成员量,应当适量增加被统计的词汇数。参与聚类的最小词频值也应当有所控制,过小的词频值不利于类团的正确划分,而提升最小词频值的最直接办法便是增加文献标本的收集量。
4.4 共而不聚的分析方法
共词分析的实质是利用共现词对的频率,揭示隐含于词汇之间的语义,聚类只是一种统计手段,人为地将被聚类的词汇划分成团,用以代表学科研究点。聚类适合于学科主题明确、最大最小词频值落差明显的主题词。本研究揭示关键词的词频值相对平均,词汇处于一种各方共现关系相对平衡的状态下,利用聚类算法,硬性将词汇分组别类划分,未必是明智之举。共而不聚的划分方式是指在构造共词矩阵后,经过词频值统计、相互包容系数的统计,不再进行聚类的运算,就共词矩阵所进行的分析。经过包容系统处理过的矩阵,已经能清楚地揭示出词与词的共现关系。在矩阵的基础上,结合高频词表以及学科专家的意,也能提取出代表学科研究点的类团。尽管这种方法掺杂了一定的人为因素,但却能避免词汇归属的刚性划分。
5 结语
共词聚类分析法在应用中受到争议,不应归罪于该方法的本身,应将更多的精力放在应用中的各个环节、细节,必须对于不同的情况,采取有差别的处理方式。本研究也说明,在医学领域内,选择主题词作为共词聚类分析的对象时,所得到的结果还是比较合理的。共词聚类分析法要在其他领域发挥更好的应用,制定一系列有针对性的操作规范,已成为当务之急。尽管高标准的处理方式,无论是对于关键词还是主题词,要求都不过分,由于关键词在标引中、词形控制和词义表达中的劣势,就有必要对关键词的处理过程提出更高的要求和更科学的标准规范。
收稿日期:2010-08-12 修回日期:2010-12-07