基于文献关键词的三元共词分析方法--以知识发现领域为例_数据挖掘技术论文

基于文献关键词的三元共词分析方法——以知识发现领域为例,本文主要内容关键词为:为例论文,文献论文,关键词论文,领域论文,发现论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

共词分析是一种内容分析方法,最早在文献中描述是20世纪70年代。至今共经历了三代共词分析方法,第一代为基于包容指数和临近指数的共词分析方法,第二代为基于战略坐标的共词分析方法,第三代为基于数据库内容结构分析的共词分析方法[1]。共词分析通过研究领域专业文献主题词的共现情况来分析研究领域的主题分布结构[2],透视领域研究热点[3],把握领域发展变化过程及趋势[4],优化信息检索结果[5]等。

到目前为止,共词分析研究主要以二元词对的共现现象为分析研究基础,尚未发现对多元词组共现现象的研究。本文以国内知识发现研究领域为实证,尝试对多元共词特例——三元共词进行研究,重点在于三元共词算法和三元共词结果分析方法的设计。

1 数据集的建立

1.1 选择试验领域

知识发现是通过某种手段或者技术从已知的海量数据中发现新知识的过程。知识发现概念的提出最早是在数据挖掘领域[6,7],提及知识发现通常专指数据库中的知识发现(Knowledge Discovery in Database,KDD)。与数据库中知识发现几乎同时产生的还有一种基于文献知识发现(Literature-Based Discovery,LBD)——非相关文献知识发现[8,9],两者虽然都以数据库为应用基础,但是两者无论在发现对象、发现目标、发现方法上都有着本质的区别。数据库中的知识发现是以数据库为挖掘对象,以发现可靠的、有用的、尚未被人知晓的并能为人们理解的规则和模式为目标,以数据挖掘为核心方法的非平凡数据处理过程,研究重点是数据挖掘算法设计。非相关文献知识发现则是以没有共引或共现关系的科技文献为挖掘对象,以发现尚未被公开的知识为目标,以A文献集到B文献集到C文献集的开放式或封闭式目标集构建为方法,研究重点是中间集的选择和过滤。

1.2 数据集的建立与规范

试验以中文核心期刊刊载的知识发现研究论文为数据源,检索数据库选择中国知网(CNKI)中国学术期刊网络出版总库,检索路径为:{(主题=知识发现)AND核心期刊},不限定时间进行精确检索。检索日期为2010年7月13日,共返回检索结果1764条。

以1764篇期刊论文为源数据,共获得关键词6810个,平均每篇论文有3.9个关键词。对关键词列表中的同义词(例如数据挖掘和数据采掘)、英文关键词(如Association rules)、英文缩写词(如KDD、SVM、IDS等)、中英混写词(如Rough集、Apriori算法等)、简写与全称混写词(如支持向量机SVM、入侵检测系统IDS等)等各种形式的关键词表述方法做简单规范化处理,以统一的替代词替换不同形式的关键词,见表1,尽量降低关键词形式差异对分析结果的影响。经过上述处理并去重后共得关键词3128个,见表2。

2 共词分析算法

共词分析方法经历了20多年的发展,形成了比较固定的分析流程和分析算法。二元共词分析一般借助二维表,利用二维表形成共词矩阵,再以共词矩阵为基础进行共词结果的分析,包括临近指数、包容指数、等价值数、中心度、密度的计算等等。但是,利用共词矩阵显然不能完成三元共词分析,二元共词算法不能解决三元共词的运算问题。

3 知识发现的共词分析

试验以中文期刊知识发现研究论文的关键词并去除“知识发现”(检索词)后为基本词集。另外在试验中发现三元词组的共现强度比二元词对低很多,因此选择词频高于3的关键词为运算词集,以共现强度≥3的三元词组为运算结果,这样能够保证非相关文献知识发现研究的词组会出现在最终结果中。使用基于位向量的共词分析算法对所选词集进行运算得到二元共词和三元共词结果列表,部分结果见表3。

如表3所示,三元词组的共现强度普遍低于二元词对的共现强度,在本研究中三元词组最高共现强度大约是二元词对最高共现强度的1/10。尽管三元词组的共现强度比较低,但是仍然能够在一定程度上反映研究热点、研究现状、主题分布和组合情况。

通过二元共词结果能够看到国内知识发现研究主要集中在以{数据挖掘 关联规则}、{数据挖掘 KDD}、{数据挖掘 数据仓库}、{数据挖掘 粗糙集}这几组词对为代表的研究主题。数据挖掘是数据库中知识发现的核心技术,关联规则是数据挖掘的一个重要研究内容,KDD代表数据库中的知识发现,数据仓库是数据挖掘和数据库中知识发现的挖掘发现对象、粗糙集则是数据挖掘的一种理论方法,这四组词对基本上反映了国内知识发现研究主题的亲疏关系。通过三元共词分析得到以{数据挖掘KDD关联规则}、{关联规则 频繁项目集 增量式更新}等为代表的高频三元词组,与二元共词结果相比这些三元词组不仅仅能够反映研究主题的亲疏关系,而且能够更具体、更直接的反映研究方向或研究问题。结合背景知识知道,这两组三元词组所反映的研究问题是:数据库中知识发现研究中主要集中在关联规则挖掘这个方向,而关联规则挖掘的研究则集中在增量式更新数据的频繁项目集挖掘问题上。

知识发现另一个重要研究是非相关文献知识发现,在二元共词分析结果中非相关文献知识发现排在第50位,以“非相关文献”与“Swanson”组成的词对为代表。Swanson教授是非相关文献知识发现方法的提出者,这组词对代表的研究主题说明国内非相关文献知识发现研究基本处于引进阶段,这一方面是因为非相关文献引入中国的时间比较晚[11],另外也因为非相关文献研究主要是在情报学领域,而国内情报学研究和教育开展也比较晚。在三元共词分析结果中非相关文献知识发现研究排在第16位,较之在二元共词分析结果中的顺序靠前。三元共词分析结果中代表非相关文献知识发现研究的最高频词组是{非相关文献Arrowsmith Swanson},Arrowsmith是非相关文献知识发现第一个原型系统,是非相关文献知识发现研究自动化的第一次实践,该系统的实施者也是Swanson教授,该词组代表的研究主题可能是对Swanson教授非相关文献知识发现工具Arrowsmith的介绍。

通过对比二元共词与三元共词结果,可以看到这两种方法反映的问题并不完全一致。二元共词结果反映的是以关键词所代表的研究主题之间的亲疏程度,三元共词结果反映的是以词组组配所代表的研究方向或问题,三元共词结果比二元共词结果所呈现的结果更具体。另外,三元共词分析能够得到二元共词分析所不能看到的问题,如三元词组{关联规则 频繁项目集 增量式更新}所反映的问题是通过二元共词分析看不到的。

4 三元共词的坐标分析

二元共词分析有多种可视化分析方法,包括可视化聚类图、社会网络结构、战略坐标图等,但是这些方法都是以二元共词分析的共词矩阵为基础,显然不适于三元共词结果的分析。但可视化分析又是一种易于阅读、方便直接的分析方法,有助于对研究结果进行更完整、更清晰的认识。试验通过计算共词矩阵的稳定度、影响力两个指数,尝试使用二维坐标图对三元共词结果进行可视分析。

图1 三元词组稳定度和影响力坐标图(前50位)

选择三元词组共现强度较高的前50位,以稳定度为Y轴纵坐标,以影响力为X轴横坐标,生成坐标图(图1)。如图1所示,词组影响力与稳定度基本成反比关系,在坐标图中看到,影响力最高的坐标是(0.550,0.049),它所代表的词组是{数据挖掘,KDD,粗糙集},同时从图中可以看到这个词组的稳定度很低;稳定度最高的坐标是(0.002,0.833),它所代表的词组是{中药饮片,用量标准,中国药典},这个词组的影响力很低。另外,从坐标图中看到前50位词组在分布上大体形成了6个区间:A区间词组有很高的稳定度但是影响力弱,该区间有两个点分别代表词组{粗糙集,序信息系统,粗糙度},该词组中每个关键词的频次分别是{161,3,3},词组的共现强度是3,影响力和稳定度坐标是(0.125,0.673);B区间词组稳定度较高但影响力弱,其中该区间包含代表非相关文献知识发现研究的词组{非相关文献,Arrowsmith,Swanson},这个词组中每个关键词的频次分别是{25,6,6},共现强度为3,影响力和稳定度坐标是(0.016,0.373);C区间词组稳定度和影响力都弱,如代表利用知识发现方法解决网络安全问题研究的词组{入侵检测,支持向量机,网络安全},这个词组中每个关键词的频次分别是{99,38,21},共现强度为3,影响力和稳定度坐标是(0.124,0.084);D区间词组稳定度和影响力都很高,在这个区间中没有词组;E区间词组稳定度较高影响力很高,如代表利用数据挖掘提供个性化服务研究的词组{数据挖掘,KDD,个性分析引擎},这个词组中每个关键词的频次分别是{520,163,2},共现强度为3,影响力和稳定度坐标是(0.442,0.339);F区间词组影响力很高但是稳定度差,如代表关联规则挖掘算法研究的词组{数据挖掘,粗糙集,神经网络},这个词组中每个关键词的频次分别是{520,161,51},共现强度为3,影响力和稳定度坐标是(0.461,0.042),虽然该词组共现强度较高而且词组影响力也比较大,但是该词组的共现稳定性却很差。

5 总结

本文对三元共词分析的算法和三元共词结果的分析方法进行了一些探索和尝试,发现通过三元共词分析能够得到一些二元共词分析不能发现的有效信息,并且这些信息能够在一定程度上反映实际问题,这说明三元共词分析是有意义的。但是在试验当中也存在一些不足:①在数据规范化过程中只对高频关键词进行了规范和统一,没有对低频关键词进行处理,因为三元词组的共现强度整体较低,这对最终结果的准确性有较大的影响;②坐标图分析中所选择影响力、稳定度作为横纵坐标的方法还有待进一步讨论,并且指标的计算方法还需要更多的试验检验;③三元共词结果的分析方法还有待进一步的研究;④试验只对三元共词进行了探索,试验所选方法是否适用于多元共词分析还有待进一步探讨。

标签:;  ;  ;  ;  ;  

基于文献关键词的三元共词分析方法--以知识发现领域为例_数据挖掘技术论文
下载Doc文档

猜你喜欢