·情报理论与前瞻观点·

基于高维稀疏聚类的知识结构识别研究

黄月王鑫

(北京语言大学信息科学学院，北京 100083)

摘要： [目的/意义]基于文献对某一领域的知识结构进行识别是文献计量分析的一个重要任务，可以揭示该领域的研究特征。[方法/过程]传统知识结构识别是二步式的，即首先基于某种分析思想构建同种元素间的关联程度矩阵，然后再对该矩阵进行结构识别。本研究构建一个直接基于“文献—关键词”矩阵进行高维稀疏聚类来识别知识结构的方法，然后以2009-2018年国内数据挖掘领域期刊论文为例，与传统基于关键词共现进行知识结构识别方法进行了对比分析。[结果/结论]实验结果表明，基于高维稀疏聚类探测知识结构是有效的，并且该方法可以获得差异度较大的子类，结果解读可以获取更多信息。

关键词：知识结构；识别；高维稀疏；聚类；共词分析；数据挖掘

文献是科学知识的载体，基于文献对某一个领域的知识结构进行识别是信息计量学领域的一个重要任务。探寻一个领域的知识结构不但能够揭示该领域的基本特征，而且对该领域研究人员也有重要指导作用。

这还了得，族长派人去查，还真是这样，原来，戴姓姑娘生的小男孩，刚学会走路就死了——外婆把刚烧开的水倒进澡盆，小男孩好奇，在盆边爬着爬着就掉进去，等外婆发现已来不及。小男孩死了，这事让林家人知道可了不得，三代单传，儿子没了，孙子又没了，准要带族人打闹上门来。没办法，只能把这事压下去——拿戴家的孙子，也就是戴姓姑娘的侄子冒充她儿子，带到婆家。

知识结构(Intellectual Structure)，指根据某一领域的科学文献进行分析，通过对基于某种关系构成的文献矩阵进行聚类而得到的组群及其关系。其中，每一组群对应该领域的一个研究子领域(或称研究主题)。

利用文献探寻知识结构方法大约可以分为3类：基于共被引分析、基于耦合分析和基于共词分析。1)基于共被引分析的方法。1973年，美国情报学家Small H首次提出了文献共被引(Co-citation)的概念^[1]，最早用来测度文献之间的关系程度，后被用来研究特定领域的知识结构^[2]。1981年White H D等提出了作者共被引分析(Author Co-citation Analysis，ACA)^[3]，也可以用来探测知识结构^[4-5]。2)基于耦合分析的方法。1963年Kessler提出了文献耦合分析(Bibliographic Coupling Analysis，BCA)^[6]，将引证同一篇论文的两篇或多篇论文称为耦合论文(Coupled Papers)，并将文献之间的这种关系称为文献耦合。国内外均有实证研究表明文献耦合能够揭示某个研究领域的知识结构^[7-8]。2008年Zhao D等提出作者文献耦合分析(Author Bibliographic Coupling Analysis，ABCA)^[9]，将文献耦合的方法扩展到作者层次，不但能够用于揭示作者研究内容之间的关系、作者之间的关系，也能用于知识结构识别^[9-11]。由于通过共同的词语(Term)联系到一起的文献可能表示一个共同的研究主题(Research Topic)^[12]，近年来又出现了作者关键词耦合分析(Author Keyword Coupling Analysis，AKCA)，与ACA相比，更能反映目前的研究现状，不必等文献被引才建立关系。3)基于共词分析的方法。关键词是论文作者对文献研究主题的一种人为专业术语标引，相对于作者、期刊、机构等元素而言更能表达文献内容。共词分析法(Co-term Analysis)认为两个关键词在同一篇文献中出现表明二者之间具有一定的内在关系，并且出现的次数越多表明它们的关系越密切^[13]。采用共词分析法能够实现对文献微观层面的分析，实证研究也表明共词分析可以用来揭示国内外知识管理知识结构^[13-14]。

无论基于上述何种分析思想，知识结构的识别过程整体上是二步式的，即首先要构建相似性矩阵，然后对该矩阵进行结构识别。分析方法不同，导致所建立的矩阵类型和矩阵元素取值规则均不相同，例如，采取文献共被引思想构建文献耦合强度矩阵、利用作者文献耦合思想建立作者耦合强度矩阵。进而基于构建的矩阵利用因子分析、层次聚类分析、多维尺度分析等多元统计技术进行结构分析，但是这3种分析方法不适宜对包含过多0模块的矩阵进行操作，针对这一问题，使用基于三角形不等式原理和最小生成树算法的Pathfinder算法^[10]可以有效规避0模块的影响^[10,15]。近十几年来各种知识图谱软件^[16]逐步盛行，绘制的知识图谱节点规模较上述的多元统计分析方法提高很多，而且可以直观表示领域的知识结构，因此备受关注和推广。但是利用此类软件进行领域知识结构识别的本质并没有深刻改变，仍然要先选择使用何种相似性矩阵分析方法，再辅以利用社会网络分析或复杂网络分析的中心性分析、社团发现等方法进行分析^[17]。然而文献是由多元素构成的，包含作者、关键词、期刊、机构等，但上述方法一般建立的都是单模方阵，即矩阵的取值表明同类元素之间的相似程度。当从两种元素进行分析时，首先将其关系转化为一种元素之间的关系，在这一转化过程中，信息受到了损失，转化方法有时也较为主观。

聚类分析，作为一项基本的数据挖掘任务，能够发现海量数据中未知的对象类，本质与从文献数据中探测知识结构是一致的。关键词是每篇文献由其作者认为最能反映其内在内容的，因此从这个角度可以认为文献是由关键词来标识的。很显然，“文献—关键词”矩阵必定具有高维性和稀疏性。本文探索利用高维稀疏聚类方法进行知识结构识别的有效性，以我国近十年(2009-2018年)数据挖掘领域期刊论文为例进行实证研究，并与基于关键词共现分析进行知识结构识别的结果进行对比分析。

1 研究方法

1.1 高维稀疏聚类算法介绍

高维稀疏聚类问题是指每个对象有很大一部分属性取值为0的高维聚类问题。本文将要面对的“文献—关键词”矩阵，是一个二值矩阵，因此拟定使用专门用于求解二态变量高维稀疏聚类问题的CABOSFV(Clustering Algorithm Based On Sparse Feature Vector)算法^[18]，即基于CABOSFV来进行后续的知识结构识别。

他细想，黑袍人当时似乎并未描述过煞星的样子，然而说到“煞星”这两个字时，自己的脑海中就自然而然地浮现出了女子的容貌。所以，在从山巅看到那个绿色的身影时，他在最初的惊愕之后，便义无反顾地冲了下去。

第三，从阅读上对色彩进行感知。在古诗的朗读过程中，教师可以引导学生想象古诗所描绘的画面，然后将其用彩笔画出来，这样的教学方法能够激发学生主动创造的热情，丰富学生的情感，提高学生的审美价值，刺激学生对色彩的感知。

CABOSFV是一种基于稀疏特征向量的聚类算法，该算法针对二态变量，通过定义“稀疏差异度(Sparse Feature Distance，SFD)”描述集合内对象间的相似程度，通过定义“集合的稀疏特征向量(Sparse Feature Vector，SFV)”概括一个对象集合所包含的全部聚类相关信息，为数据的有效压缩提供了重要的手段。此外，该算法只对数据库进行一次扫描，大大提高了聚类的效率。下面给出结合本文使用场景“文献—关键词”的稀疏差异度、稀疏特征向量的具体定义和算法的具体步骤。

定义1(文献集合的稀疏差异度)：假设有n 个文献，描述每个文献的关键词有m 个，X 为其中的一个文献子集，其中的文献个数记为|X |，在该子集中所有文献稀疏特征取值皆为1的关键词个数为a ，稀疏特征取值不全相同的关键词个数为e ，文献集合的稀疏差异度SFD (X )定义为：

(1)

一个文献集合的稀疏差异度表明了该集合内部各文献间的差异程度。差异度越大，文献之间越不相似；差异度越小，文献之间越相似。文献集合的稀疏差异度是高维稀疏聚类算法进行相似度计算和数据压缩的基础。

东营市地处黄河尾闾渤海之滨，那一望无际的荒滩野涂，常让人疑心它与古老文明无缘。其实，早在6 000年以前，东营市就出现了人类聚落遗址。目前东营市共发现新石器时代古文化遗址17处，其中傅家遗址和五村遗址内涵丰富，出土文物特点突出，是鲁北地区最具代表性的大汶口文化遗址。

定义2(文献集合的稀疏特征向量)：假设有n 个文献，描述每个文献的关键词有m 个，X 为其一个文献子集，在该子集中所有文献稀疏特征取值皆为1的关键词个数为a ，对应的关键词序号为j _s₁ ,j _s₂ ,…,j _s_a ，稀疏特征取值不同的关键词个数为e ，对应的关键词序号为j _ns₁ ,j _ns₂ ,…,j _ns_e ，向量：

SFV (X )=(|X |,S (X ),NS (X ),SFD (X ))

在市场经济发展过程中，受到国际环境以及国内改革等方面的影响，企业的经营优势在不断发生变化。为了在市场上占据一定份额，企业就必须加强对经营战略调整的重视，及时结合外部环境来发现内部经营中存在的问题，继而制定合理的战略目标，使企业生产效益最大化。而要想完成上述目标，就必须全面开展预算管理工作。

(2)

1)|X |为X 中文献的个数；

称为文献集合的稀疏特征向量。其中，

2)S 为X 中所有文献稀疏特征取值皆为1的关键词序号集合{j _s₁ ,j _s₂ ,…,j _s_a }；

在自主学习中非常重要的是有自助学习资源，所以，做到资源的共享，就需要学校建设好不同的自助学习中心，比如建设英语学习中心，让学生在中心内开展自主听力，建立英语聊天室，举办英语讲座等。并且，为了使自主学习中心合理的运行，学校需要建立一个完善的管理机制。教师可以在中心内布置任务，学生也可以在中心内与教师签订学习协议，并且制定适合自己的学习计划。为了更好地利用英语自助学习中心，学校需要定期地对中心的使用和学生的学习进行评价，以便于对不合理的地方进行调整。

步骤2：按照b =16，运行CABOSFV，得到16个类(见表6)。

4)SFD (X )为文献集合X 的稀疏差异度，根据定义1(文献集合的稀疏差异度)可知：a =|S |，e =|NS |，所以：

当文献集合X 中只包含一个文献时，文献的个数|X |为1，该惟一文献稀疏特征取值为1的关键词序号集合为S ，稀疏特征取值不全相同的关键词序号集合NS 为空集Φ ，稀疏差异度SFD (X )为0，那么稀疏特征向量SFV (X )={1,S ,Φ ,0}。

给定某领域的学术研究论文集合L =(P ,K )，其中P 是该领域所有学术研究论文文献的集合，K 是论文包含的关键词的集合。使用二维表对高维稀疏聚类的输入数据进行表示(表1)，行代表文献集合；列代表关键词集合。表中的“1”表示该文献使用过该关键词，例如文献P 1关键词列表中没有K 1但有关键词K 2。

采用模拟降雨实验，选用两种护坡形式研究了植生混凝土截留表层土、反滤特性及吸附除杂能力，主要的得出以下结论：

表1 “文献—关键词”矩阵示意

假设有n 个文献，一个文献类内文献集合的稀疏差异度SFD (X )上限为b ，则基于高维稀疏聚类算法CABOSFV进行文献聚类的具体过程是：由每一个文献建立一个集合，用稀疏特征向量SFV (X )描述各集合。从第一个SFV (X )开始进行数据扫描，在扫描的过程中完成文献类的创建和文献集合的归并。首先创建文献类1，将文献1归入文献类1，然后考察是否可以将文献2并入文献类1(若文献2并入文献类1后形成的新SFD (X )大于b ，则认为文献2并入文献类1不可行；否则，认为可行)。如果可行，则将文献2并入文献类1；否则，创建一个新的文献类，将文献2归入该新文献类。然后考察是否可以将文献3并入已存在的文献类1或文献类2中，将文献3加入使得归入后的SFD (X )最小的那个文献类中；否则，创建一个新的文献类，将文献3归入该新文献类。依此类推，直到所有对象扫描结束。这样，通过对论文数据的一次扫描就完成了全部文献类的创建和文献到文献类的归并。可以看到，差异度上限b 在聚类过程中起着十分重要的作用，b 可以通过式(1)来估算。

随着开采资源量的加大和找矿难度的增大，越来越显示出矿产资源的预测和评价的重要性。通过对矿产资源的预测和评价，可提出矿山远景，为今后找矿工作提供动力和指导建议。目前所采用的预测方法较多，诸如德尔菲法、概率法、逻辑信息法、回归分析法、估算法、齐波夫定律等。其中齐波夫定律的地质意义早在1975年就为N. J. Rowlands和D. Sampey所发现，他们论证了在相似成矿地质背景下，同一矿区各个矿体的地质资源储量预测适用于齐波夫定律［1］，后来，国内外许多专家学者也运用齐波夫定律进行了找矿潜力预测，并取得了良好效果。

1.2 基于高维稀疏聚类的知识结构识别方法

利用高维稀疏聚类方法直接对原始文献数据进行聚类，需要将每一篇文献使用关键词进行标识，即算法输入是“文献—关键词”矩阵。根据常识，每一篇文献作者所使用的关键词一般不超过10个，因此这个“文献—关键词”矩阵是十分稀疏的，即使利用专门针对高维稀疏聚类的算法也会失效。因此，提出如下基于高维稀疏聚类算法对“文献—关键词”矩阵进行知识结构识别的迭代方法。

输入：“文献—关键词”矩阵。

步骤1：根据式(1)估算文献集合的稀疏差异度上限b ，计算CABOSFV算法输入。

步骤2：运行CABOSFV聚类算法，得到文献聚类结果。

步骤3：针对文献聚类结果，反查每个类对应的关键词，根据关键词分布情况判断文献类之间的相似性是否很高：如果很高，继续步骤4；如果不高，算法结束，将此时的文献聚类结果作为最终的知识结构。

步骤4：将聚类结果转换为新一轮算法的输入，跳转到步骤1。

1.3 研究工具

为了分析利用高维稀疏聚类对“文献—关键词”矩阵进行知识结构识别的有效性，采用基于关键词共现进行知识结构识别对比。为了排除其他因素影响，拟定这两种方法的输入文献规模大小尽可能一致，均根据词频来选择，选取前100位的关键词。基于CABOSFV算法的知识结构识别采用自编的C++程序和Python程序来实现。另外，本文选择的是文献计量网络可视化软件VOSviewer^[19]，它提供的默认聚类算法是一种基于距离的聚类，聚类结果采用图谱显示，图谱中各个节点距离是依据共现关系的强度通过整体相加计算而生成，图谱中节点之间的距离反映着两者之间的相似性，相似性高的两个节点之间距离很近。此聚类算法结果表示方式为^[20]，为每个节点提供一个分值，通过节点的颜色、大小、聚类群组划分情况可以判读不同群组的强度及其相互作用关系。

2 实验数据获取

2.1 原始数据获取及探查

在中国知网CNKI上搜索以“数据挖掘”为关键词的文献，选定范围为期刊，将时间设定为近十年，即2009-2018年，检索得到18 712条结果。为了防止下载一种格式文件会出现数据不一致的情况，将数据下载成Refworks、NoteExpress和Excel 3种格式进行数据探查。

由于共词分析和高维稀疏聚类都是关于关键词的分析，因此将所有数据中没有关键词的数据都删除。此时就利用自编的Python对题录之中K 1(即关键词)为空的内容删除，最终验证到所有题录的K 1(即关键词)没有为空的。因此可以直接使用数据进行接下来的分析。

2.2 实验数据准备

实验数据准备的任务是确定使用高维稀疏聚类的矩阵维度及基于此构建“文献—关键词”矩阵。本文选取量级为百维量级的关键词，最终得出频次排在前100位的关键词一共有104个(表2)。其中，“数据挖掘”出现16 711次，和其他关键词出现频次差距太大，在后来分析中的关联性很强，对实验分析影响较大，所以在后续实验中会把关键词“数据挖掘”删除。

3 实验结果

3.1 基于关键词共现分析的知识结构识别结果

K-means算法即已知数据库包含n个数据样本，给定聚类个数k，对每个数据样本计算其应该属于的类，得到满足方差最小标准的k个聚类。

第1个研究主题可以归纳为“大数据应用研究”，类规模为27，关键词主要包括：大数据(Big Data)、数据分析、电子商务、应用。

利用VOSviewer软件选择共词分析对实验数据进行处理，对其词频前100位关键词进行知识图谱绘制。同样地，此处去除了关键词“数据挖掘”。经过测试，将每一类的最小规模设定为5，其余参数默认，得到2009-2018年国内数据挖掘研究的知识图谱(图1)，可以归纳为8个研究主题。

第2个研究主题可以归纳为“时间序列与预测研究”，类规模为19，关键词主要包括：神经网络、预测、时间序列、遗传算法、粗糙集。

第3个研究主题可以归纳为“聚类算法研究”，类规模为18，关键词主要包括：聚类分析、聚类。

第4个研究主题可以归纳为“关联规则研究”，类规模为13，关键词主要包括：关联规则、Apriori算法。

第二轮：

第6个研究主题可以归纳为“分类算法研究”，类规模为7，关键词主要包括：决策树、id3算法。

表2 关键词词频统计(前100位)

第7个研究主题可以归纳为“基于数据挖掘技术的中医药应用研究”，类规模为7，关键词主要包括：用药规律、组方规律。

第8个研究主题可以归纳为“云计算研究”，类规模为5，关键词主要包括：云计算。

3.2 基于高维稀疏聚类的知识结构识别结果

经探测发现，很多文献都是由“数据挖掘”和其他某一个关键词标识，则可以用来聚类文献的有效关键词个数太少。所以，本文首先将关键词“数据挖掘”去掉，再统计表示每篇文献的关键词个数，去掉为0和1的文献，最终得到第一轮高维稀疏聚类算法的输入为3 508条文献。

图1 基于共词分析的2009-2018年国内数据挖掘研究知识图谱

第一轮：

步骤1：根据式(1)估算差异度上限b 。这里为了取b 为最大上限，因此保证e 最大，X 最小，所以e 取100，X 取2。a 的取值依据按照关键词词频统计结果来确定(见表3)，除去被0个和1个关键词标注的文献，还剩余3 508篇文献。可见，当a 为6或者7所代表对象太少，因此当a 取5时合适，经计算，按照式(1)，得到第一轮的b 取值为10。

表3 第一轮聚类前的关键词词频统计

步骤2：按照b =10，运行CABOSFV，得到57个类(见表4)。

表4 第一轮聚类结果统计

步骤3：利用自编的Python程序，获得每一类的文献名称集合。查看文献名称及对应关键词，发现类之间的相似性很高，还需要进行第二轮聚类。

步骤4：将聚类结果转换为第二轮算法输入。由表4知第二轮算法输入的对象个数是57，维度是100。利用自编Python程序，得到下一轮算法输入。

第5个研究主题可以归纳为“数据仓库与商务智能”，类规模为8，关键词主要包括：数据仓库、决策支持系统、商务智能。

活动之后，我做了两次安抚。一次是对同学们的安抚，主要是详述解忧杂货店各位店员的付出和努力，以取得同学们的理解和支持；一次是对店员的安抚，毕竟是第一次，积极的肯定会让他们更勇敢地面对自身存在的问题。后来，店长黎一鸣发来了反思总结：

表5 第二轮聚类前的关键词词频统计

3)NS 为稀疏特征取值不全相同的关键词序号集合{j _ns₁ ,j _ns₂ ,…,j _ns_e }；

Antenna Pattern Simulation in Marine Radar Simulator

表6 第二轮聚类结果统计

步骤3：利用自编的Python程序，获得每一类的文献名称集合。查看文献名称及对应关键词，发现类之间的相似性很高，还需要进行第三轮聚类。

步骤1：为估算差异度上限b ，进行关键词词频统计(见表5)。可见a 的值在0～5之中选择较为合适。当a 为2时有2个类，对象数相对较少，a 为3时有6个类更为合适，也可以让差异度b 尽可能大。因此取a 为3合适，经计算，按照上述公式，得到第二轮的b 取值为16。

步骤4：将聚类结果转换为第三轮算法输入。由表6知第三轮算法输入的对象个数是16，维度是100。利用自编Python程序，得到下一轮算法输入。

第三轮：

步骤1：类似地，为估算差异度上限b ，获得第三轮聚类时关键词词频统计(见表7)。可见，a 选择在1～10之中选择比较合适，为了使b 达到最大，a 尽可能取得最小值，关键词共现词频在a 中分别为9、9、8、6、3、2。因此此时应该选择中位数合适，定a 为6，经计算，得到第三轮的b 取值为9。

表7 第三轮聚类前的关键词词频统计

步骤2：按照b =9，运行CABOSFV，得到7个类(表8)。

表8 第三轮聚类结果统计

步骤3：对聚类结果分析得到每一类的文献名称集合。统计每一个文献类对应的关键词及词频(见表9)，可见，此时聚类可以终止。

表9 第三轮聚类结果的关键词词频统计

结合反查得到的这些关键词对应的文献标题，将上述7个类的研究主题归纳如下。

第1类研究主题可以归纳为“基于数据挖掘技术的各类应用”，包含基于数据仓库进行的商业销售，基于关联规则挖掘的Weka数据挖掘应用，基于改进遗传算法的K-means聚类分析，这类研究很少涉及单纯的数据挖掘方法改进，往往是结合领域进行应用。

第2类研究主题可以归纳为“数据挖掘在客户关系管理中的应用”，包含基于数据挖掘的客户智能分析和研究、数据挖掘细分客户群等文献。

第3类研究主题可以归纳为“推荐算法及分类算法研究”，这类文献用到了“分类算法”、“个性化推荐”等，这类还包含了数据挖掘在高校图书馆个性化推荐服务中的有效应用

第4类研究主题可以归纳为“时间序列研究及大数据应用”，这类文献用到了“大数据时代”、“时间序列”等，这类还包含了序列模式挖掘在教学管理上的应用、基于时间序列的模式挖掘研究、大数据时代的数据挖掘技术研究等文献。

第5类研究主题可以归纳为“中医数据挖掘”，这类文献用到了“用药规律”、“中医传承辅助平台”、“组方规律”、“医案”等，研究基于数据挖掘方法的用药规律。

本期可使用资金，包括考核期内存在于小额贷款公司的自有注册资金、增资和融入资金，融入资金包括再贷款融资金额、发行可转债融资金额等。

第6类研究主题可以归纳为“商务智能”，其中联机分析处理(OLAP)是数据仓库中的一种分析方法，而商务智能本身也是依托于数据仓库发展起来的。

第7类研究主题可以归纳为“推荐系统与物联网应用”。

3.3 结果对比分析

基于关键词共现分析的知识结构识别和基于高维数据聚类的知识结构识别，两种方法都可以将文献从不同角度进行聚类，并且聚类的效果与数据挖掘研究普遍认识符合度均较好。其中，基于关键词共现分析获得了数据挖掘研究主要包括8个类别，分别为：1)大数据应用研究；2)时间序列与预测研究；3)聚类算法研究；4)关联规则研究；5)数据仓库与商务智能；6)分类算法研究；7)基于数据挖掘技术的中医药应用研究；8)云计算研究；基于高维稀疏聚类获得了数据挖掘研究主要包括7个类别，分别为：1)基于数据挖掘技术的各类应用；2)数据挖掘在客户关系管理中的应用；3)推荐算法及分类算法研究；4)时间序列研究及大数据应用；5)中医数据挖掘；6)商务智能；7)推荐系统与物联网应用。可见，两种结果中识别出来的研究主题中大部分都是一致的，两种分类都有大数据应用研究、中医数据挖掘、聚类研究、分类研究、时间序列研究、基于数据仓库的商务智能应用，并且基于关键词共现分析的类(1)与基于高维稀疏聚类的类(1)大体是一致的。

但是，经过比较亦可发现，基于关键词共现分析获得的某些类比基于高维稀疏聚类获得的文献类更为详细。例如，高维稀疏聚类中的大数据应用类包含关联分析、分类算法研究等基于关键词共现析已有的其他类别。但是高维稀疏聚类对于差异度特别大的类区分更加仔细，例如数据挖掘在客户关系管理中的应用、商务智能、推荐系统与物联网应用都能够进行单独区分出来。

数据显示，预计2018年古巴经济增长1.2%，低于此前设定的2%增速预期，也低于2017年1.6%的增速。古巴经济计划部长希尔表示，受飓风等自然灾害影响，糖业、农业等2018年表现不佳，但预计这些行业2019年将有所反弹。此外，债务和其他金融问题也拖累了今年古巴经济增长。希尔表示，2019年古巴经济预计将增长1.5%，该目标“现实且可实现”。他强调，这一增速预期是在合理分配财政支出、不增加外债的情况下设定的。

此外，基于高维稀疏聚类探测知识结构的时候，需要观察论文题目来进行分类，但是如果因为论文题目较多，最后通过论文题目直接总结分类难度较大，最终解读聚类会借助每种类别文献的高频关键词来分析，所以和基于关键词共现分析相比，可以用来解读分析结果的可用信息更多。

4 结论

已有进行知识结构识别的方法首先基于某种分析思想构建同质元素间的关联程度矩阵，然后再对该矩阵进行结构识别。本文使用高维稀疏聚类的方法对“文献—关键词”矩阵直接进行学科结构识别，采用迭代策略，首先利用词频来估计高维稀疏聚类算法参数和输入，然后运行高维稀疏聚类算法，最后通过统计聚类结果各个类的关键词重合情况来判断算法是否停止。通过与基于关键词共现分析知识结构识别效果来对比分析，最终发现基于高维稀疏聚类进行知识结构识别是有效的，并且该方法可以获得差异度较大的子类，而且进行结果解读可以获取更多信息。在未来研究中，在维度进一步提升的同时，希望能够进一步探测对象的输入顺序是否对聚类结果有影响及不同的差异度上限估算方式，从而得到更准确的结果分析。

参考文献

[1]Small H.Co-citation in the Scientific Literature:A New Measure of the Relationship Between Two Documents[J].Journal of the American Society for information Science,1973,24(4):265-269.

[2]马瑞敏,邱均平.基于CSSCI的论文同被引实证计量研究——以图书馆学、情报学为例[J].图书情报知识,2005,(5):77-79.

[3]White H D,Griffith B C.Author Cocitation:A Literature Measure of Intellectual Structure[J].Journal of the American Society for Information Science,1981,32(3):163-171.

[4]马瑞敏,倪超群.基于作者同被引分析的我国图书情报学知识结构及其演变研究[J].中国图书馆学报,2011,37(6):17-26.

[5]马费成,宋恩梅.我国情报学研究分析：以ACA为方法[J].情报学报,2006,25(3):259-268.

[6]Kessler M M.Bibliographic Coupling Between Scientific Papers[J].American Documentation,1963,14(1):10-25.

[7]肖明,李国俊,袁浩.基于引文耦合的数字图书馆研究结构可视化分析[J].图书情报工作,2010,(7):51-54.

[8]Jarneving B.Bibliographic Coupling and Its Application to Research-front and Other Core Documents[J].Journal of Informetrics,2007,1(4):287-307.

[9]Zhao D,Strotmann A.Evolution of Research Activities and Intellectual Influences in Information Science 1996-2005:Introducing Author Bibliographic-coupling Analysis[J].Journal of the American Society for Information Science and Technology,2008,59(13):2070-2086.

[10]马瑞敏,倪超群.作者耦合分析：一种新学科知识结构发现方法的探索性研究[J].中国图书馆学报,2012,38(2):4-11.

[11]王知津,周鹏,谢丽娜.用ABCA方法识别和阐释我国当代情报学研究领域[J].情报学报,2013,32(1):4-12.

[12]Morris S A,Yen G G.Crossmaps:Visualization of Overlapping Relationships in Collections of Journal Papers[J].Proceedings of the National Academy of Sciences,2004,101(1):5291-5296.

[13]张勤,马费成.国内知识管理研究结构探讨——以共词分析为方法[J].情报学报,2008,27(1):93-101.

[14]张勤,徐绪松.共词分析法与可视化技术的结合：揭示国外知识管理研究结构[J].管理工程学报,2008,22(4):30-35.

[15]孙海生.作者关键词共现网络及实证研究[J].情报杂志,2012,31(9):63-67.

[16]Chen C.CiteSpace Ⅱ:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.

[17]丁晟春,王楠,吴靓婵媛.基于关键词共现和社区发现的微博热点主题识别研究[J].现代情报,2018,38(3):10-18.

[18]武森,高学东,M.巴斯蒂安.高维稀疏聚类知识发现[M].北京：冶金工业出版社,2003:38-54.

[19]N Van Eck,Waltman L.VOS:A New Method for Visualizing Similarities Between Objects[C]//Advances in Data Analysis:Proceedings of the 30th Annual Conference of the German Classification Society,2007:299-306.

[20]李杰.科学知识图谱原理及应用——VOSviewer和CitNetExplorer初学者指南[M].北京：高等教育出版社,2018:49-52.

Intellectual Structure Detection Based on High-dimensional Sparse Clustering

Huang Yue Wang Xin

(School of Information Science,Beijing Language and Culture University,Beijing 100083,China)

Abstract ：[Purpose/Significance]The identification of intellectual structure in a certain research area based on literature is an important task of bibliometric analysis,which can reveal the research characteristics of this field.[Methods/Processes]Traditional methods of detecting the intellectual structure were two-step,firstly constructed the correlation matrix between element of the same type based on a specific analysis principle,and then identified the structure of the matrix.However,this study put forward a method based on the “paper-keyword” matrix for high-dimensional sparse clustering to detect intellectual structure.Taking the domestic journal papers in the field of data mining during 2009 and 2018 as an example,the results of intellectual structure identification based on keyword co-occurrence analysis and direct high-dimensional sparse clustering were compared.[Results/Conclusion]The experimental results showed that the intellectual structure based on high-dimensional sparse clustering was effective,and the method can obtain sub-classes with large differences and give results with more information.

Key words ：intellectual structure;detection;high-dimensional sparse;clustering;co-word analysis;data mining

DOI: 10.3969/j.issn.1008-0821.2019.12.009

〔中图分类号〕 G201

〔文献标识码〕 A

〔文章编号〕 1008-0821( 2019) 12-0072-09

收稿日期： 2019-07-19

基金项目：教育部人文社会科学研究青年基金项目“面向语言学的文献计量及知识可视化分析”(项目编号： 17YJCZH069)；全国高等院校计算机基础教育研究会 2018年度计算机基础教育教学研究项目“教育数据聚类分析及个性化推荐”(项目编号： 2018-AFCEC-176)；北京语言大学院级科研项目(中央高校基本科研业务专项资金资助)“基于文献计量的不同学科差异分析”(项目编号： 19YJ040001)；北京市级大学生创新创业计划项目支持(项目批准号： 201910032038)。

作者简介：黄月 (1986-)，女，副教授，博士，研究方向：数据挖掘、信息计量。王鑫 (1995-)，男，学士，研究方向：聚类分析。

(责任编辑：郭沫含)

标签：知识结构论文; 识别论文; 高维稀疏论文; 聚类论文; 共词分析论文; 数据挖掘论文; 北京语言大学信息科学学院论文;

基于高维稀疏聚类的知识结构识别研究论文