基于LDA主题模型和生命周期理论的科学文献主题挖掘,本文主要内容关键词为:主题论文,生命周期论文,文献论文,模型论文,理论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000—0135.2015.003.007 1 引言 随着数据库和Web技术的高速发展,在科学研究领域,科学技术文献的存储和获取发生了根本性的变革。当科研人员搜索某一研究领域的科学技术文献时,至少可以获取如期刊论文、会议论文、科技报告、专利,甚至Web文本等不同形式的科学文献。当科技管理工作者制定针对某一学科研究领域的科技政策时,需要准确把握该领域的研究热点和研究趋势,而面对这些海量、异构的科学文献,依靠传统方法,科技工作者很难快速捕获到某一学科领域的研究热点和研究趋势。特别是Web信息超载、信息污染[1]等问题大量存在的情况下,人们开发和利用信息资源的效率受到影响。如何针对海量科学文献进行“广、快、精、准”的文献分析工作,对该领域的研究热点和发展趋势有一个准确的研判,进而提高科学研究生产率,具有重要的现实意义。 从科学文献中挖掘学科研究主题、学科结构和发展趋势的文献计量方法,一般是基于关键词的词频分析方法和共词分析方法[2~5]等。共词分析可以有效解决传统的词频分析方法的不足,通过统计关键词共现频次,构建共词矩阵进行聚类,以战略坐标图或主题网络的形式进行可视化,可以概述研究领域的研究热点,横向和纵向分析领域学科的发展过程、特点以及领域或学科之间的关系。共词分析基于共现矩阵进行聚类,由此也会引起几个问题:①关键词的选取具有主观性[6],如何获取表征论文主题的关键词往往成为共词分析的关键[7];②由于文献主题词积累所引发的分析时滞性,导致不能够完全反映某一学科主题的发展趋势和最新生长点[8];③难以确定高频词与低频词的分界点,毕竟有些低频词也可能成为未来研究的趋势和热点[9,10];④难以反映主题词对间更深层次的语义关系[11]。 近年来很多学者不断优化和改进共词分析方法,如唐晓波等针对自标引关键词不能够全面描述论文主题内容的问题,提出了一种从论文标题中增补关键词的方法,并引入领域本体来计算高频关键词对的语义相似度,有效地改进了共词分析的有效性[7];叶春蕾和冷伏海提出了一种基于共词分析的改进的学科主题演化方法[11],针对传统共词分析缺少度量共现词对聚类主题重要程度的问题,提出了利用概率指数度量共现词对与聚类主题以及聚类主题之间相似度的方法,改进了聚类的效果。但是,关于高频词和低频词的分界点、共词分析的时滞性问题以及主题的演化趋势等问题仍需要进一步的探讨和解决。 本文试图通过生命周期理论和LDA主题模型构建一种科学文献主题挖掘和主题演化的方法。该方法利用科学文献全文或摘要构建语料库,克服了关键词选取的主观性问题,并通过LDA主题模型抽取科学文献隐藏的主题结构,该结构不是通过单一的共现词对聚类来刻画,而是通过概率方法生成与该主题相关的一系列词项来刻画,深度挖掘主题语义信息,并通过量化的方式度量主题的强度以及主题之间的关联,能够更加准确的研判学科领域的发展趋势。 2 相关理论研究 2.1 生命周期理论 生命周期(Life Cycle)[12]的概念应用很广泛,特别是在政治、经济、环境、技术、社会等诸多领域经常出现,其基本涵义可以通俗地理解为“从摇篮到坟墓”(Cradle-to-Grave)的整个过程。生命周期理论是事物发展的基本理论,事物的发展过程是从产生、发展、成熟到消亡的过程,旧事物的消亡同时伴随着新生事物的诞生。学科主题的演化同样遵循这一规律,在科学传播过程中,学科领域发展大致可以划分为萌芽期、发展期、成熟期、衰退期/转型期四个阶段,学科主题作为学科领域内容的体现,其生命周期与学科结构的生命周期是一致的。 生命周期理论能够很好的揭示学科领域从诞生、增长、衰退到消亡的过程,在主题探测和追踪领域已经有了很好地应用。例如,王素丽对学科引文的文献生命周期模型进行了探析[13];龚思婷等从网络信息的增长和老化这两个视角对网络信息的生命周期进行了研究,研究表明网络信息的增长和老化可以很好的度量网络信息的生命力[14];王春秀等提出生命周期理论是学科主题演化定量分析的理论基础之一,生命周期理论勾画了学科主题的演化轨迹[15];马费成教授基于战略坐标图和概念网络分析法绘制了国内生命周期理论研究的知识图谱,分析了国内生命周期理论研究的现状[16],对生命周期理论的研究具有重要的指导意义。 文献信息增长规律是文献计量学中用来刻画科学文献生命周期的基本规律,其基本方法是文献信息统计方法。前苏联科学学家弗·纳里莫夫在研究科学文献增长规律时,发现文献的增长是分阶段的,每一阶段的增长模式并不相同,提出了文献按照逻辑曲线增长的理论和模型[17]。本文利用文献信息统计方法统计学科领域的科学文献信息及其变化,以文献信息增长规律为指导,分析学科领域文献信息增长趋势,刻画学科领域生命周期,并对生命周期不同的阶段进行划分(图1): (1)萌芽期:文献增长缓慢,文献增长率接近为零,研究主题单一,文献量较少,但始终有该学科领域文献出现,表明该学科领域处于萌芽期。 (2)发展期:文献量呈现较快的指数型增长,文献增长率呈递增状态,新的研究主题不断涌现。同时,需要注意的是在发展阶段文献增长率随时间变化呈现出先增后减的规律,反映在文献量曲线上会出现一个拐点,意味着学科领域正由快速发展步入缓慢发展阶段。 (3)成熟期:文献量呈缓慢增长趋势,文献增长率进一步递减,研究主题数量稳定,文献量维持在一个较高的水平。 (4)衰退期/转型期:学科领域经过成熟期一般会朝两个方向发展,一个方向是:文献量递减,没有新的研究主题出现,文献增长率为负,表明该学科领域正在衰退,表现在图1中是分叉曲线中向下的那一段曲线;另一个方向是:在原有学科领域中变异出新的研究方向和研究热点,文献量进一步递增,文献增长率为正,表明该学科领域正在转型,表现在图1中是分叉曲线中向上的那一段曲线。 注:图1所示学科领域生命周期示意图是根据文献信息增长规律,以时间为轴统计学科领域文献发表量绘制而成,但不完全等同于文献信息增长规律,主要区别是在学科领域生命周期有衰退期/转型期。其中a、c、d三条虚线是萌芽期、发展期、成熟期、衰退/转型期的临界线,虚线b所对应拐点是快速发展期的临界点,虚线d之后是衰退期还是转型期需根据具体学科而定,并无固定的规律。该示意图可以描绘学科领域的生命周期,可以对学科领域的发展有一个宏观的判断。 图1 学科领域生命周期示意图 2.2 LDA主题模型 LDA主题模型是自然语言处理中主题挖掘的重要模型,可以从语料库中抽取与所有文档相关的一系列主题,提供了一个可以量化研究主题的方法,并且可以监测主题的演化以及刻画文档之间的相似度[18]。自Blei提出LDA主题模型[19]以来,很多学者对LDA模型进行了模型扩展和应用研究。模型方面的研究,如Wang等提出了主题演化概念(Topic Over Time)[20],用于分析主题随时间的演化;BoydGraber等提出了一个基于WordNet的LDA模型[21];Gerrish等在LDA的基础上提出了DIM模型以识别文档集合中最有影响力的文档[22]。LDA应用方面的研究主要集中在话题追踪和监测、文本分类、文本聚类等方面。 LDA是概率主题模型的一种,是一种完全的产生式模型[18]。在文本挖掘中常用来处理多源异构、碎片化、非结构化语料库的语义表达,可以挖掘语料库隐含主题,同时将文档词空间降维到隐性主题空间中。通过主题抽取,我们将获得两个重要的概率分布,主题—词项混合分布ψ和文献—主题混合分布θ。通过主题—词项分布可以获取每个潜在主题的结构,这种结构通过每个支持该主题的词项的概率值表示,概率值越大说明该词项与主题的关联程度越大,进而对主题的语义信息进行解析;文献—主题分布获得每个主题下的文档支持权重,权重越大说明该文献与主题的关联程度越大,通过文档—主题分布可以刻画主题的强度,也可以通过相似度计算进行主题聚类,揭示学科各主题之间的深层次的语义关联。本文重在利用LDA主题模型,从科学文献摘要中提取研究主题,并利用主题演化方法分析学科领域研究趋势。首先,对主题以及主题表示和主题演化进行说明。 定义2.1[18]:主题指的是在语义上与该主题(z)相关的一列词项()及其权重,即该主题下词项的条件概率组成的向量,与主题关系越密切的词语,它的条件概率越大,反之则越小。用向量表示为: 下面用一个例子来说明主题的含义及其表现形式,见表1。 当使用LDA对语料库进行主题抽取时,LDA通过现有的文档对概率模型的参数进行学习,并估计每一个潜在主题下每一个词的概率,通过这种方式,LDA将相关的词项聚成潜在主题并以该词出现的概率作为权重。如“topic1”这个主题下,“gen”、“dna”、“genetic”这些词出现的概率很大,说明该主题是和“基因”相关的;“topic2”这个主题下,“life”、“evolve”这些词出现的概率排名靠前,所以该主题是和“生命进化”有关,但是主题的标签需要根据主题词项来确定。 定义2.2[19]:主题强度是衡量科学研究主题是否为研究热点的量化指标,通常使用该研究主题在所有科学文献中的权重与总文献量的比值来表示,即 注:表示第j个主题在文档d上的权重,即表示第j个主题的主题强度值。 定义2.3:主题强度演化指的是主题强度值随时间的演化趋势,通过不同时间窗口内的文档-主题概率分布(θ)来计算得到。 3 基于LDA的学科领域生命周期语义挖掘模型构建 生命周期理论作为一种具有普适意义的世界观和方法论,其内容博大、应用广泛,需要结合具体环境去挖掘其实际指导意义[16]。而LDA主题抽取基于概率模型,模拟文献和词的产生过程,可以量化的展示语料库的隐藏主题结构[23],将LDA和生命周期理论相结合,可以实现理论和方法的融合,以生命周期理论为指导,借助LDA主题抽取和主题演化技术,帮助研判学科发展趋势和规律。模型的结构如图2所示。 (1)科学文献数据归一化处理 由于期刊、报告、专利、Web文档等科学文献结构不同,首先要解决的就是异构数据的归一化问题,即将所有不同类型的文献转换成统一的规范文本格式加以存储,以方便后面后期的主题抽取和主题演化分析。归一化的方法主要涉及中文分词、去停用词等自然语言处理过程。 (2)基于科学文献信息增长规律的学科领域生命周期刻画 科学文献信息增长从信息价值视角反映科学文献信息的生命力。科学文献的生命力一方面反映了科学文献映射的学科知识的效用价值,一方面反映了该学科的发展趋势。本文利用科学文献信息增长规律,将学科领域发展按照生命周期理论分解为四个阶段:萌芽期、发展期、成熟期、衰退期/转型期。 (3)基于LDA的学科领域生命周期语义挖掘 将科学文献按照不同的生命周期阶段,划分为若干时间窗口,从三个层次对生命周期进行语义挖掘。 ①第一层次:生命周期全局语义挖掘。通过LDA主题模型实现全局主题的抽取和主题表示,以此了解该学科领域整体研究概况,包括主要研究内容和研究热点。 ②第二层次:生命周期阶段层语义挖掘。按照生命周期不同阶段划分时间窗口,在不同的时间窗口内实现LDA主题抽取和主题表示,以此掌握该学科领域每一阶段的研究主题和研究热点。通过对比分析生命周期不同阶段内研究主题的演化,对学科领域的发展趋势进行研判。 ③第三层次:主题层语义挖掘。在生命周期的同一阶段,划分时间窗口,如按照年份或更细的粒度,实现LDA主题模型的主题抽取和主题表示。该层次的语义挖掘可以实现研究主题细粒度演化,对每一个研究主题的发展趋势进行研判。 图2 基于LDA的学科领域生命周期语义挖掘模型示意图 4 实证与分析 实验目的是通过基于LDA的学科领域生命周期语义挖掘模型,刻画国内新能源领域生命周期以及挖掘国内新能源领域周期语义信息。 本文侧重于分析新能源领域的相关技术和发展趋势,实验数据检索自CNKI,使用的数据库为中国学术期刊网络出版总库,检索策略是中国学术期刊网络出版总库——工程科技Ⅱ辑——新能源类目(时间限制为1979-2012年),通过去重、删除不完整的记录,只保留期刊论文和会议论文,共获得国内新能源领域11 940篇文献,全部字段包括标题、作者、机构、摘要和关键词,不包括全文。 新能源一词是1981年8月联合国在内罗毕召开的新能源和可再生能源会议上提出的,会议对新能源进行了界定,即“新的可更新的能源资源。它可以通过新技术和新材料加以开发利用,而且消耗后可得到恢复和补充,不产生或很少产生污染,对环境无多大损害,有利于生态良性循环”[24]。由于“新能源”一词本身具有演化性质,不同的历史时期其含义是不同的。本文通过国内1979-2012年新能源领域近1万两千篇文献进行主题抽取,对新能源概念的内涵进行阐释,对目前国内新能源的研究现状进行分析。 4.1 科学文献数据归一化处理和LDA参数设置 本文利用文献摘要建立了原始数据库,利用jieba分词工具包①实现中文分词、去除停用词等自然语言处理标准过程,获得实验用语料库,最后基于开源gensim②包实现LDA主题模型的参数训练。 LDA主题模型参数设置:使用Gibbs Sampling进行参数后验估计,设置迭代次数为2000次,超参数设置为α=0.01、β=0.05,主题数目T由Griffiths等[18]提供的贝叶斯模型选择方法来确定。 LDA主题抽取后获得两个重要文档,一个是文档—主题分布文档命名为doc_topic.txt,该文档用来计算主题强度;一个是主题—词分布文档命名为topic_word.txt,用来表示主题和主题内容。 4.2 学科领域生命周期刻画 通过1979-2012年每年的文献发表量,利用曲线最小二乘拟合方法,得到文献发表量年代分布曲线(如图3所示)。 从曲线拟合表达式发表量=e[0.168*年份]看,新能源领域文献发表量呈现指数型增长。但是文献发表量仅仅是刻画学科发展的一个方面,要想更细致的刻画国内新能源领域34年的生命周期,还需要利用年度文献增长量对新能源领域的各发展阶段进行分析。基于此,我们绘制了新能源领域生命周期图(图4)。 由图4,结合生命周期理论,将国内新能源领域发展分为以下三个阶段: 萌芽期:1979-1993年。这一阶段该领域每年的发文数量在2~34篇范围内,发表文献年增长量平均仅为1,说明该领域刚刚起步,处于萌芽阶段。 发展期:1994-2000年。这个阶段发文量每年在81~274篇范围内,总发文量是第一阶段总发文量的3倍还多,且发文年增长量平均为第一阶段的2倍,年度文献增长量不稳定呈振荡趋势,出现先增后减再递增的过程。 快速发展期:2001-2012年。这个阶段每年的发文量在215~2004篇范围内,总发文量是第二阶段发文量的8倍多,发表文献年增长曲线呈现陡峭递增趋势,这充分说明了该领域处于高速发展期。 图3 文献发表量年代分布曲线拟合 图4 国内新能源领域年度文献增长量及生命周期刻画 图5 新能源领域全局主题强度值 由前面的文献发表量年代分布拟合曲线以及生命周期刻画可以得出,目前国内新能源领域的文献增长率很快,发展阶段中的拐点还没有显现,说明国内新能源领域正处于快速发展期。 4.3 新能源领域生命周期语义挖掘 4.3.1 第一层次:生命周期全局语义挖掘 通过对国内新能源领域语料库中全部11 940篇文献进行主题抽取,通过人工标注,将典型的4个主题及主题支撑词项展示如下(只取对主题支持度排名前10的词项进行展示): 从全局主题抽取的结果来看,共获取典型主题16个,并通过主题强度值表示其研究热点程度。 新能源领域全局语义信息:由图5可以看出,我国新能源领域涉及的“新能源概念”主要有:太阳能、风能、生物质能、天然气水合物、潮汐能、地热能、氢能等。有些新能源已经出现了多个研究主题,如太阳能,从理论研究到太阳能热泵、太阳能热水器、光伏发电等;生物质能,从生物质研究到生物质能、沼气发酵、沼气池、沼气工程等;风能主要研究风力发电和风力机,风力机是风能研究的热点。 从主题强度可以看出新能源领域的相对研究热点,如高热点的研究主题:沼气、天然气水合物(可燃冰)、太阳能热水器、生物质、风力机等,主题强度值均超过了0.08。而地热、氢能,因为受到地域或技术的限制,目前的研究强度相对较低。 另外,在新能源研究领域中,数学方法有至关重要的作用,所以数学方法主题也被抽取出来作为一个单独的主题。从数学方法主题的词项表示中发现,新能源领域的发展基于两种数学方法,预测与评价。即用高级的智能优化算法,如遗传算法、支持向量机、神经网络、蒙特卡罗方法等,通过MATLAB工具实现数值模拟和预测;通过层次分析法、主成分分析等统计学方法,实现综合评价。例如,表3所示风力发电主题出现了“神经网络”、“风速预测”、“建模”、“预测”、“遗传算法”和“优化设计”等词;风力机主题出现了“数值模拟”、“优化设计”和“遗传算法”等词;“新能源评价”主题出现了“层次分析法”、“评价指标”、“主成分分析”、“适宜性分析”等词。这些主题之间的语义关联通过隐藏的主题结构初步的表现出来,可以得到的初步结论是:风力发电主要用用到了优化和预测的数学方法,风力机的设计更加重视只能优化算法的使用,而在新能源评价中主要使用了层次分析法、主成分分析法等。 注:由表3可以看出,“新能源评价”主题词项的概率值较低,造成该主题强度值很低,不是典型主题,所以在图5中并未列出。 4.3.2 第二层次:生命周期阶段层语义挖掘 分别对萌芽期292篇文献、发展期1024篇文献、快速发展期10 624篇文献,实现LDA主题抽取和语义标注。 (1)主题抽取结果 首先,将新能源领域生命周期内各阶段新出现的研究主题归纳如表3所示。 其次,将研究主题在各阶段内的主题强度演化规律表示如图6所示。 图6 新能源领域生命周期各阶段主题强度演化 (2)生命周期各阶段语义信息 ①新能源领域萌芽阶段语义信息。 在萌芽阶段,太阳能研究占据绝对的主导地位,其主题强度为1,而太阳能的研究集中在太阳房、太阳池、太阳灶、集热器等方向,而集热器的研究是当时的研究热点(图7)。通过查阅相关资料,我国在20世纪90年代初已经初步形成了平板、真空板、闷晒三种太阳能热水器技术,而第一阶段,平板和真空板显然居于首位[25]。 图7 新能源领域萌芽阶段典型主题强度值 图8 太阳能主题变迁示意图 图9 新能源领域快速发展阶段三个典型主题强度演化曲线 ②新能源领域发展阶段语义信息。 由表4可以看出,在1994-2000年短短7年之内,我国新能源领域出现了7个新主题,分别为风能、地热能、天然气水合物(可燃冰)、生物能、沼气、氢能和潮汐能。严格来说,沼气属于生物质能的一种,但由于沼气的主题强度值很高,所以把沼气从生物质能中分离出来。这说明新能源领域在这个阶段,从单一的研究太阳能主题到扩展到其他主题,且速度快,历时短,这正符合了生命周期理论发展阶段的规律。 ③新能源领域快速发展阶段语义信息。 在这个阶段,新能源领域研究主题和主题数量处于稳定状态,基本上没有发生变化。文献量也处于高速增长期,文献量是发展期的8倍还多。但这只是表象,语义层面的信息通过主题挖掘才能显现出来,从两个角度阐述这种变化: 一是从主题强度的角度。主题数量虽然没有发生变化,但主题强度却发生了很大的变化,由图6可以清晰地看出,太阳能主题的研究强度进一步降低,而其他新兴主题如沼气、生物质能、风能都由低热度向高热度转变,尤其是沼气和生物质能的研究热度不断上升,在快速发展期已经超越了太阳能主题。 二是从主题变迁的角度。一个主题的发展总是伴随着新方向的产生和旧方向的消失,新旧不断交替。注意到主题模型通过主题抽取,除了监测新主题的产生外,也探测到旧主题的消亡,如太阳能主题在萌芽阶段出现的太阳房、太阳池、太阳灶方向在发展阶段都消亡了,同时新出现了空气取水[26]和光伏发电等新方向(图8)。 4.3.3 第三层次:生命周期主题层语义挖掘 对国内新能源领域生命周期内同一阶段以1年为时间间隔划分语料库,分年度进行主题抽取,并统计同一主题的主题强度值,刻画主题强度演化,对新能源领域未来研究主题和研究热点进行研判。 图9展示了新能源领域快速发展阶段的三个典型主题,太阳能、生物质、风能的主题强度演化曲线。 图9为我们清晰地描述了三个不同主题的主题强度演化: ①太阳能作为重要的可再生能源对于我国能源的可持续发展有着重要意义。太阳能在最近几年的研究中主题强度由最初的持续下降,但仍旧处于较高的点位,仍然是新能源研究的热点。②生物能在最近几年里得到了持续的关注,其主题强度值整体上升。生物质能一直是人类赖以生存的重要能源,它是仅次于煤炭、石油和天然气而居于世界能源消费总量第四位的能源,在整个能源系统中占有重要地位[27]。③风能之所以能够得到研究者的持续关注,源于风能资源具有可再生、永不枯竭、无污染等特点,综合社会效益高。而且,风电技术开发最成熟、成本最低廉。我国风力发电的环境效益相当显著[28],我国新能源战略开始把大力发展风力发电设为重点。 5 模型对比分析 为了对模型进行验证,我们统计了国内新能源领域生命周期各个阶段的关键词词频以及关键词共现频次,在此基础上验证基于LDA的学科领域生命周期语义挖掘模型所挖掘主题的可靠性以及主题演化的有效性。 通过统计全局和各个阶段高频关键词词频(取top10),得到表5。 如表5所示,将全局高频关键词和各个阶段的高频关键词进行了统计,下面通过主题抽取和主题强度演化这两个方面对比分析高频关键词方法和本文基于LDA的模型方法。 (1)主题抽取对比分析 文中表2(全局主题部分展示)和图5(全局抽取的所有主题)分别是基于LDA模型的全局主题抽取(部分展示)和主题强度刻画,与表5第一列(全局高频关键词)对比分析可以看出,基于LDA模型所抽取的新能源领域全局研究主题,基本上可以涵盖表5中的全局高频关键词,这说明了基于LDA的主题抽取所获得的研究主题是准确的。 全局高频关键词所代表的研究主题仅能从单个关键词展示,如“天然气水合物”这个关键词出现了649次,说明“天然气水合物”是研究主题,但是这个主题所包括的深层语义无法刻画。LDA模型抽取的主题包含一系列与该主题相关的关键词,见表2“天然气水合物”主题,该主题下的一系列关键词及其权重如:“天然气水合物”、“可燃冰”、“南海”、“甲烷”等很好的刻画了这个主题的语义信息。 注:各阶段的研究主题对比分析同全局研究主题对比分析方法是一样的,见表5的第2列代表的是萌芽期高频关键词以及表6萌芽期LDA主题抽取部分结果。如表5中第二列萌芽期高频关键词显示除了关键词“太阳能”外,出现了“集热器”、“平板集热器”、“太阳能热水器”、“太阳能集热器”、“太阳灶”、“太阳池”等高频关键词,但是这些高频词之间的语义关系是无从得知的,而LDA模型给出的主题抽取结果如表6显示,“集热器”、“平板集热器”、“太阳能热水器”、“太阳能集热器”是聚在一起的,都是包含在“集热器”这个主题之下的。另外,“太阳房”、“太阳池”、“太阳灶”等研究主题如表6所示。 (2)主题强度演化对比分析 基于LDA模型的方法除了主题抽取所表达的主题语义信息更加丰富之外,主题强度的演化也更加准确。通过表5的第2、第3、第4列可以看出“太阳能”这个关键词的词频在三个阶段是明显递增的,但不能就此判定其研究强度也是递增的,实际上通过词频的方法是没有办法对“太阳能”这样一个研究主题度量其强度的,因为基于词频的方法无法显示哪些关键词是与“太阳能”这个主题相关,而LDA主题抽取本身就是词的聚类,其研究强度通过上文定义2.2来度量,从图6可以看出“太阳能”主题的强度在新能源生命周期中是递减的,这充分说明基于LDA的主题演化方法可以有效监测学科主题研究趋势。 通过统计国内新能源领域各阶段的关键词共现频次(取top10),得到表7。 从关键词共现表中,我们发现在萌芽期和发展期,关键词共现的频次是很低的,而大多数的共现次数为1,直接导致高频和低频共现的临界点确定的难度,影响聚类效果。并且,将共现频次转换为共现矩阵后,是非常稀疏的,这不利于共现聚类的效果,也不利于主题演化的分析。在主题演化时,当把时间段切的很细的时候,共现矩阵更加稀疏,没有办法进行主题的演化。而基于LDA主题模型的主题演化不存在这样的问题,LDA主题模型可以将时间段切的细到年或月,这是因为LDA主题模型是基于整个文档建模,而不仅仅是关键词(考虑到获取全文的成本,本文中使用摘要),其演化效果是显而易见的,见图9。 6 研究结论和展望 通过本文建立基于LDA的学科领域生命周期语义挖掘模型,对国内新能源领域从1979-2012年近12000篇科学文献进行实证分析,结果显示我国新能源领域的研究正处于快速发展期,共有典型研究主题16个,研究热点有沼气、天然气水合物(可燃冰)、太阳能热水器、生物质、风力机等。在发展期,共出现7个新的研究主题,目前研究主题比较稳定,但每个研究主题其主题强度和主题内容都在不断演化,如太阳能主题在生命周期不同阶段有不同的研究方向。从快速发展期主题强度演化趋势来看,未来生物能和风能将成为新能源领域最热的研究主题。 LDA主题模型应用到科学文献研究中,可以实现研究热点发现,研究趋势研判,特别是基于科学文献全文或摘要的语料库形式,大大增强了学科领域研究热点的语义信息解释性。科学文献的生命周期理论是基于科学文献的统计信息刻画出来的,对于学科发展结构具有宏观的指导意义。通过本文建立的基于LDA的学科领域生命周期语义挖掘模型将二者有效结合,实证分析验证该模型初步实现了学科领域结构分析、研究热点发现及发展趋势揭示,但本文的研究方法还有待改进,首先,由于全文语料库的获取比较困难,本文仅使用了科学文献的摘要,这影响了基于LDA的学科领域生命周期语义挖掘模型的使用效果;其次,本文还没有考虑更细粒度的主题与主题之间的关联分析、主题与文档之间的关联分析等,通过这些分析可以刻画学科领域研究主题的遗传和变异,更加清晰的展示研究主题的变迁和整个学科的演化脉络。如何从主题关联挖掘视角进行科学文献生命周期语义挖掘将是我们下一步的研究方向。 ①Jieba 0.34:Python Package Index.https://pypi.python.org/pypi/jieba/ ②gensim 0.10.2:Python Package Index.https://pypi.python.org/pypi/gensim标签:太阳能论文; lda论文; 生命周期理论论文; 主题模型论文; 文献论文; 语义分析论文; 文献分析法论文; 科学论文;