边界识别方法的研究进展_文本分类论文

边界识别方法的研究进展_文本分类论文

研究前沿识别方法的研究进展,本文主要内容关键词为:研究进展论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      当今以知识为基础的经济时代,经济体的竞争力与经济的增长依赖于其快速高效地应用新科技满足瞬息万变的市场需求的能力,而科技创新的种子往往来源于科学技术研究,而“研究前沿”(Research Front)正是科学技术研究中推动科技创新的种子所在。因此从浩瀚的科技信息中探测研究前沿,无论是对微观的科学研究,还是对宏观的政策制定都具有重大意义。

      Price最早提出“研究前沿”的概念,认为在一个给定的研究领域,科学家积极引用的近期文献的集合所表征的研究领域就是研究前沿[1]。之后许多学者对研究前沿下过定义,但至今还没有形成明确统一的定义,而且在科学研究领域,与研究前沿相似或相近的概念很多,比如新兴趋势(Emerging Trend)、新兴研究领域(Emerging Research Domains,Emerging Research Area,Emerging Fields,Emerging Knowledge Domains)、新兴主题(Emerging Topics)、新兴技术(Emerging Technologies),等等。总结这些定义与概念,笔者认为在科学研究中最近出现、正在兴起的研究主题或者研究领域就是“研究前沿”。从本质上讲,研究前沿必须是一种研究主题或者研究领域,而且这种研究主题或者领域往往是来源于新的科学发现或者研究进展,并在短时间内能迅速引起领域内科学家的高度关注,其代表了科学发展的难点、热点与发展趋势[2]。目前,研究前沿的识别方法大体上可分为基于专家(Expert-based)的方法和基于计算机(Computer-based)的方法两个方面。基于专家的方法就是利用专家的知识来探测研究前沿和新兴研究领域,而在信息爆炸的时代,这种基于专家的方法识别研究前沿需要耗费相当长的时间,并且带有强烈的个人主观性,已经不能适应时代的需求,学者在这方面的研究也越来越少。而基于计算机的方法是通过计算机进行科学计量或者文本挖掘的方法来高效快速辅助科学家识别研究前沿。

      本文主要探讨的是基于计算机的研究前沿识别方法,从目前的研究现状来看,基于计算机的研究前沿识别方法主要可以分为基于引用关系的方法、基于文本内容的方法以及基于复合关系的方法。

      1 基于引用关系的方法

      基于引用关系的方法主要是基于共被引、文献耦合、直接引用的方法。从研究前沿的定义来看,研究前沿短期内会引起领域内科学家的广泛关注,则必然会伴随着研究前沿相关文章被科学家积极引用,进而导致引文网络的变化。所以,采用基于引用关系的方法来识别研究前沿具有可行性。

      1.1 基于共被引的方法

      1974年Small和Griffith参考Price的研究前沿的定义提出用共被引聚类分析得到的高被引文献簇能很好地表征研究前沿[3],并在2009年以有机薄膜传感器(Organic Thin Film Transistors)领域为例,采用基于共被引方法分析了该领域新主题突现、发展、消亡的过程[4]。2009年ISI ESI利用Small和Griffith提出的共被引文献簇来表征研究前沿,根据文献簇的统计特征来判断领域的重要性和发展阶段:用核心论文的数量和总被引频次来表征研究领域的大小;用论文的平均年和核心论文的年分布来表征研究领域的发展速度以及是否有新的进展;通过分析论文标题中经常出现的关键词和词组来表征研究领域的主题内容和热点[5]。Garfield则将研究前沿定义为高被引文献及引用这些文献的施引文献的集合,认为研究前沿的主题可以通过抽取施引文献标题中频次最高的词或词组来表征[6]。Zhao Dangzhi等以XML领域为例,进行作者共被引分析,发现期刊论文比起网络论文在发表时间上要落后一些,使用网络论文数据在探测研究前沿上的效果比使用纸质期刊论文数据更好[7]。

      基于共被引关系的方法存在明显的缺点:论文达到一定的引用频次或者高被引需要一定的时间;共被引关系论文覆盖范围小,容易丢失前沿领域相关文献;其中可能大部分都是理论文献;还容易把不相关的文献包括起来,造成文献簇内文献内容相似度较低。

      1.2 基于文献耦合的方法

      1963年Kessler首先提出在信息检索领域用文献耦合方法构建文献簇[8],1974年Weinberg将其应用到科学学研究中。1984年Vladutz和Cook通过实验证明文献耦合强度与主题之间存在相关性关系,即文献耦合强度越高,主题相关性越高[9]。Persson认为当前的研究领域就是研究前沿,并提出施引文献形成研究前沿,而被引文献形成的是知识基础,他通过引文的共被引聚类分析获得知识基础,并认为“研究前沿”是知识基础的时间映射,利用文献耦合分析基于共被引聚类分析得到的知识基础确定研究前沿[10]。Glanzel和Czerwon提出文献耦合分析不仅可以用来做传统的科研机构分析,还可以用来识别某领域的研究前沿和核心文献[11]。2003年Morris把研究前沿定义为持续被一组固定的、与时间无关的基本文献引用的大量文献组成,然后基于文献耦合对文献进行聚类分析的基础上,绘制了研究前沿的时间线(Time-line)可视化图,直观地揭示了哪些主题在发展,哪些主题在消退,以及研究前沿的存在[12]。BoJarneving比较了共被引和文献耦合在揭示某一领域研究前沿上的效果,认为要比较两种方法需要进行更加详细的定性对比研究[13],并在2007年采用文献耦合聚类分析方法识别领域研究前沿和核心文献[14]。2012年Schiebel参考Persson对研究前沿的定义,认为可以从基于文献耦合聚类的文献簇中识别研究前沿,共被引文献簇中识别知识基础,并提出了基于模仿地理地图的两维和三维图像探测研究前沿和研究基础的可视化方法[15]。

      基于文献耦合的方法虽然弥补了共被引的一些缺点,但仍有不足,有时两篇文章虽然引用了同一篇文章,可能会出现两篇文章引用同一篇文章不同部分的情况[2]。

      1.3 基于直接引用的方法

      最早是2004年Garfield基于直接引用网络生成了一个知识领域的历史演化图谱(Historiography Mapping)[16]。Klavans和Boyack比较了直接引用网络和共被引网络的聚类效果,认为直接引用网络具有更高的内容相似度,可以更直接、更早地揭示研究领域的结构特点和发展趋势[17]。2008年Shibata,Kajikawa,Takeda和Matsushima用新出现并达到一定规模的文献簇来表征研究前沿。他们认为基于直接引用构建的网络比共被引网络包含更多最近发表的文章,并根据Klavans和Boyack的结论,提出了一种基于直接引用关系探测研究前沿的方法:首先构建直接引用网络并抽取最大连接组件,然后采用Newman的拓扑聚类算法(社团结构探测方法)聚成簇,在簇的特征表示上用自然语言处理抽取每个簇的特征术语,计算并抽取tf-idf值最大的前10个词作为这个簇的特征术语,分析聚类结果中的论文簇的平均年(Average Age)和不同时间片的论文簇之间的父子关系以探测研究前沿的突现[18]。随后这个团体基于这种框架方法的基础上进行了不断的改进研究,2009年,他们以镓化氮(Gallium Nitride)、复杂网络(Complex Network)、碳纳米管(Carbon Nanotube)3个研究领域为例,从文献簇的可见性(标准化后簇的大小)、速度(平均出版年)、拓扑相关性(密度)3个方面比较基于直接引用、共被引、文献耦合3种引文网络的方法识别研究前沿上的效果,结果表明基于直接引用的方法可以识别更大更早的新兴簇,丢失新兴研究领域的风险最小,在探测研究前沿上的效果最好,文献耦合次之,共被引最差[19]。2009-2010年,这个团体又分别以光学、能源、纳米技术、再生医学为例,采用基于直接引用的方法分别探测各个领域的研究前沿,他们的研究前沿识别方法也已日臻成熟[23]。2011年以后,这个团体又基于这种框架方法,以太阳能电池为例,同时基于异质数据源(学术论文与专利)比较两种数据源基于直接引用构建的聚类文献簇,探测更具有商业价值的潜在的技术前沿(Potential Technological Fronts)[20],是研究前沿探测方法研究上的一个新视角。

      可以看出,基于引文分析探测研究前沿时,以共被引和文献耦合方法居多,直接引用的方法相对较少但是比较新,而且研究表明在识别效果上也是最好的,因此基于直接引用的方法可能是在研究前沿识别上的一个新趋势。

      2 基于文本内容的方法

      基于共被引、文献耦合、直接引用3种识别方法,都是在引文层面的聚类分析,不可避免地会存在引文在探测研究前沿上的潜在弱点:引用与被引上的时间滞后。即一篇文献从出版到被引需要一定的时间,而施引文献从完成到出版又需要一段时间,这样基于引文的方法探测出来的结果更趋于热点而非前沿。由于引文滞后性的弱点存在,所以很多学者试图从文本内容入手探测更直接、更有说服力、更有价值的研究前沿。研究前沿既然来源于新的科学发现或者研究进展,那么必然也会伴随着某些文本内容(如关键词等)的显著变化。因此,基于文本内容来探测研究前沿具有一定的可行性。基于文本内容的方法主要是基于词频、共词以及基于文本挖掘自动探测的方法。

      2.1 基于词频的方法

      基于词频的方法是通过识别文献中具有突然增长性的词,即爆发词,根据爆发词词频的时间分布和变化趋势,分析科学前沿领域和发展趋势。这种方法的应用得益于2002年Kleinberg提出的考虑词频变化密度的突破检测算法[21]。但是用这种单纯基于词频的方法来探测研究前沿过于单薄,实际研究过程中大都是与其他方法复合使用。如Mane以1982-2001年出版在“PNAS”的论文为数据集,用Kleinberg的突破检测算法筛选出高频词,进一步用基于共词的方法并借助可视化图谱来识别“PNAS”上主要的研究主题以及新兴趋势,并通过领域专家证明了这种方法在识别研究前沿和主要趋势上的合理性和实践价值[22]。

      2.2 基于共词的方法

      Callon等最早提出共词分析技术可以作为一种有效可视化文本数据信息项之间关联强度的内容分析技术[23]。1984年Rip等以生物技术领域为例,对10年内该领域的论文采用基于共词的方法揭示了生物技术领域的现状和前沿,并指出研究前沿的识别要将科学计量方法(Scientometric Method)和专家认知分析(Cognitive Analysis)结合起来[24]。Peters和Van Raan进一步通过问卷调查评估了共词分析的有效性,提出共词网络的构建要以摘要为基础,而不应该仅仅使用标题,并改进了共词网络聚类的方法[25]。Bhattacharya以凝聚态物理领域为例,抽取论文标题中的词语构建共现网络,然后聚类分析来识别研究领域内和领域间的新兴研究领域,并认为这样的方法比基于引文的方法能更好地表现科学领域的研究活动[26]。2003年张晗、崔雷抽取生物学领域的高频主题词,然后对这些高频主题词共词聚类分析,得到该领域的研究热点,并采用战略坐标法的向心度和密度分析这些热点的发展变化趋势[27]。蒋颖利用LISA数据库,基于共词分析方法并结合类图关系图和战略坐标图对1995-2004年全世界科学计量学领域的期刊论文进行了分析,揭示了文献计量学的学科内部结构的变化和潜在发展趋势[28]。2011年郝伟霞等使用共词分析结合战略坐标图的方法对1999-2008年中国能源材料领域进行了研究主题静态分析,结果揭示了该领域的研究热点、新兴活跃研究主题以及该领域存在的问题[29]。2013年程齐凯、王晓光基于共词网络社区,利用Z-value算法和社区相似度算法,构建一个科研主题演化分析模型,试图通过分析网络视角下词间关系的变化,来发现研究前沿[30]。

      由于词语在不同的语境下会表达不同的含义,单个词表达的意思并不具体,只有在句子中才有意义。因此,仅仅基于共词方法可能并不足以揭示研究前沿的存在[31]。

      2.3 基于文本挖掘的自动探测方法

      基于文本挖掘的自动探测方法主要是ETD(Emerging Trend Detection)方法,2003年A.Kontostathis等正式提出ETD新兴趋势探测这个概念,认为新兴趋势探测指的是发现某个特定领域中热点信息的动态趋势,并在探测到最新发展态势时进行提示[32]。因此从本质上讲ETD也是一种研究前沿探测研究。

      这种基于文本挖掘的自动探测方法大体上分为主题特征表示(Representation)、主题识别(Identification)、主题判定(Verification)3个阶段[33]。首先将主题用一组时间特性关联的特征表示,然后根据这些特征用文本挖掘技术进行主题抽取,随着时间推移用一定的评价标准来验证主题并对主题进行分类并判断趋势。

      R.Swan和D.Jensen开发出Time-Mines系统[34],利用信息抽取技术、自然语言处理技术来抽取有明确时间标签的自由文本数据,并采用假设检验技术来判断给定时间框架中最相关的主题,仅仅把统计上最重要的主题呈现给用户,主题是否是新兴的由用户根据自己的领域知识来判断。Pottenger等认为新研究主题的出现不仅表现为词频的增加,还表现为词的语义越来越丰富;抽取词频和相应词语义的特征参数输入神经网络模型,自动识别出新出现的主题[35]。S.Havre等开发出可视化研究主题演化的系统Theme River[36],每条河流代表一个主题,并且用不同的颜色代表,河流宽度代表主题强度,通过主题强度(河流宽度)随时间变化的可视化图,可以直观判断主题的发展趋势和新出现的主题。主题强度通过系统自动抽取的主题词在指定时间间隔内对应的文献数量来表示,并提出也可以用一定时间间隔内主题词的共现次数来表示。L.MinhHoang等参考Kontostathis对新兴研究趋势的定义,认为新兴趋势就是效用和兴趣都随时间变化的主题领域,并提出了一个针对论文集(Scientific Corpora)新兴趋势探测模型:M={D,T,f,g,CE},D:论文集,T:主题集,f:兴趣增长测量函数,g:效用增长函数,C:校验器,E:新兴趋势集,并建立原型系统测试这一模型。结果表明这一模型在探测新兴趋势上有望取得显著成就,但这一模型从论文集中探测新兴趋势遇到两个难题:①许多特点可以从论文集中抽取,但是不能从其他文本数据中抽取,这就意味着这些特点不能整合到一般ETD模型。②评估研究主题时在兴趣和效用测量方法上主观性比较强,而且在分析与主题相关的特点时需要复杂计算[37]。Kontostathis等在Pottenger研究的基础上,把奇异值分解(Singular Value Decomposition)算法和Cosine相似度算法结合起来计算词的相似度,并在此基础上进行聚类产出簇,把词簇的大小作为属性,采用决策树归纳的方法构建模型识别新兴簇,结果表明这种方法可以明显增加探测新突现概念的效率[37]。

      这种方法更加偏重于计算机科学、数据挖掘领域,大都是基于文本挖掘的全自动化或半自动化的系统,在研究前沿探测上会相对比较高效,为科研工作者节省大量时间。但是在这方面的研究还比较少,并且这些系统不能自行判断指标的变化趋势来确定出前沿,需要用户根据自己的知识来判断。总之,这种基于文本挖掘自动探测方法还处于起步阶段,有待于进一步的研究和探索。

      虽然,基于文本内容的方法在识别研究前沿上比起基于引用关系的方法更加直接,不存在引文分析在时间滞后的弱点。但是由于词语在不同的语境下会表达不同的含义,单个词表达的意思并不具体[31],所以使用基于文本内容的方法可能并不足以揭示研究前沿的所在。由此可见,单独使用一种方法来识别研究前沿,不可避免地存在单一方法上的局限,许多学者就将两种方法复合起来综合运用。

      3 基于复合关系方法

      基于复合关系的方法主要是将基于引用关系的方法与基于共词分析的方法结合起来,发挥两种方法的优点,弥补各自的不足。

      Braam等最早提出将词和共被引结合起来,揭示科学研究结构。他把具有不同知识和社会背景的科学研究者共同关注的一系列相关研究问题和概念定义为研究前沿,并以原子分子物理学领域为例,首先用共被引关系聚类形成文献簇,然后用标引词、标题和摘要中的词组成的词集的相似度分析识别属于相同主题的文献簇,进而分析一个领域发展的连续性和稳定性[38]。他们的研究结果表明共被引与词的结合分析,可以获得比单纯共被引方法更全面的分析结果。但是这种方法是共被引与词的连续使用,结合了两者的优点的同时也结合了两者的缺点。Besselaar和Heimeriks提出一种词—引文共现的方法,如果两篇文献含有相同的词—引文对,就假定这两篇文献在主题上有一定的相似性[39]。词来自论文的标题,用于揭示文献内容,引文为标题词提供上下文语境,来确定词的含义。这种词—引文共现的方法,结合了文档的两种相关属性,可以更容易更合理地揭示研究前沿。但是标题词的覆盖范围相对较小,可以把摘要中的词引入分析,得到的结果会更加合理。陈超美把研究前沿定义为一组突现的动态概念和潜在的研究问题(即正在兴起的理论趋势和新主题的涌现),他采用Kleinberg的突破检测算法抽取高频词作为研究前沿词汇,共被引文献簇表示知识基础,开发出CiteSpaceⅡ软件将两者结合起来生成异构网络,在可视化上将时区视图(Time-zone Views)与聚类视图(Cluster Views)互补来揭示研究前沿。陈超美开发的这种历时性动态可视化技术被公认为居于国际领先水平,已经得到了很好的推广和普及[40]。2009年侯海燕等根据Garfield对研究前沿的定义,采用共被引与共词分析相结合的方法(用共被引分析方法得到科学计量学领域的高被引核心文献,再借助共词分析界定前沿领域)同时借助科学计量学研究前沿知识图谱,得出了科学计量学领域的前沿课题及重点研究方向[41]。Boyack和Klavans提出了一种基于文献耦合的引文—文本相结合的方法,从文献标题和摘要中提取词,将施引文献—词对补充到施引文献—被引文献对中,并把词与引文同等对待,然后使用与文献耦合一样的方法构建矩阵。他们还将这种混合方法与共被引、文献耦合、直接引用的方法进行比较,结果表明这种引文—文本混合方法在研究前沿识别上的效果最好[42]。

      另外,美国海军实验室的R.N.Kostoff于2008年提出LRD(Literature-Related Discovery)方法,这种方法把引文分析与介入专家判定和短语邻近度分析的共词分析方法相结合,从而把两篇或者多篇文献中不联系的概念联系起来,得到新颖、合理而又可理解的潜在知识和研究前沿。这种LRD方法提供两种研究思路:通过单纯的文献分析发现潜在知识(LBD)和通过文献分析与作者互动沟通相结合发现潜在知识(LAD)。并将每种思路又分为两种知识发现过程:从目标问题出发到解决方案的开放式知识发现过程(ODS)和从目标问题和解决方案入手寻找中间连接机制的闭合式知识发现过程(CDS)[43]。Kostoff团队使用这种LRD方法在帕金森病非药物疗法、多发性硬化(MS)的潜在防治方案、SARS等多个领域进行研究,取得一些有益结论,并且一些案例证明了LRD方法的可行性。比如他后来发现了一个MS完全逆转的病例,该病例所采用的治疗方案与他们研究的结论很像[44]。Kostoff提出的LRD方法是一种新兴的方法,已经引起了许多学者的关注,在预测未来的研究前沿上有良好的应用前景。

      基于复合关系的方法虽然弥补了基于引文与基于文本内容的方法各自的缺点,得到了普遍的认可,但在应用上却变得更加繁琐、复杂。

      4 结束语

      从国内外的研究现状可以看出,目前研究前沿还没有明确统一的定义,对研究前沿的定义几乎都是为了适合所提出的识别方法给出的,但是这些定义不外乎围绕先进性(来源于新的科学发现或研究进展)、时效性(时间上出现比较晚)、集中性(短时间内引起科学家的高度关注)这几个特征。国外在研究前沿识别上的研究起步比较早,涉及理论与应用,研究相对系统、全面;在方法的研究上主要集中在基于引用关系的方法上,尤其是基于共被引和基于文献耦合的方法。但是这两种方法在研究过程中已经逐渐表现出明显的缺点:时间滞后以及丢失新兴簇。而基于直接引用的方法虽然也有一定滞后性,但近年来被日本的Shibata,Kajikawa和Takeda团队广泛使用,并证明了在研究前沿的识别效果上优于共被引、文献耦合方法,可能会是研究上的一个新趋势。而且他们创新性地将论文与专利数据进行研究前沿探测的对比研究,这是一个研究前沿识别研究上的一个新视角。基于文本挖掘的自动探测方法也是在研究前沿探测上的一个新趋势,虽然还处于起步阶段,但已经得到广泛关注,具有广阔的发展前景。另外,基于引文与文本内容复合的方法虽然应用上比较复杂、烦琐,但已经逐渐得到普遍认可,也是识别方法研究上的一个趋势。总结基于共被引、文献耦合、直接引用、共词以及基于引文与共词复合的方法,大体流程基本上是通过共现构建网络,然后聚类分析,通过一定的指标来识别研究前沿。

      国内在研究前沿识别方法的研究上相当缺乏,大都是引进国外的理论方法,而且主要集中在基于共词的方法上。在未来的研究中复合方法构建研究(如把直接引用与共词复合起来、LRD方法的进一步研究)、基于文本挖掘自动探测方法的深入研究以及基于异质数据源的比较研究应该是研究的重点。更值得注意的是,目前研究者们并未对研究前沿给出明确的评判标准,这也是需要进一步研究和探索的。

标签:;  ;  ;  ;  ;  

边界识别方法的研究进展_文本分类论文
下载Doc文档

猜你喜欢