基于无关文献的三阶知识发现方法探讨_量化误差论文

基于非相关文献的三阶知识发现方法探讨,本文主要内容关键词为:文献论文,发现论文,方法论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 研究背景

1986年,美国芝加哥大学的Don R.Swanson教授首次提出“基于非相关文献的知识发现法”[1-2]。所谓基于非相关文献的知识发现法就是从表面上没有任何联系的文献内容之间识别出有效的、新颖的、潜在有用的以及最终可理解的知识的情报研究方法。该方法可辅助科研人员发现潜在的关联,进而促进新知识的产生,有助于推动科学的发展[3]。

该方法经过多年的发展,在很多方面取得了很大进步[4]。但是目前的研究均基于Swanson提出的非相关文献知识发现的基本发现模式,即以感兴趣的主题A为初始点,生成集合A,将主题A共同出现在题名中的术语列举出来,排除停用词汇、通用词汇后形成一个新的“潜在发现”的词表B,并对词表按照某一阈值进行排序。将与B集合中的词汇同时出现在题名中的词汇汇集起来,形成集合C。通过发现集合B与集合C之间的潜在联系,最终发现A与C之间的关系。

而如果我们在非相关文献知识发现的初始文献集(文献集A)构建、信息抽取和对中间集(文献集B)过滤与排序后,对得到的目标集(文献集C)进行过滤和排序,并以文献集C的主题作进一步的共现发现,会得到什么样的结果?即现有非相关文献知识发现是经过二次关联关系传递的二阶知识发现,经过三次及多次关联关系传递的是三阶、多阶知识发现,这种发现是否有意义,操作可行性如何?通过文献调研,在已经公开发表的文献中,未发现有对基于非相关文献的多阶知识发现方法的原理、模式及流程进行研究和实证的论文。本文将首次对基于非相关文献的三阶知识发现方法进行探讨。

2 相关研究

在社会学的一项研究中[5-6],美国弗吉尼亚大学的计算机专家Brett Tjaden设计了一个程序“Game of Kevin Bacon”,以电影演员Kevin Bacon为中心,定义了“Bacon Number:对其他演员”,如果他(她)和Kevin Bacon一起演过电影,则其Bacon Number为1;如果他(她)没有和Bacon演过电影,但是和Bacon Number为1的演员一起演过电影,则其Bacon Number为2,以此类推。即通过是否共同出演一部电影来构建演员间的共现关系。研究人员统计了585,220个演员及275,000部电影的信息。表1是对所有演员做的统计。左边是Bacon Number,右边是Bacon Number为该值的演员数。平均Bacon Number为2.944。

如表1所示,在此项研究中一阶共现的仅占0.287%,二阶共现的占22.91%,三阶共现的占83.95%,四阶共现的为98.68%。

若将Bacon Number中的演员理解为主题,并将电影理解为文献,则可将此研究视作一次基于非相关文献的多阶知识发现,即一阶共现(直接共现)的仅占0.287%,二阶共现(现有的非相关文献知识发现方法)的占22.91%,三阶共现的占83.95%(基于非相关文献的三阶知识发现方法),四阶共现的为98.68%,五阶共现的为99.83%。也就是说在此次知识发现研究中,二阶共现的发现仅占全部非直接共现的22.9%,三阶或四阶的发现仍有很大的意义。

以上研究表明,基于非相关文献的多阶(三阶、四阶……)知识发现方法值得探讨,本文首先提出了基于非相关文献的三阶知识发现的基本原理、发现模式,并尝试在激光显示领域进行实证。

3 基于非相关文献的三阶知识发现方法的基本原理

基于非相关文献的三阶知识发现方法的基本原理是:如果一组文献的集合描述了主题A和B的关系,一组文献的集合描述了主题B和C之间的关系,而尚没有关于主题A和C关系的报道,则两个文献集之间可能存在潜在的关联;另一组文献的集合描述了主题C和D之间的关系,同样尚没有关于主题A和D或主题B和D关系的报道,则文献集A和D之间也可能存在潜在的关联,即通过对这样三个文献集的分析能够推导出一种潜在的新关系,而这种新关系是通过单独分析一个或两个文献集所无法获得的。

由于主题A和C或主题B和D的关系均没有报道,因此在上述过程中,通过分析文献集A和B或文献集B和C也同样可以分别推导出潜在的新关系,这些新关系也是通过单独分析一个文献集所无法获得的。

基于非相关文献的三阶知识发现方法的基本框架可概括为图1。发现过程始于一个研究人员感兴趣的初始主题A,然后构建初始“文献集A”;通过对关键词进行提取、排序、过滤,得到表征A概念的有序关键词列表,其中的每一个关键词称为“B概念”,所形成的文献集称为“文献集B”;然后对B文献集重复上述数据处理形成有序词表,并与“B概念”对比去重,得到“C概念”的有序词表并形成“文献集C”;再次处理后形成“目标概念”或“D概念”的有序关键词列表,这样就为初始词提供了一个有序的可能存在潜在关联的词汇列表。

图1 基于非相关文献的三阶知识发现方法的基本框架

从以上分析看出,基于非相关文献的三阶知识发现方法可以发现更多的潜在关联,这意味着有更多的潜在知识等待去挖掘。同时三阶的知识发现相对于二阶的知识发现有更为庞大的中间词表、更多的中间关联(三次关联VS.二次关联),这对数据集构建、信息抽取、中间集的排序过滤算法等技术提出了更高的要求。

4 基于非相关文献的三阶知识发现模式

在基于非相关文献的三阶知识发现模式中,考察其关联关系传递的方向和路径,如图2所示。

图2中,以实线表示直接关联关系,虚线表示潜在关联关系,可以发现基于非相关文献的三阶知识发现过程中存在3次直接关联关系(A→B,B→C,C→D)和3次潜在关联关系(A→C,B→D,A→D)。根据非相关文献三阶知识发现方法的基本原理,关联关系A→B、B→C、C→D、A→C、B→D、A→D存在多种组合,可构成非相关文献的三阶知识过程。

根据具体发现过程中的关联传递关系及产生潜在关联的不同,又可将发现模式细分如下:

(1)经过三次直接关联关系传递的三阶知识发现模式(1+1+1模式),产生一次假设:通过构建直接关联关系A→B、B→C、C→D,最终发现潜在关联关系A→D。

图2 发现模式中的关联关系传递

(2)首先经过一次潜在关联关系,然后经过一次直接关联关系传递的三阶知识发现模式(2+1模式):首先通过构建直接关联关系A→B、B→C,发现潜在关联关系A→C,然后构建直接关联关系C→D,最终发现潜在关联关系A→D存在,即通过潜在关联A→C和直接关联C→D发现潜在关联关系A→D。

(3)首先经过一次直接关联关系传递,然后经过一次潜在关联关系传递的三阶知识发现模式(1+2模式):通过构建直接关联关系A→B、B→C、C→D,发现潜在关联关系B→D,最终发现潜在关联关系A→D,即通过直接关联A→B和潜在关联B→D发现潜在关联A→D。

以下以“1+1+1模式”为例,分析其关联路径发现模式。

4.1 “1+1+1模式”的关联路径及发现模式

首先通过构建直接关联关系A→B、B→C、C→D,最终发现潜在关联关系A→D。其传递方向和路径如图3所示:

图3 “1+1+1模式”的关联关系传递

图4 基于非相关文献的“1+1+1模式”

该发现模式(见图4)始于一个研究人员感兴趣的主题,并用词或短语表示该主题的概念,即“A概念”,然后在数据库中,将所有包含A概念的文献下载,形成初始“文献集A”。利用信息抽取技术,从初始文献集中将表征A概念的词或短语抽取出来,经过过滤形成“中间概念”或“B概念”的有序词表,所形成的文献集称为“中间文献集”或“文献集B”;对B文献集重复上述数据处理,得到“C概念”并形成“文献集C”;对C文献集重复上述文本处理过程,并在人类专家的干预下,得到“目标概念”或“D概念”。

最后,一个通过B和C连接A和D的潜在关联产生,其具体的发现模式见图4。

4.2 发现模式分析

(1)在“1+1+1模式”中,如果关联关系A→C为直接关联关系时,即通过概念A可直接发现C,则说明构建直接关联关系A→B过程中的过滤排序算法存在不足,将本来可以通过A直接发现的部分关联过滤掉了。

同理,如果关联关系B→D为直接关联关系时,即通过概念B可直接发现D,则说明构建直接关联关系B→C过程中的过滤排序算法存在不足,将本来可以通过B直接发现的部分关联过滤掉了。

(2)反方向考虑,如果能将潜在关联的A→C和B→D转为直接关联关系,那么三阶知识发现就会转化为二阶知识发现,进而提高发现效率。

(3)“2+1模式”和“1+2模式”的中间潜在关联在理论上可以实现中间主题的进一步收敛,有助于提高整体发现效率。

5 应用前景

(2)Kostoff曾将时序因素引入非相关文献知识发现方法[7-8],对于非相关文献的三阶知识发现方法,也可引入时序方法。

可作如下假设:对于某一领域的4个不同主题a、b、c、d,设a、b、c、d为时序序列,a为基础研究,b为技术主题,c为技术体系,d为工程应用,这是一个研究从基础理论到工程应用的过程。既可以从基础理论研究a开始,挖掘与之相关的技术主题b,通过这一技术主题构建一个技术体系c,进而寻找这一技术体系与工程应用d的结合点;也可以从d的实际需求出发,寻找能解决这一需求的c,然后寻找构成c的b,最终攻关可以找到为b提供理论支撑的a。

也就是说基于非相关文献的三阶知识发现方法可以以研究目标和具体问题为导向,为研究活动提供服务。

6 激光显示领域的实证

本文在CNKI中文数据库内,以“激光显示”为初始主题,进行了一次开放式的基于非相关文献的三阶知识发现方法研究的实验。实验数据的选取时间为1980-2010年的CNKI核心期刊论文。

6.1 实验流程

(1)A→B过程

从“激光显示”主题为初始点,检索得到26篇文献,形成文献集A,得到A集中的关键词共有43个。按出现频次排序、过滤,形成包含有9个关键词的中间主题B(见表2),构建文献集B,共101篇文献。

(2)B→C过程

文献集B的101篇文献中包含有关键词290个,按出现频次排序、过滤,并通过人工选择得到18个关键词,形成中间主题C(见表3),构建文献集C,共347篇文献。

(3)C→D过程

文献集C的347篇文献中包含有817个关键词。按出现频次排序、过滤,得到768个关键词,形成目标主题D(见表4)。

其中,A与中间关联词C、B与目标词D、A与目标词D均无直接共现关系。

6.2 潜在关联的建立

通过多次尝试,本文尝试挖掘了一条潜在关联发现:

(1)A→B的阶段

起始主题A为“激光显示”,在上述文献集A中选取文献《激光显示中的色域转换系统》,其包含有关键字“激光显示、色域转换、现场可编程门阵列”。选取“色域转换”为中间关联词B。

(2)B→C的阶段

以“色域转换”为中间关联词B,在文献集B中寻找与“色域转换”相关的研究,得到一篇文献《显示量化误差对色域转换的影响》,其包含有关键字“彩色显示、量化误差、色域转换”,进一步得到中间关联词C为“量化误差”。

(3)C→D的阶段

以“量化误差”为中间关联词C,在文献集C中寻找与“量化误差”相关的研究,得到文献31篇,形成目标词集D,包含有关键字87个,即发现了87个A→D的潜在关联。

通过阅读与“量化误差”相关的31篇文献,寻找有意义的潜在关联。如文献《减小纯位相型计算全息图量化误差的一种新编码方法》,该文献“针对纯位相型计算全息图量化误差问题,提出了一种新的编码方法。其主要理论根据基于在复平面上可将一复矢量分解成任意两个复矢量之和”[9]。其包含有关键字“计算全息图、衍射光学器件、纯位相、量化误差、编码”,根据其内容,确定目标主题D为“编码”(基于复矢量法理论的新编码方法)。

A“激光显示”与C“量化误差”、D“编码”,B“色域转换”与D“编码”均无直接共现。

(4)建立关联

整个流程可概括为:A(激光显示)→B(色域转换)→C(减小量化误差)→D(基于复矢量法理论的新编码方法)。反向解读,即基于复矢量法,提出了一种新的编码方法减小了量化误差,进而提高了色域转换系统的性能,而色域转换系统是激光显示中的一项关键技术,这样便构成了一条“从实际需求(激光显示)出发,寻找这一应用的技术系统(色域转换系统),然后寻找提高这一系统性能的方法(减小量化误差),最终发现可以为该方法提供理论支撑的理论(复矢量法理论)”的潜在关联链条。

这也验证了上文提出的非相关文献的三阶知识发现方法可以“以研究目标和具体问题为导向,为研究活动提供服务”。

6.3 结果分析

本次实验主要是探讨验证基于非相关文献的三阶知识发现模式,因此在排序过滤算法中选取了简单的词频排序过滤,虽然会对发现效率和结果产生影响,但是仍然证明了以下几点:

(1)本实验证明,基于非相关文献的三阶知识发现方法可以发现大量潜在关联;中间关联C相对于中间关联B拥有更为庞大的中间词表,因此产生了更多的潜在关联。

(2)基于非相关文献的三阶知识发现方法可以以研究目标和具体问题为导向,为研究活动提供服务。可以说新方法实现了基于非相关文献的知识发现方法本身以“发现”的内涵为真正目的[8]。

7 结论及展望

(1)初步试验证明,基于非相关文献的三阶知识发现方法可以发现大量二阶知识发现方法无法发现的潜在关联,说明基于非相关文献的三阶知识发现方法值得深入探讨和研究。

(2)在本文的实验中仅对关键词进行了提取。在未来的研究中可将信息抽取范围扩大至文摘、全记录等。

(3)因为基于非相关文献的三阶知识发现方法中,生成两个中间集,具有三阶的传递关系,因此对B和C文献集的概念进行排序过滤的算法就会对文献集C和D生成叠加放大的影响。未来将对目前国内外非相关知识发现研究与实践中所应用的中间集处理方法进行比较分析,将根据基于非相关文献的三阶知识发现方法的不同发现模式的特点,选择适用于不同模式的各种排序过滤算法组合,并分析不同算法的组合对中间集及目标集产生的影响。

(4)在未来的研究中,还将对比分析不同阈值的选取对中间集产生的影响。将一种相关性算法的组合应用在基于非相关文献的三阶知识发现的各个排序过滤步骤中,在排序时尝试不同的阈值设置组合,对比分析不同阈值的选取对中间集产生的影响。

(5)正如本文实验中所列举的潜在关联链条所示,在基于非相关文献的三阶知识发现方法服务于科研活动这一目的上,还可以进一步挖掘该方法对于挖掘、创建从实际需求出发的创新链条的应用,在未来的研究中可作进一步研究和探讨。

标签:;  ;  ;  ;  ;  

基于无关文献的三阶知识发现方法探讨_量化误差论文
下载Doc文档

猜你喜欢