Swanson方法的研究与应用框架分析_主题词论文

Swanson方法研究与应用框架分析,本文主要内容关键词为:框架论文,方法论文,Swanson论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G350

修回日期:2011-05-24

1 Swanson方法概述

非相关文献指表面上没有联系,即不存在互引、共引或其他相关文献条件(比如相同的作者项等),却可能存在着某种能引致新知识产生的具有潜在关联关系的两组文献。华盛顿大学的Don.R.Swanson教授提出的文献知识发现理论就是基于非相关的生物医学文献中可能隐含着大量的不为人知的科学知识这一假设。Swanson认为,对于两组非相关文献A和C,可以通过某中间词或中间文献B建立起二者的关联,上述发现A、C关联的过程称为非相关文献知识发现方法[1],本文称为Swanson方法。

研究人员的直觉、经验和知识以及跨学科研究的能力都是该方法产生的因素,就如同青霉素的发现并最终引领抗生素的发展[2]。早期的Swanson方法主要应用于生物医学领域,并以PubMed作为主要数据源开展实证研究。很多学者在其基础上进行了方法的改进和应用领域的拓展,使得该方法在其他学科的移植应用成为可能。现已涉及生物、医学、文学、航天以及网络等多个领域,而且对Swanson方法的改进研究已不仅仅局限于PubMed数据库,扩展到可用于Biosis,Embase、Scisearch、Internet databases等数据库。

2 Swanson方法知识发现过程的研究框架

现有Swanson方法的研究主要有三个方面:对Swanson方法知识发现过程的分析;模拟开放式和闭合式知识发现过程进行领域应用或者对已有研究进行验证工作;对Swanson方法的改进研究,包括相关技术和算法的改进研究。其研究框架见图1。

图1 Swanson方法研究框架

2.1 Swanson方法的知识发现过程研究

Swanson方法的知识发现过程可分为两个步骤:形成假设和检验假设。形成假设的过程称为开放式的知识发现方法,而检验假设的过程是闭合式的知识发现方法[1]。

开放式的知识发现过程始于某一类型主题A,比如一种疾病、一种药用物质或一种基因,通过中间主题集合或文献集合B最终发现目标主题C,C主题对A主题产生一定的关联和影响。开放的形成假设的过程可能为疾病寻找一种新的治疗方法,例如Swanson发现鱼油对雷诺氏病的关联作用以及后来Padmini Srinivasan(2004)发现的姜黄素对视网膜疾病、克罗恩病和紊乱三种疾病有一定的作用[1]。开放式知识发现过程的路径为A→B→C。

闭合的知识发现方法是检验假设的过程。如果科研人员已经通过上述开放式知识发现方法形成了假设,他可以以文献为基础来详细地论证他的假设。以A和C为出发点,研究人员要努力寻找共同的关联词B。A和C的联系越多,所做的假设越有价值。闭合的知识发现过程可表示为A→B←C。

2.2 基于Swanson方法的模拟应用研究

自Swanson提出基于文献的知识发现过程并应用该方法发现鱼油在治疗雷诺氏病方面的作用后,Swanson还利用该过程发现了可以作为生物武器的病毒[1]。Weeber利用该方法提出了thalidomide的治疗作用[3]。Chaussabel等发现基因之间的功能联系。冷伏海等(2008)在总结Swanson方法原理、流程分析基础上,模拟开放式知识发现过程,发现目标词plasma(等离子)和semiconductor(半导体)通过中间词electromagnetic wave absorption(吸收电磁波的特性)建立起与来源词stealth material(隐身材料)之间的联系,进而通过闭合式知识发现过程对该结论进行了文献验证[4]。Padmini(2004)利用开放式和闭合式知识发现过程发现并验证了姜黄素对视网膜疾病、紊乱和克罗恩疾病的治疗作用[2]。Hur J等(2010)利用该方法对糖尿病的致病基因进行了发现和验证[5]。

2.3 基于Swanson方法的技术改进研究

基于Swanson方法的改进研究主要包括基于开放式和闭合式知识发现过程的文本挖掘算法,基于MeSH等主题词、短语、概念的来源主题词和目标主题词的改进分析以及跨领域和多数据源的应用研究等方面。

2.3.1 基于主题词分析法的模拟研究 鉴于主题词表的规范性,主题词作为分析单元可增加分析的准确度,又可以减少分析文献自由词所引起的噪声,技术上容易实现。郝丽云在其模拟研究中就是用了主题词分析法,在研究中下载MeSH字段对来源文献主题词进行处理,去掉文献中的副主题词,提取主题词,形成来源主题词集合A。分析的统计量包括:频次(f)、频次百分比(f%)、文献频次(df)和文献频次百分比(df%),将来源主题词A按f进行排序,形成初始中间集合B[6]。

2.3.2 基于UMLS的改进研究 中国医科大学的张晗等采用自然语言处理技术,将不规范的自然语言转换为UMLS中的概念,同时引入语义过滤系统,开发出非相关医学文献潜在联系的挖掘工具,模拟闭合式知识发现过程,用Swanson发现镁与偏头痛的数据做验证。检索PubMed数据库得到A和C两个文献集,将题名和摘要字段的文本匹配为UMLS超级叙词表中的概念,继而寻找A文献集中与镁共句的概念以及C文献集中与偏头痛共句的概念,然后挑选出中相同的概念作为中间词B[7]。

2.3.3 基于短语的词频统计方法 Gordon和Lindsay(1996)是最早开始验证Swanson方法和过程的研究人员,他们在1996年验证了雷诺氏病和鱼油之间的关系,并于1999年对偏头痛和镁缺乏进行验证并进行了方法扩展[1]。对文献集合提取1个、2个、3个词汇组成的短语作为文本分析对象,使用4个参数来评价。R代表MEDLINE中的记录数;X代表1个、2个、3个词汇组成的短语,TF代表在R中X的出现频次;DF代表在R中包含X的记录数;RF代表在MEDLINE中包含X的记录数;TF*IDF代表TF*log(MEDLINE中的记录数/MEDLINE中包含X的记录数)。

2.3.4 基于概念的知识发现方法 Weeber(2001)利用UMLS的语义类型实现了自然语言与UMLS概念的映射[3]。其设计的DAD系统,引入了语义分析,自然语言到UMLS概念之间的映射主要是通过MetaMap实现。对文本资料进行分析的过程中,MetaMap使用句法分析将文本分割成方便处理的短语。同时,使用严格的语言评价机制决定与文献最匹配的超级叙词表概念。DAD系统的处理过程是以概念为基础的,MetaMap是以UMLS为基础的(叙词表、词典),在筛选阶段,135个不同的语义类型发挥了关键的作用。

2.3.5 基于共词分析的方法 共词分析可以通过两两统计词语在同一篇文章中出现的次数,形成共词矩阵,然后围绕共词矩阵进行聚类分析。共词矩阵的分析指标主要包括邻近指数、包容指数、密度和向心度等。通过对Swanson的雷诺氏病与鱼油、偏头痛与镁的模拟分析,从PubMed下载源文件A(如疾病),对原文件中的关键词(一般为MeSH)进行共词聚类分析;画出战略坐标,鉴别密度值和向心度值均低于中位数的类(常在坐标的第三象限),并寻找SIR值约为2或3的类,在这些类中仔细筛查有价值的中间词B;用选定的中间词在PubMed库中检索,通常检索标题和Mesh字段;将检索的文献再次进行共词聚类分析,确定那些包含来源词A的类,并在这些类附近寻找可能的目标词C,对STR值约为l的类要进行仔细筛查[8]。

3 Swanson方法知识发现过程的应用算法流程

闭合式知识发现过程和开放式知识发现过程的输入、实现步骤和输出都有所不同,但中间关联集合B的发现、排序和过滤技术在某种程度上可以共享。

3.1 开放式知识发现过程的算法

开放式知识发现过程始于某一主题,其基本算法流程如下:

输入:①某主题集合A;②概念映射或语义类型限制条件。

步骤:①通过文献数据库检索A主题,形成文献集合A并提取概念特征,构建主题范围(由若干个描述该主题的词汇组成);②以停用词表、主题词表过滤集合,根据语义类型限制生成中间集合

。检索数据库,构建,集合中每个词所对应的主题范围合并成中间词列表B,根据语义类型限制以及主题词表过滤B,形成C集合,按照统计特征进行排序;③对A、C集合中的词进行检索,删除C集合中的A、C交集词。

输出:经过排序的C集合中的词汇。

分析控制:①文献集合A的形成:该步骤是知识发现的始端,该过程的结果,即初始文本集的结构尤为重要。要合理选择文献字段,包括标题、文摘、MeSH以及全部字段,以标题和文摘作为文本结构的研究居多。②概念特征的提取:主要指从文献集合A抽取代表概念的词、短语等。其中包括词汇规范、过滤及文本映射技术等。信息抽取的单元从最初的单词到双词短语、三词短语及MeSH词。③B词的发现:采用词表统计、词形处理、语义索引、关联规则挖掘、共词聚类等技术。其中,概念映射涉及MeSH等主题词表中不同主题词类型以及不同级别(所属亚类)的词汇的选择和映射;对所输入的A集合以及所输出的C集合分别进行语义类型限制,如果想检索某一物质可能对疾病的作用,A集合的语义类型可限制为主题词表中描述为物质的类,C集合则限制为疾病的类。生物医学领域主要应用UMLS进行语义限制。④B词的排序和过滤。根据B词出现的频次特征和语义类型进行过滤。Swanson采用相对频率法,即对经过信息抽取后形成的词汇按相对频率由高到低进行排序,选择相对频率超过设定阈值的那些单词。其他研究采用的参数包括tf、df、rf和tf*idf等。

3.2 闭合式知识发现过程的算法

闭合式知识发现过程始于两类主题(A、C),目标是寻找两者的关联(B1、B2等)。其基本算法流程如下:

假设前提:如果A和C作为检索词集合输入,分别检索两个集合,检索结果没有交集,通过中间集合B(词汇集合),AB和BC关联分别存在,进而建立起A和C之间的关系。

输入:A、C集合(检索词集合或检索结果记录集合)。

步骤:①生成A、C之间共有的初始B词列表集合;②B词过滤;③B词集合的排序。

输出:文献集合A和C中包含了B词的文献记录,可显示题名、文摘等信息。

结果解读:专家解读文献,用户评价两列文献是否值得追踪研究。

分析控制:如果所生成的B列表太大的话,调整检索策略;利用停用词表过滤和组织B列表,进而人工判断列表中起关联作用的B词作为目标词。

4 Swanson方法未来研究重点分析

已有人工模拟Swanson知识发现过程的研究为该方法积累了大量的实践经验和可操作的步骤。未来,需在相关辅助系统开发、加强语义识别与概念映射等方面开展后续研究。

4.1 关键算法的改进

中间词的发现、排序和过滤是重要算法的应用环节。郝丽云采用基于词频的算法对中间词进行排序和过滤[6];Gordon采用TF*IDF算法和N-Gram切词方法进行文本分析和中间词的提取[4];Stegmann采用共词分析的聚类算法筛查中间词[8]。已有研究多为基于频率的方法,对语义索引和过滤、关联规则等算法的结合研究则是未来重点。

4.2 辅助系统的开发和设计

Swanson方法的知识发现过程涉及信息检索、自然语言处理、语义识别与概念映射、关联词的排序和过滤等复杂关键技术。已有人工模拟Swanson知识发现过程的研究充分验证了该方法的可行性和意义。但是如果想要推广应用,必须开发出相应的系统辅助完成部分工作以提高发现效率。Swanson开发的ArrowSmith系统在一定程度上帮助解决了信息检索的问题,可以辅助用于开放式知识发现过程的验证;Weeper开发的DAD系统着重于自然语言处理技术,通过MetaMap实现了自然语言到UML概念之间的映射,匹配叙词表并用于文本分析和处理,在一定程度上解决了语义识别和概念映射问题。在人工进行非相关文献知识发现时,在大数据量环境下这些辅助系统都发挥了重要作用。

但是,由于涉及的算法、技术较多,还没有开发出能够完全自动实现非相关文献知识发现过程的系统,仍以辅助系统的开发为主,未来系统开发需要解决以下几个方面的问题:在信息检索方面,加强相关文献和无意义文献的剔除[4];在自然语言处理方面,要结合分类表和主题词表等专业词表实现高质量的语义识别和概念映射;在关联词的发现、排序和过滤方面,对于关联规则等相关算法的改进研究需要加强。

4.3 积累中文非相关文献知识发现经验

国内外有关Swanson方法的研究包括理论、技术和应用三个层面。国外非相关文献知识发现经验积累较丰富,已开发出基于该方法的相关辅助系统ArrowSmith、DAD等。ArrowSmith在提供高级文献检索功能基础上,实现了闭合式知识发现过程[9]。国内已发表的有关非相关文献知识发现研究成果基本上都是基于PubMed数据库,并没有结合中文文献数据库的特点展开研究。基于中文文献数据库的非相关文献知识发现的基本流程在很大程度上可以参考Swanson方法的具体过程。但在具体操作时要注意以下几点:①合理选择中文文献数据来源。无论是选择数据库或是某些期刊作为数据源,都要考虑数据质量,应选择国内外比较有影响力或者是影响因子较高的期刊作为实验数据来源。②确定研究主题对象后,通过检索和特征提取,在数据量不大的情况下,可采取手工的方式进行知识发现,这样就可以完全按照英文文献知识发现步骤进行。③如果需要处理的文献集合和主题集合比较庞大,就需要借助一定的软件。在开发和设计相关系统时,词典的适用性和中文分词算法的优劣会直接影响中文非相关文献知识发现结果的准确性,要注意及时吸收和利用相关领域的研究成果。

4.4 探索多领域、多数据源的知识发现

国内外多是基于PubMed对医学领域开展相关的知识发现研究。近些年,航空航天、生物、遗传学等领域出现了一定量的知识发现成果,使得该方法向其他领域、学科的应用成为可能。另外,在人工智能、文学等领域也出现了零星的研究成果,多领域、多数据源的发展方向不可避免。

标签:;  ;  ;  

Swanson方法的研究与应用框架分析_主题词论文
下载Doc文档

猜你喜欢