主题词分析法进行非相关文献知识发现的探索(Ⅰ)——模拟Swanson的知识发现过程,本文主要内容关键词为:发现论文,知识论文,主题词论文,分析法论文,文献论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 背景及简介
随着现代科学技术的迅猛发展,信息量呈指数增长。客观知识的总量与人类吸收知识的能力之间出现了巨大的差距,科学呈现高度专业化发展。学科之间的联系被专业内部大量的信息所掩盖,学科间交流变得越来越困难。
1.1 非相关文献知识发现方法的思想内涵
在大量的科学文献中,一些文献相互引用,文献间存在着人们可利用数据库检索到的显性联系;有些文献则互不引用或很少被共同引用,这类文献被称为是相互独立的,也就是非相关的。一些非相关文献通过各自提出的观点联系在一起,形成逻辑关联,我们称之为互补的非相关文献。互补的非相关文献之间的联系通过常规的数据库是检索不到的,是未被发现的隐秘的联系,是新知识的源泉,可能对科研的发展具有促进意义[1]。
美国芝加哥大学的Don R.Swanson教授在1985年一个偶然的机会,发现雷诺病与食用鱼油间存在着隐含的逻辑关联。第二个例证是他1988年有关偏头痛和镁缺乏的研究。通过深入细致的研究,Swanson以充分的文献证据论证了他的非相关文献的知识发现的思想[2,3]。
Swanson情报学方法的思想就是根据A、B、C之间的链接关系来挖掘文献中未被公开的隐蔽的知识,形成合理的假设来指导科学实践。图1描述了互补的非相关文献间存在的逻辑联系。
1.2 Swanson方法的知识发现过程
Swanson在以后的研究中,一直致力于探寻A与C之间的联系。Swanson的知识发现过程可分为两个步骤:形成假设和检验假设。我们将形成假设的过程称为开放式的(open),而检验假设的过程是闭合式的(closed)[4]。
开放的知识发现过程是通过C寻找中间词(或文献)B,进而寻找A的过程。开放的形成假设的过程可能为疾病寻找一种新的治疗方法,或为药物寻找新的靶标。图2表明了开放式知识发现过程的路径:C→B→A。
闭合的知识发现方法是检验假设的过程。如果科研人员已经通过上述的开放式知识发现方法形成了假设,他可以以文献为基础来详细地论证他的假设。图3描述了这种方法。以A和C为出发点,研究人员要努力寻找共同的中介词B。A和C的联系越多,所做的假设越有价值。闭合的知识发现过程如图3,可表示为A→B→C。
Swanson的网络版知识发现工具Arrowsmith使用的是闭合式方法,使用者需要先形成A和C之间的关系假设,然后利用Arrowsmith寻找关联词B来检验这种假设。
图1 互补的非相关文献间的逻辑联系
图2 开放式知识发现过程[4]
图3 闭合式知识发现过程[4]
2 Swanson方法的医学实践与发展
Swanson的两个经典的知识发现的例子,即1986年有关雷诺病与食用鱼油的研究和1988年有关偏头痛和镁缺乏的研究被临床证实之后,他的知识发现方法开始受到关注。Swanson与他的合作者Neil Smalheiser合作研发出Arrowsmith系统,并利用该系统对消炎痛与Alzheimer病、雌激素与Alzheimer病、游离钙磷脂酶A2与精神分裂症、可作为潜在生物武器的病毒等进行了研究。
Gordon和Lindsay[5,6]主要通过研究单词和短语的词频进行开放式知识发现的探索。他们分析了完整的Medline记录中词或短语的4个统计量;tf(词或短语出现的频次)、df(包含该词的纪录数)、rf(文献中词或短语的频次与在Medline中的总记录数的比值)和tf*idf的值(idf为Medline的所有记录与Medline中使用该词的记录数的比值的对数)。他们在分析雷诺病与鱼油、镁与偏头痛的研究中,设法找到了Swanson发现的大多数的关联词B,成功复现了Swanson的研究[6,7]。Weeber等[7]开发的DAD系统,是基于概念的自然语言处理系统,通过对主题概念的语义过滤,可大幅度缩小用户分析数据的空间。Johannes Stegmann等开始尝试用共词聚类分析来模拟Swanson的知识发现的过程[8]。
国内对Swanson情报学方法及Arrowsmith软件的介绍始于2000年之后,多数的文献是对Swanson方法的评价和简介,实践上目前多局限于网络版的Arrowsmith的利用。荣毅虹[9]、马明[10]等详尽地介绍了Swanson的情报学方法的产生背景、哲学基础、概念及应用情况和美国情报学界及作者对Swanson的情报学方法的评价,安新颖[11]、郝丽云[12]等则进一步介绍了Swanson情报学方法研究的原理和开放式与闭合式的知识发现过程。2004年,马明等[13]利用网络版Arrowsmith寻找同时患视网膜脱离(A)和主动脉瘤(C)的疾病,经语义筛选后,发现有23种疾病具有上述两种症状,如马方综合征(Marfansyndrome)、红斑狼疮(lupus erythematosus)等[13]。
3 模拟Swanson的知识发现过程
本文以Swanson的知识发现例子雷诺病和鱼油、偏头痛和镁缺乏为例,分别以雷诺病和偏头痛为来源词,使用主题词分析法模拟开放式知识发现过程,寻找目标词鱼油和镁缺乏,探寻主题词分析方法进行非相关文献知识发现的可行性和规律性。
3.1 主题词分析法
主题词分析方法属于内容分析方法。主题词可作为内容分析单元是基于以下理由[14]:
(1)主题词属于规范化词汇,一个词可准确表达一个概念,不随时间变化,不受使用者的主观理解和上下文所左右,是理想的分析单元。
(2)主题词所反映的概念并不是孤立的,可以通过逻辑组合形成索引款目,表达文献的中心内容。参与组配的主题词之间的联系,可反映主题词背后的知识领域的联系。
(3)主题词本身不是固定不变的,随事物的发展和人类认识的深入,主题词会发生新增、消亡和重新组合,因而能反映内容的动态变化。
Medline数据库中医学文献的主题词是由美国国立医学图书馆的专业人员所标引,是规范的,可以很好地反映文献的主要内容。以主题词作为分析单元,可增加分析的准确度,又可以减少分析文献自由词所引起的噪声,技术上容易实现。
3.2 雷诺病(A)和鱼油(C)
3.2.1 形成来源文献主题词(source subjects)集合A
以Medline数据库为数据源,选取1966~1985年的CD数据库,以“explode‘Raynaud-Disease’/all subheadings”为检索式进行检索,得到2339条记录。下载Mesh字段。对下载的文件用Wordstat软件和自编Foxpro程序对来源文献主题词进行处理,去掉文献中的副主题词,提取主题词,形成来源主题词集合A,共包括2 266个主题词。分析的统计量包括:频次(f)、频次百分比(f%)、文献频次(df)和文献频次百分比(df%)。各统计量意义为:
f:某一词语出现的总频次;
f%:某词语频次占所有词语频次总和的百分比;
df:包含某词语的文献记录数;
df%:包含某词语的纪录数占所有记录数的百分比;
来源主题词集合中按照f、f%、df和df%的排序基本一致。因此,将来源主题词A按f进行排序。
3.2.2 中间主题词(intermediate subjects)的选择和限定
中间词的选择原则:
(1)频次限定。主题词频次的大小反映出该词与所研究主题的联系密切程度,因此,可选择一个频次临界值,在高于或等于临界值的来源主题词集合内进行选择。
(2)类别限定。在来源主题词集合中抽取所需类别的主题词,进一步减少噪声词。
(3)根据专业知识选择中间主题词,并将中间主题词的数量限制在可操作的范围内。
对来源主题词集合进行类别限定的方法如下:
按照2006年主题词树状结构分类表(2006 mesh trees,其中包含主要的主题词),抽取G类(生物科学)和D类(化学制品和药物)主题词。G类中抽取G04(生物现象、细胞生理学、免疫)、G06(生物化学现象、代谢、营养)、G08(生殖、泌尿生理学)、G09(循环、呼吸生理学)4个亚类的主题词;D类中抽取D01(无机化学制品)、D06(激素类,代用品,拮抗药)、D08(酶、辅酶、)、D09(碳水化合物)、D10(脂类)、D12(氨基酸类、肽类和蛋白质类)、D13(核苷类和核苷酸类)7个亚类的主题词。
在雷诺病的来源主题词集中抽取部分D类和G类,形成集合Ai,含279个主题词。按照频次f为主关键字、df为副关键字降序排列,频次≥3的主题词为113个。频次≥3的主题词在Ai中的个数百分比和累计频次百分比见表1。
依据专业知识,在限定后的高频主题词中选择在雷诺病状态下出现异常,与其发生发展相关的主题词。共选择出17个主题词,见表2。
表1 主题词集合Ai*中频次f≥3的主题词个数和累计频次的百分比
主题词(D、G类) 主题词个数
累计频次
f≥3
113 1412
全部主题词 279 1621
百分比 40.50% 87.11%
*Ai:雷诺病的来源主题词集合的子集,包含G04、G06、G08、G09、D01、D06、D08、D09、D10、D12、D13亚类的主题词。
3.2.3 中间主题词集合的形成
将17个主题词分别进行本位词检索,各检索结果用OR合并,下载Mesh字段。用Wordstat软件并结合Foxpro编程对Mesh字段进行处理,去掉副主题词,抽取分离主题词,形成中间主题词的集合B。B中共含12709个主题词,统计量同来源主题词集A。
3.2.4 形成目标主题词(target subjects)集合C
按照非相关文献的含义,来源主题词A和目标主题词C是不直接相关的,两者不应该出现在同一文献内,即目标主题词不应出现在来源主题词集合A中。因此,需将中间主题词集合中除去与集合A中相同的词,形成目标主题词集合C,共包含10458个主题词。
由于所寻找的目标主题词可能是对雷诺病产生作用的内源性或外源性化学物质或药物,也可能是某种疾病与雷诺病的发生有关,但本例中查找的是鱼油,属于D类,因此,编程抽取目标主题词集中D类(化学制品和药物)主题词,形成目标主题词集C[,d],共有4772个主题词。
目标主题词集C中的统计量除了频次(f)、文献频次(df)外,还引入link来表示目标主题词与来源主题词之间的联系的密切程度。
link表示该主题词与多少个所选中间词共篇(在同一篇文献中出现过)。若与n个所选中间词共篇,则link值为n;如果该主题词未与任何一个所选中间词共篇,则link值为0。link可表示目标主题词与来源主题词(如雷诺病)之间联系的大小。
“fish oils”在Cd中的各统计量降序排序结果及参数值见表3。
Fish oils的下位主题词eicosapentaenoic acid,也是鱼油的主要活性成分,其各统计量降序排序结果及参数值见表4。
3.3 偏头痛(A)和镁缺乏(C)
方法同雷诺病和鱼油。
3.3.1 形成来源主题词集A
来源主题词为migraine。从Medline中选取1966~1987年的CD数据库,以“explode‘migraine’/all subheadings”为检索式进行检索,得到4663条记录。对Mesh字段进行处理,得到3258个主题词(A)。
3.3.2 中间主题词的选择
在来源主题词集A中提取D、G类的主题词,得到389个主题词。在389个主题词中,在频次≥3的范围内进行选择。频次≥3的主题词个数百分比和累计频次百分比见表5。
在134个高频主题词中选择24个主题词为中间词,其频次排序见表6。
3.3.3 中间主题词集合B的形成
将24个主题词分别进行本位词检索,各检索结果用OR合并,下载Mesh字段。用Wordstat软件并结合Foxpro编程对合并检索结果的Mesh字段进行处理,形成中间主题词的集合B,含有11681个主题词。
3.3.4 目标主题词集合C的形成和过滤
我们在寻找目标主题词“Magnesium deficiency”(镁缺乏)的过程中发现,该词出现在来源主题词集合A中,其文献频次(df)值为1。即主题词“Magnesium deficiency”和“Migraine”在1篇文献[15]中出现过,但该文献没有阐述人体内镁缺乏对偏头痛的影响,两个主题词是非相关的。可以认为,非相关的目标主题词可与来源主题词在同一篇文献中共同出现,但该类文献并未明确阐述目标词对来源词的作用,且文献数量很少,目标主题词可能以低频词(f、df都较低)出现在来源主题词的集合中。
(1)在本例中,选取文献频次df≤3为临界频次,截取来源主题词集合中所有df≤3的主题词,共2093个,形成A[,i]。
(2)从中间主题词集合B中抽取与A[,i]共有的主题词,得到目标主题词集合C,共含有1973个主题词。
(3)将集合C中主题词按类别进一步过滤。由于主题词“Magnesium deficiency”(镁缺乏)在主题词树状结构分类表中属于C类(疾病类)主题词,因此,抽取目标主题词集合中的C类主题词,得到主题词525个,形成。“Magnesium deficiency”在中的排序见表7。
表7 “Magnesium deficiency”在目标主题词集中的参数值及排序结果
主关键字
次关键字 降序排序结果/
(值) (值) 主题词总个数
Magnesium
f(74) Link(13)149/525
deficiency df(52)link(13)155/525
Link(13) df(52) 110/525
4 结论
上述两例是以疾病为来源主题词模拟Swanson的非相关文献知识发现的过程,其步骤可概括为:
(1)以某一主题为来源主题,在Medline数据库中检索,下载Mesh字段,提取主题词,形成来源文献主题词集合A。
(2)对A进行类别过滤,选择高频的中间主题词。
(3)在Medline中检索,下载Mesh字段,抽取Mesh主题词,形成中间主题词集合B。
在中间主题词的选择过程中,需要对来源主题词集A进行主题词类别和频次的限定。主题词频次数可反映出该主题词与来源主题词的联系。高频主题词是来源主题词研究中的热点,与其联系较密切。频次临界值须根据情况进行调整,当来源主题词的数量过多时,可适当上调临界频率,使高频主题词数量限制在可操作的范围内。对中间主题词的类别可限制在G类(生物科学)和D类(化学制品和药物),即与生理或体内物质代谢相关的主题词。
寻找目标词的过程中,可根据不同的目的对目标主题词集合进行类别过滤。若想寻找某一疾病与来源主题词是否有关,可抽取C类,即疾病类主题词进行过滤;如果想寻找某一化学物质的代谢,或其某种性质对来源主题词是否有影响,则可抽取D类,即化学制品和药物类的主题词。对类别的过滤可进一步减少噪音词,缩小选择范围。
统计量link表示目标主题词与来源主题词之间的联系,其值在一定程度上反映联系的密切程度。从表4和表7可看到,以link为主关键字进行降序排列可能使目标主题词更靠前,是一个较好的统计量。而表3中link的降序排列却使目标主题词“fish oil”更加靠后,原因是选择不同的中间词以及中间词的数量可影响link值的大小。f、df也可作为参考统计量进一步限制目标主题词的选择范围。
收稿日期:2006年9月26日