基于概念空间方法的信息检索技术研究,本文主要内容关键词为:技术研究论文,信息检索论文,概念论文,方法论文,空间论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
标引和检索的不确定性是信息检索系统中的一个重要问题。即使是受过良好训练的标引人员也可能为同一文献赋予不同的文献标识,而不同的检索者更是趋于用不同检索词表达同一检索需求,或是使用同一个检索词表达不同的检索需求。因此,标引者和检索者所使用的词语总是难以精确匹配,从而影响检索质量。计算机和网络出现后,手工检索逐渐被自动化的检索所取代。然而问题并未就此得到解决:由于缺乏对标引和检索用词的控制,同义词和多义词问题在基于关键词的自动化全文检索中不仅仍然存在,而且更加突出。用户在检索过程中需要使用尽可能多的词汇来表达检索需求,但即便如此,也还是会造成大量漏检和误检。由于每个人不同的背景、训练和经验,两个人(包括标引者和检索者)使用同一词语描述同一客体的几率是很低的[1]。国外研究发现,在5个领域的自发词汇选择当中,两个人使用同一个词语的几率不到20%[2]。这样巨大的词汇差异必然严重影响基于自然语言匹配的自动标引和检索系统,给研究者提出了一个难题。
近年来,为了解决词汇差异问题,学者们逐渐把注意力转移到“概念检索”、“语义检索”或称“隐含语义检索”上来,试图用概念的联系和匹配取代传统的字面匹配,以此发展一种更加接近人们思维的检索技术,改善自动检索系统的检索效果。用近年来流行的数据库技术中的术语来说,就是“文本挖掘”(数据挖掘的一个分支),发现语词之间的概念联系,在此基础上进行信息检索。概念空间方法就是自动构造概念语义网络并以此为基础进行概念检索的一种方法。它的目标是建立一个知识丰富的、可理解的概念空间,可以代表所在信息空间中的概念及两两之间的关联[3]。在这里,概念空间是指由词语及其权重关联形成的网络,而信息空间是指数据库中的文档集合。两个词语之间的关联是一个0和1之间的值,以一个给定文档集合中词语的共现率(co-occurrence)来计算,其大小代表了词语之间的相似性。当两词之间的关联为0,表示它们毫不相关,这是由于它们从不在同一文档中出现;当词语A到B的关联接近1时,表示在文档集中A与B密切相关。当进行检索的时候,由检索系统的用户给定检索入口词,系统采用人工智能方法激活与其相关的词语或概念,为用户提供交互式的检索用语建议。概念空间方法的具体步骤包括文档和对象列表收集、对象过滤和自动标引、共现分析和联想检索四个阶段,将在下文中详细论述。这种方法最初由美国亚利桑那大学的H.Chen等学者提出并在多个重要项目(包括伊利诺依大学的数字图书馆计划等)中实验和使用,取得了令人满意的效果[4]。虽然中西文处理存在着很大的差别,但这种方法对我国的信息检索系统仍然有着重要的借鉴意义。
2 概念空间方法的背景:词表的使用
在传统的文献检索领域,词表是用以提高检索效率的必要和有效的工具。用计算机信息系统进行自动化的语义检索、概念检索,使用词表仍然是一种有效的辅助手段。虽然提高检索效率的方法还有很多,比如提问扩展(query expansion)[5],相关度反馈(relevance feedback)[6],多维衡量(multidimensional scaling)[7]等,但是使用词表可以向用户提供其检索人口词的同义词、近义词或者与检索主题相关的其他词汇作为记忆引发机制,词汇差异问题由此可以得到一定的控制,查全率随之提高。词表可以视为一个“概念空间”,一个类似人类词语联想模式的网络,网络的节点是各种词语、术语或概念,而概念之间的联系由带有权重的边来表示。在这个空间中,除了进行检索,用户还可以对特定领域的互相关联的概念进行浏览,增加对此领域的认识和理解。在计算机检索系统中通常有两种使用词表的途径:
2.1 利用现有词表
许多研究团体把现有词表和字典编入计算机检索系统作为检索帮助手段,向检索中的用户建议可供选择和替换的检索词。比如,美国国家医学图书馆(the National Library of Medicine)的“统一医学语言系统计划”(Unified Medical Language System project,简称UMLS)[8][9],词汇交换系统(Vocabulary Switching System,简称VSS)[10],Knapp BRS/TERM词汇数据库[11],NTIS词表[12],美国艺术与建筑词表(Art and Architecture Thesaurus,简称AAT)[13],Genentech图书馆[14],“相关词表”(related thesauri)[15],词典数据库(lexical database)[16],等等。
虽然这些工具为用户提供了检索词建议,但它们的缺陷在于并设有克服“知识获取瓶颈”[17],也就是说,对标引者和编制词表的领域专家有着极高的知识和认知要求,而这对于科技发展迅猛,新信息、新术语持续激增的情况来讲是非常困难甚至是不现实的。另外,在检索系统中直接使用现存词表还存在两个问题:第一,现有词表通常反映较为通用的主题领域,如果要移植到计算机检索系统中,必须经过大规模的增补和修改;第二,大多数文档管理系统所支持的词表查询和词语转换技术(通过单一的前后参照方法)会带来两种与超文本浏览问题相类似的设计问题——“嵌入迷失问题”(词表过大,使用户迷失方向)和“艺术博物馆现象”(用户花了很多时间却没有找到任何详细信息)[18]。一种有效的替代手段就是用自动词表生成方法创建基于自然语词的检索辅助工具。
2.2 自动词表生成
自动词表生成保留了词表辅助检索的优势,同时大大减少了手工编制词表的工作量。已经有许多研究者提出了各种自动词表生成的算法,大多数方法采用静态的共现分析算法(statistical co-occurrence algorithms)来计算词语之间的相关性系数。例如,余弦算法[19]、Jaccard算法[20]、Dice相似性函数(Dice similarity functions)[19],EMIM算法[21]等。这些方法一般都采用对称的共现分析技术,即,计算词语A和B的相似度或称关联度时,如果A与B相关,且相关性系数为w,则B也与A相关,相关性系数也为w。这些对称性分析算法的局限性在于:用这些方法所识别出的词语一般都是在数据库中频繁出现的,因此对于扩展原查询的识别能力并无太大助益[22]。比如,曾经流行的余弦算法的共现分析公式如下:
在文档i中(在则值为1,不在则为0),d[,ik]表示Tk是否在文档i中(在则值为1,不在则为0)。在1992年的一项实验中,Chen等提出了基于不对称的共现分析算法的概念空间方法,并证明其效果优于余弦方法[23]。之后,这一方法得到进一步的发展并在许多项目中得到应用。
3 概念空间方法的原则
概念空间方法的提出者根据人类信息处理理论[24]及其他相关的研究,提出创建有效的概念空间所须领会的几项原则:[25]
3.1 词汇对数增长原则
自动词表构造最重要的理论基础是与信息过剩问题相关的。著名信息学家兰开斯特指出,信息(文献)以指数速度增长,而与此同时,概念(关键词、术语等)的增长呈对数收敛[26]。这个原则对不同的科学和工程领域都是有效的,尤其是在因特网服务和分布式数据库激增的情况之下。这一原则将反映在词语关联计算的公式之中。
3.2 完整性原则
对于自动词表构造来说,能够代表特定领域的、大规模的、相对完整的文档集合是必需的,尤其当考虑到上面所提到的词汇的对数增长原则。如果用来产生自动词表的文档集合规模有限,就不太可能在对数曲线上在到平稳态(收敛)。相当一部分自动生成词表的方法仅使用筛选过的文档集或是某个主题领域的样本文档,因此导致实验效果不佳。
3.3 术语明确性原则
多数自动词表生成方法是基于自动标引技术(automatic indexing techniques)的,英文单词经过识别、截取主干、联合,形成单词或词组形式的关键词,即代表文档内容的标识符。这种方法虽然简单,但同时也会产生大量的“噪音”,如拼写错误、无意义的缩写词、通用词汇以及相邻单词的随机排列等。因此,为了保证生成的词汇准确、详细、具体而有意义,必须同时采用其他的方法来控制。词频和相对词频因素是用来识别词语重要度的常用和有效的方法[19]。所谓词频,是指在一篇文章中出现次数多的词应赋予较高的权重;而在少数文章中出现的更加专业和独特的术语也应该有较高的权重,这就是相对词频。
3.4 非对称关联原则
人类的记忆联想过程是非对称的。从词语A到词语B的联想强度与词语B到词语A的联想强度往往是不同的。这一特性在信息检索过程中也是很明显的,因此同样应该反映在概念空间的构造过程中。正如在上一节中所述,非对称性算法的优势在实验中得到了验证。
3.5 相关性反馈原则
这一原则很明显,如果用户在检索中得到辅助检索词语提示,进行检索提问扩展,检索效率将会得到显著的提高。由于检索者的背景和目的各有不同,自动的词语替换往往会违背检索者的初衷,因此并不实用。有效的检索系统应该提供交互式的词语建议,不断接受用户的反馈,给用户以最大的选择权。
3.6 词汇重叠原则
许多研究者提出“转换语言”(switching language)的建议,它可以自动或人工查询,帮助用户进行多数据库的检索。兰开斯特在讨论数据库之间词汇相容性和可转换性时提出,由于受控语言趋于提高单个数据库和信息系统内部的一致性,它往往会降低不同系统之间的相容性[26]。他建议使用“中立转换语言(neutral switching language)”把一个词汇系统转换为另外一个。为了进行跨领域跨学科的科学合作和信息共享,实现跨领域术语的转换,必须创建和连接多领域词表(无论是现存的还是自动生成的)。
3.7 发散激活原则
在词表中,有一些词语是直接相关的,而另一些词语可能由于都与另一个词语相关而产生间接相关。人们在解决问题或长期的记忆恢复过程中往往会进行这种多链联想,比如,A和B相关,B与C相关,因此A与C相关,或者,C与A和B都相关。这种过程经常被称为发散激活(spreading activation)。基于这种联想特性,有学者提出把词表视为一个神经网络与语义网络,应用人工智能领域的发散激活算法,找出某个节点(概念)的强相关概念。实验证明,应用这种算法的检索在查全率和查准率方面可以与人工浏览词表相媲美,而检索过程却轻松得多了。[27]
4 概念空间技术
基于以上7个原则,Chen等选择和设计了一系列的算法用于自动词表生成,并把这些方法命名为概念空间方法。其具体步骤包括四个阶段:文档和对象列表收集(Document and object list collection),对象过滤和自动标引(object filtering and automatic indexing),共现分析(Co-occurrence analysis),联想检索(associative retrieval)。[3][25]
4.1 文档和对象列表收集阶段
这一阶段的目标是识别特定主题领域内较为完整的、最新的文档集合,作为整个文本处理过程的词汇、术语来源,这在任何自动词表构造过程中都是必需的首要任务。因特网服务的增长和网上全文数据库的增多使得文档收集越来越容易。对大多数特定领域的数据库来说,一般都已经存在一些词表,可以从网上获取,或通过扫描得到。如,主题描述词(比如书本后面的主题索引),研究者姓名(比如著者索引或研究者目录),以及领域内的其他对象(比如基因名、实验方法、机构名等)。这些特定的关键词可以帮助自动识别文档中的重要概念。
4.2 对象过滤和自动标引阶段
对于每一篇文档,首先要将文中的词汇与已知的词汇表进行匹配识别,这个过程称为对象过滤;由于剩余的文本中仍然可能包含许多重要的概念,因此接下来还有一个自动标引过程。典型的自动标引过程包括字典查询(dictionary,look-up)、停用词控制(stop wording)、词干法(word stemming)、短语生成(term-phrase formation)等方法。首先识别独立的词语,然后用一个停用词表除去那些不含语义的词,比如the,a,on,in等。接下来,用词干识别算法识别所剩下的词语的词干。最后,短语生成过程把邻近的词语结合成短语。
4.3 共现分析阶段
共现分析是概念空间算法的核心,概括地说,就是要计算经过前两个阶段的文本处理过程之后所得到的所有标识词语两两之间的相似性系数,或称为关联系数。计算之后形成“概念空间”(即语义网络式的词表),包含一个文档集中任意两个词语j和k之间的关联,并且这种关联是不对称的。在算法最初提出的时候[4],这个算法被称为集群算法(Cluster Algorithm),用公式
转换函数,把每个给定值规格化为0和1之间的值。用户输入检索用语之后,使用Hopfield算法激活它们的相邻神经元(即强关联词语),接着进一步激活这些相邻神经元的相邻神经元,以此类推,直到收敛为止。这个过程是不断衰减的,依靠关联强度的控制,远离初始神经元的词语得到的激活强度越来越小,逐渐消失。这个现象类似于人类的发散思维过程。
5 概念空间方法的应用及评价
概念空间方法已经用于多个领域的信息检索系统,如计算机知识数据库[4][29]、生物学数据库[3]、医学数据库(MEDLINE)[30][31]、地理知识表示系统[32][33]、以及警察系统(COPLINK SYSTEM)[34]等。还被成功的用于电子会议系统[35][36]和科学团体系统[37]等,以解决科学合作过程中的词汇差异障碍。除此之外,这种方法还可以有效的用于因特网信息检索[23];在伊利诺伊数字图书馆项目——INTERSPACE[38]中,概念空间是其核心之一。在这些应用中,基于概念空间的检索系统向用户提供交互式的检索词建议,用户可以据此修改和精炼他们的检索提问,查全率由此得到了显著提高,而同时查准率并无显著变化。
在1992年的虫类概念空间实验中,研究者以亚利桑那大学虫类实验室的专家和研究生为观察对象,得出以下结论:(1)虫类概念空间向检索者建议更为相关的术语;(2)多数情况下系统首先列出相关性较强的词语;(3)学习、偶然浏览发现和记忆推动在实验过程中频繁发生,检索者经常意外发现感兴趣或对其检索目的有关的内容[36]。在随后的WCS(Worm Community System)实验中,研究者总结出多学科联合词表,能极大地帮助其他领域的科学家进行精确检索提问;找出某一学科的文献,提高查全率(从32%到65%),而查准率并没有提高[49]。在为伊利诺伊数字图书馆项目所进行的一项实验中,研究者把自动生成的概念空间与人工生成的INSPEC计算机工程词表作了比较[25]。两种词表所确定的相关词语(概念)数量比较结果表明,概念空间在“概念查全率”方面要优于INSPEC词表,而“概念查准率”方面则差一些。这表明概念空间方法是灵活有效的,并且可以与人工词表在功能上形成互补,如果二者结合使用,可以大大帮助检索者提高检索效率。
概念空间方法在因特网检索实验中也受到绝大多数实验主体的欢迎[23]。查准率实验结果表明词表提供的词语建议并未明显降低查准率;而查全率实验则表明,检索者的查找入口词与词表所建议的词汇相结合,使系统返回了更全面的相关网页。实验主体的反馈表明,当最初的检索词过于宽泛时,系统的词汇建议显得尤其有效。同时,实验主体对词表的组织结构和对查找过程的自主控制都感到比较满意。
6 讨论和小结
Chen等提出的概念空间方法致力于用计算机生成词表和进行联想检索,为检索当中词汇问题的解决提供了一种自动高效的手段。然而,有学者提出,全自动的词表生成可能带来模糊、错误,从而导致检索失效。他们认为,概念空间方法在查找相关文献方面是一个进步,但却需要精确化,并且该方法的运算量过大。因此他们提出了一种将自动的概念空间生成过程与人的推理方法相结合的词表构造方法,由学科领域专家参与概念空间构造过程[39]。解决词表准确性问题的另一种方法是将人工词表与自动生成词表进行整合来提供高质量的检索,Schatz等提出了这种方法的一个蓝图[40]。同时,也有学者提出了构造概念空间的更为有效的算法,可以将计算速度大幅提高。[41]
以上所介绍和讨论的概念空间方法是基于西方语言文字的特点的,但它的提出者也曾研究过将它应用于英汉双语检索和分类系统。在实验中,以台湾某期刊的书目数据库为基础,生成了一个计算机科技概念空间[42]。其中,自动标引过程中一向棘手的分词问题用一个“多线性词语生成方法”(multi-linear term-phrasing approach)解决,生成大量词汇,然后用合法性检查和过滤程序除去其中没有意义的词汇。对于内容少、文字精炼的书目数据库,这种方法可能是适用的,但是,如果将其移植到大型的全文汉语数据库中,其计算量可能过大,生成的“噪音”过多,而且精确度较差,不一定实际。如何有效地把概念空间方法移植到汉语检索系统,设计出真正适合汉语特点的基于概念空间方法的检索系统,还需要国内学者的进一步研究和努力。