网络环境下信息检索语言的优化研究,本文主要内容关键词为:信息检索论文,语言论文,环境论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
检索语言是信息检索系统中信息存储与检索用语,是用户与检索系统藉以交流、互动的媒介。它在很大程度上影响着检索系统的效率。一种检索语言是优劣,主要依其检索效率来衡量。根据信息检索产生、发展的历史,在基于印刷型文献的手工检索、基于数据库的计算机检索和基于网络的信息检索沿革、发展中,相应地,检索语言也经历了以受控语言(分类法、主题法)为主、受控语言和自然语言结合,以及以自然语言为主三个阶段。目前,在信息检索领域在手工检索、机检条件下形成的受控语言从标引与检索两方面都已基本成熟。网络信息资源的组织与检索涉及到自然语言如何与受控语言兼容并蓄问题。本文旨在综合国内外学术界有关检索语言的研究成果,探讨网络环境下各种检索语言的优化策略和措施。
1 受控语言的功能、特点及其在网络上的应用
受控语言是用于对自然语言进行事先规范的人工语言(主要有分类法和主题法)。它产生于手工检索阶段,并在机检以及目前的网络检索中仍发挥着重要作用。人们创制各种各样的语言体系主要用来描述文献信息特征,生成概念及概念标识系统,然后依据这种标识系统来组建数据库并作为检索入口对所建数据库进行检索。实践证明,受控语言与自然语言相比有许多不可替代的优势:文献描述和概念表态的唯一性、专指性,便于提高检准率;通过揭示同义词、近义词和相关词等词间关系可提高检全率;能较充分地显示概念间的各种关系,提供了扩检和缩检措施等。但由于受控语言是一种人工语言,不可避免地受到语言编制者专业领域、知识水平等因素的影响,因而容易造成标引上的不一致,且人工制作成本高,更新维护困难。从用户角度看,由于它具有较高的专业性,只便于专业人员使用。对一些新学科、新技术和新方法等新概念很难及时吸收和利用。尤其是在网络环境下,信息量剧增并不断发生变化,自然语言被广泛应用,受控语言的作用相对减弱,甚至有人断言“人工语言将成为昨日黄花”。
网上受控语言的应用研究发端于分类法的电子化和叙词表的自动生成。分类法的电子化为分类法在联机和网络环境中的应用提供了数据保证和技术支持。如国际上应用最广泛的《杜威十进分类法》(DDC)于1993年研制出DDC20版的DOS版光盘“电子杜威”(Electronic Dewey),1996年8月推出DDC21版的电子版“视窗杜威”(Dewey for Window)等都提供与分类号相对应的LCSH标题,增补了大量印刷文本的相关索引中未收录的索引词,并提供了方便的等级浏览。在此基础上,“电子杜威”还增加了词与词、词与类号的组配检索以及词和类号的截词和掩码检索等功能。20世纪80年代以来,人们对世界上主要几部分类法如:DDC、LCC、UDC在联机环境下的应用进行了大量研究,发现分类法在组织和检索网络信息资源方面有独特的优势,主要表现在:①以分类方法组织信息符合人们认识事物的逻辑思维习惯,能满足“物以类聚”、“鸟瞰全貌”、“触类旁通”的检索要求;②将检索限定于特定类目,可提高检准率;③分类体系结构可显示检索词的上下文,利于调整检索范围;④以知识分类为基础,以符号为标识,便于不同文种、不同类型分类法的国际兼容;⑤通过分类浏览,可方便地检索难以确定名称的新事物、新知识;⑥比较适合于组织和检索网络上的大量非文本信息。目前,一些大型网站均在不同程度上采用分类法组织因特网信息资源。使用DDC的网站有英国的BUBL Link,美国的OCLC和Net First等;用LCC的网站有Cyberstacks等;用UDC的网站有GERHARD等。中国教育科研网用《中图法》作为分类工具。
此外,人们对国内外主要综合性搜索引擎的分类体系进行了广泛研究[1,2]。认为目前网上所用的分类体系基本上属于主题分类体系。这种体系比较好地满足了一般用户浏览查询的要求,可使用户获得少而精的检索结果。但同时也指出了网络分类体系所存在的诸多缺陷,如:大多采用人工筛选和分类,成本高,时效性差;检索到的信息数量较少,检全率较低;有时不易判断检索对象所属类目,影响检索效率;不适合于组织和检索专业性较强的信息资源。
关于叙词表自动生成方面的研究在国外起步较早。I.DaCan把叙词表自动生成技术归纳为三个方面:一是自然语言处理技术,旨在把语言学信息与统计信息相结合来确定特定词或词组的重要性;二是自动识别词语问相似性关系的技术;三是将叙词表的词语和名称按照预先定义的类型(如公司、个人、地点等)予以分类的技术。他认为这三种技术的结合使用将为叙词表的自动生成提供强有力的工具[3]。叙词表在网络上主要用于专业性数据库检索,如:Pro Quest Digital Dissertations(PQDD博硕士论文数据库)的“高级检索”中就提供了"Subject Tree"(主题树)检索功能[4]。在ABI/INFORM Global(ABI商业信息全文数据库)的“高级检索”中,不仅提供了叙词表,还提供分类号检索功能[5]。
2 自然语言的功能、特点及其在网络中的应用
自然语言指作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参考文献中的具有一定实质意义的词语。自然语言检索在机检系统中,尤其在网络检索中得到了广泛应用。大量研究表明,采用自然语言检索有许多优点:可以降低标引难度及成本,甚至可以实现无标引检索,从而提高标引速度,缩短时差;直接使用文献用语和作者用语标引和检索,能客观反映文献本身的主要内容,提高了检索的专指度:采用用户熟悉的自然语言,符合用户检索习惯,减少了概念转换中产生的失真;由于自然语言标引或无标引检索多采用自动处理方式,检索入口词多,有利于提高检全率;操作简单方便,灵活,比较适合没有专业知识的广大网络用户使用等。但网络检索实践表明,由于自然语言对标引用词不加严格控制,必然形成非关键性词语的大量出现,影响检准率。同时,由于自然语言中存在着大量同义词、近义词、同义词组、近义词组和不同变体的词汇,用户很难一一列举,易造成漏检;对网络综合性数据库而言,自然语言存在的大量一词多义、同形异义现象会直接影响检全率。自然语言也没有显示词语间的各种复杂关系,因而无法实现扩检、缩检和相关检索。
随着计算机存储容量、处理速度以及网络传输速度的极大提高,网上海量电子信息的存在,最终用户对亲自检索的强烈要求,使得自然语言检索技术的研究呈现出上升趋势。自然语言处理技术在网络检索中的应用领域主要涉及文本检索。因特网的搜索引擎几乎都提供了基于统计的相关性排序检索,有的网站还提供了模糊检索、截词检索、相邻检索、短语检索、相关性检索等方法。文本检索已从简单的基于文本的匹配查找发展到超文本检索和借助叙词表的文本检索。目前,自然语言处理技术在文本检索中的应用主要有:基于理解的自动标引和检索技术和跨语言检索技术等。传统的自动标引原理主要是基于词频统计和术语加权,不需要词典。为了提高系统对文献的理解能力,研究者提出了借助词典对文本进行标注并进行句法分析的办法,找出单词的相似性联系。在此基础上,人们又提出从语法、语义和语用三个层次来表征文献,改进自动标引模式,收到了较好的效果。基于理解的检索涉及到理解用户的自然语言提问,要求系统不仅要理解用户明确表达的意义,还要挖掘出用户提问中未直接表达的意义,以满足用户用真正的自然语言句子来表达提问和实施检索的要求。用户提问理解技术的基本原理与自动标引基本一致。自然语言处理技术用于跨语言检索,其研究重点是将用户的自然语言提问翻译成文献本身所用的语言[6]。主要实现方法有:①利用机器翻译的方法;②基于知识库的方法,即利用多语种对应词典、分类表、叙词表、语言知识库和推理机来实现,如UMLS,EuroWordNet等;③基于语料库的方法,这种方法是在对大规模多语言的或可比较的文本集合进行分析的基础上,自动抽取用于翻译的信息,利用术语、使用统计获得的术语间的关系信息构成语料库,然后利用语料库来翻译用户的提问。
从以上对受控语言和自然语言各自优缺点分析中不难看出,无论受控语言还是自然语言都有各自独特的优点和缺陷,不能彼此取代,可以相互补充。它们在网络中的应用研究也表明两者之间呈现出明显的相互交织兼容的趋势。
3 检索语言的优化策略
3.1 受控语言的优化[7]
受控语言的优化策略包括以下几个方面:
3.1.1 受控语言的兼容化
受控语言的兼容包括:①各种分类法和主题法之间的兼容,如艾奇逊的《分面叙词表》和《基础叙词表》以及我国编制的《中国分类主题词表》。目前,分类法与主题法的兼容方法有两种:一种是编制分类法——叙词表双向对照索引,一种是编制分面叙词表,后者可趋向于完全兼容。②各分类法之间的兼容,即采用中介词典方法来实现。如我国山西省图书馆等联合研制的《计算机文献标引对照系统》实现了《中图法》、《科图法》和《人大法》分类号的对应转换[8];国外有Dahlberg的《情报编码分类法》(ICC)转换系统,专门用于探讨国际上几部著名分类法UDC、DDC、LCC、LBC等兼容的可能性[9]。③主题法之间的兼容,如国外A.P.Chamis研制的词表转换系统(Vocabulary Switching System)兼容了物理、商业、社会科学、生命科学等专业领域的12部叙词表。国内尽管有上百部主题词表,但尚未看到彼此兼容的词表出现。④多种分类法和多种主题法之间的兼容。⑤不同文种检索语言的兼容以及综合性受控语言和专业性受控语言的兼容等。
3.1.2 受控语言的组配化
分类法和主题法都在由先组向后组发展,受控语言的组配化旨在有效提高其表达能力,聚类能力和匹配能力,以适应网络检索系统的要求。从实践看,主题法的组配比较易于实现,而体系分类法的组配化较难实现,一般是在体系分类法的二、三级类目之后进行分面处理。为了提高分类法在网络环境下的适应性,增强其生命力,《中图法》、《人大法》和《科图法》在编制修订原则时都把组配作为一种重要手段。目前,在体系分类法中已普遍使用的组配技术有:①复分表的使用;②仿分的使用;③主类号直接组配;④多重列类等。为了实现体系分类法的组配化,人们提出了不同的方案:一种是在原有等级体系分类法基础上加强组配措施;一种是在二、三级类目下进行分面改造;还有一种是新编一部全面组配化的分面分类法。组配法在主题检索语言中的应用最早也体现在标题表中,标题表所采用的组配措施有:①子标题表的使用;②示范性子标题的设置;③说明语的使用等。另外,叙词语言本身就是一种完全组配化的词汇型标识系统,叙词表中的任何词均可按照概念组配的原则自由地用于主题标引和检索。
张琪玉先生对受控语言的组配化进行了深入的研究[10]。他的观点主要有:组配是基于概念的可分析性和可综合性。所谓概念的可分析性即指一个内涵较深的复杂概念可分解成多个内涵较浅的概念,以分别表达概念上有隶属关系的不同事物。所谓概念的可综合性即指两个或多个有交叉关系的概念可以综合成一个新概念,以表达一个更为专指的事物。总之,组配原理在受控语言中的广泛使用,必将加快受控语言网络化改造的步伐,进一步提高其在网络环境下的适应性。
3.1.3 受控语言的标准化和系列化
受控语言的标准化包括词表编制本身的标准化以及标引和使用规则的标准化。只有致力于上述标准化,才能实现不同文种、不同专业、不同类型受控语言的兼容转换。为了使分类法的编制实现标准化,国际标准化组织颁布了两项国际标准:ISO/R 919《分类表编制指南:方法示例》和ISO/R 1149《多语种分类表的版面设计》。1978年国际文献工作联合会首次编制出版了专门用于不同检索语言之间互换的大型交换语言《概略分类体系》(BSO),BSO可以把使用不同检索语言、不同语种的信息检索系统联系起来,用户可以把一种检索语言转换成另一种检索语言。在主题语言编制方面,国际标准化组织制定了ISO 2788《单语种主题词表编制与修订准则》、ISO 5964《多语种主题词表编制与修订准则》等国际标准。我国目前已颁布的部分标准有:《GB 3860-83文献主题标引规则》和《GB/T 3860-1995文献叙词标引规则》等。这些标准的颁布和实施必将有力地促进检索语言的标准化进程。国外学者Soergel、Modholt建立了一种开放式、多功能、多种语言的分布式概念和术语知识库,来集中和规范概念间各种关系及其使用规则。受控语言的系列化以标准化为前提,旨在大力编制备学科、各专业、各种类型系列配套的词表,从而提高网络检索系统的效率。
3.2 自然语言的优化
自然语言检索(主要是关键词法)和分类浏览检索是网络检索的两大基本功能。而关键词检索几乎是每个网络检索工具所必备的。为了增强关键词的检索效率,各种搜索引擎都采取了一定的辅助措施[11]。包括:布尔检索、加权检索、限定检索(网页深度、专家选择、优秀网站、资料类型、数据类型、日期、地区和域名)、截词检索、词组和短语检索、结果内再次检索、多语种检索和检索结果翻译、自动链接分类检索、过滤检索,检索结果修改、按相关度排列结果、对检索结果粗分类、以统计链接数判断网页重要性等。这些措施在不同程度上提高了关键词检索的查全率和查准率。然而这些针对关键词本身的辅助手段还不能彻底消除甚至基本消除网络自然语言检索的弊端。为此,人们提出了许多更有效的优化措施。
3.2.1 先控技术[12,13]
即入口词表技术。具体方法是用受控语言来标引、组织网络信息资源,检索者使用自然语言检索。入口词表是自然语言指向受控语言的转换词表,将用户所选关键词自动转换成受控词,在检索中可以自动处理同义、同形异义、相关、等级等关系。这种入口词表规模可能较大,而且要不断更新。词表的编制可由机器自动学习来完成或者由人工参与、机器辅助来完成。这种技术可以避免检索者选择合适受控词的不确定性,提高查准率和查全率,从而充当了用户所选关键词自动指向受控词汇的转换中介。
3.2.2 后控技术
即自然语言后控词表技术[14]。这种方法允许在标引阶段不查词表,不实行严格的词汇控制,可以自由地选择标引用词,但在检索时提供后控词表,因而只用于检索。后控技术采用字顺或分类方法显示关键词或自由词之间的各种关系。其词表兼有自然语言和常规受控语言的优点,能弥补受控语言处理新学科、新技术主题的不足以及由于主题概念转换引起的专指度下降,即可提高检索专指度又可满足族性检索。
3.2.3 数码链接关键词词表法[15]
这是一种对后控词表的优化措施。主要特点是:①不设控制词,给每一个关键司一个词号,一些同义的关键词用同一词号链接。在数据库内凡属同一主题概念的所有文献,不管用哪一个同义词检索,都能一次查全。②不编分类表或范畴表,代之以较简便的词族表。即不同级别的关键词用相应级别的词号链接,以利于扩检和缩检。③编制各种注释来指引用户检索文献。④不求理论上的结构完整,讲究实用,面向最终用户,便于维护更新。
3.2.4 自然语言和分类语言结合的检索技术
建立自然语言和分类表的对应表,通过自然语言入口找到相对应的分类号,再由分类号找到相应的文献。
4 未来检索语言发展的理想模式
通过对上述自然语言和受控语言的优缺点分析和优化策略研究不难看出两者之间的优缺点是互逆的,两者之间的优化方法和措施均可实现向对方的渗透和趋同。由此可以认为,网络环境下自然语言和受控语言的融合或称一体化是检索语言未来发展的必然趋势。这方面比较前沿的有代表性的理论研究和实践当属张琪玉先生提出的学科——事物概念组配型检索语言[16]和美国国家医学图书馆所创建的UMLS系统[17,18]。
4.1 学科—事物概念组配型检索语言
学科—事物组配检索语言是朝着检索语言综合化和一体化进行的一次理论尝试。这种综合化的检索语言具有以下一些特点:①通过学科聚类和事物聚类的结合、号码标识和词语标识的结合以及系统序列和字顺序列的结合,实现分类系统和主题系统的完全一体化。用户从自然语言词汇、分类号和主题词任一途径入口检索,都能获得相应的文献。②通过先组式检索语言和后组式检索语言的结合、体系分类法和组配分类法的结合使后控语言体现出先组语言的体系性、概念明确性和易用性。③通过实现自然语言和受控语言的结合,增强了其易用性,用户可以使用人工语言也可以使用自然语言检索。④不变概念代码与可变概念体系的结合便于分类体系的逐步细化和不断改造。词语标识的更换,不受对文献已作标引的影响,分类体系的变换使概念可有多向隶属。任何分面都可以独立集中文献和系统地展示文献主题,各分面又可任意组配检索。⑤这种检索语言具有开放性,可不断增补新概念。目前,该模式正处于理论研究阶段。
4.2 UMLS模式
UMLS即一体化医学语言系统(Unified Medical Language System)。是由美国国家医学图书馆自1986年开始研制的一项长期计划。其目的在于建立一个计算机化的可持续发展的生物医学检索语言集成系统和机读信息资源指南系统,以便于提高计算机程序理解用户提问中生物医学词汇涵义的能力,并利用这种理解帮助用户检索和获取相关的机读信息。
4.2.1 UMLS的构成
UMLS由超级叙词表(Metathesaurus)、语义网络(Semantic Network)、情报源图谱(ISM)和专家词典(Specialist Lexicon)等四个相互联系的部分组成。
(1)超级叙词表
超级叙词表的2001年版收集了60多种生物医学源词表(其中部分为多语种)中的约80万个概念和约190万个名称。超级叙词表以概念或涵义来组织,同一概念的不同名称(如同义词、词语变体和译文)被链接在一起。每个概念都有一些属性以便限定其涵义。这些属性有:所属语义类型、在各种源词表等级关系中的位置,许多概念还有一个定义,同时还显示出不同概念问的各种关系,其中一部分关系源于来源词表,另一部分关系是在编制超级叙词表时产生的。绝大多数词间关系与相应的概念相链接。该表还包括一些使用信息:概念所出现的被选数据库的名称;MeSH术语中被用作MEDLINE术语的修饰词的信息;MEDLINE以及其它一些信息源中概念共现信息等。
(2)语义网络
语义网络通过134种语义类型为超级叙词表中所有概念提供了一个统一的分类体系。语义类型之间的54种链接展示了语义网络的结构并显示出生物医学领域内的重要关系。在超级叙词表中可以找出指定概念的所有信息。语义网络提供了指定给这些概念的基本语义类型的信息并定义了语义类型之间可能存在的关系。
(3)情报源图谱
情报源图谱是一个关于生物医学机读情报资源的数据库,其目的是利用超级叙词表和语义网络测度情报源与用户特定提问的相关性,以便选取最合适的数据库。为用户提供特定情报源的范围、功能和检索条件,自动连接相关的数据库,在一个或多个数据库中自动检索并自动组织检索结果。
(4)专家词典
专家词典的设计旨在为专家自然语言处理系统提供词汇信息,其范围包括共现英语单词和生物医学词汇。每一个词汇条目记录有专家自然语言处理系统所需的句法、词法和字法信息。专家词典包括一组词典程序,用于确定英语词汇的范围并识别生物医学术语和文本词的词形变异。还包括三个索引和四个词汇数据库。
4.2.2 UMLS的特点
(1)以受控语言和自然语言的一体化为目标
UMLS通过编制融先控与后控于一体的超级叙词表,对概念词进行了不同层次、不同角度的控制,如形态学控制、词汇学控制、语义和语用控制等。通过词典专家程序和自然语言程序,可同时计算两个概念的共现频率、特殊事物的共现数据以及语义网络推理、识别和转换,使系统的自然语言理解和处理成为可能。
(2)实现了不同检索语言的综合性兼容
UMLS通过字、词、术语、概念、语义、语用的一体化,可以实现各类型检索语言、分类语言和主题语言、自然语言和受控语言、各文种各功能检索语言的一体化,真正体现了它在专业词汇控制、计算机自动编制词表和超级叙词表数据应用于智能化交互程序等多方面的综合功能。
(3)具有更广泛的适用性
UMLS在设计之初,就考虑到了检索语言的差异性和相关信息的分散性。在此理念的基础上建造的一体化系统不论是在单系统还是多系统,不论是脱机环境,还是网络环境,直至Web技术都有很强的适应性。
UMLS的经验表明,利用国内外现有各种词表(叙词表、标题表、关键词表)、分类表(体系分类表、分面组配分类表)、数据库、专家系统以及各种辞书、工具书,创建一种高度专业化、多学科的综合化超级知识库综合性词表已有了基础。这种超级知识库词表系统应具有自学习和推理功能和广泛的适应性。在此基础上建立的检索语言能满足不同类型、不同层次用户的检索需求。即允许用户在检索提问中使用不同文种的自然语言,也可使用自己熟悉的受控语言(主题语言或分类语言)检索和组织信息。而在系统内部,由受控语言负责对用户自然语言提问的转换、自动联接,支持标引、查寻、检索、浏览、组织信息的全过程。系统可根据用户需要,随时显示语义网络、词义、词间关系,指导用户扩检和缩检,最后能自动按检索相关度组织输出结果。