基于超文本结构的后控词表管理系统_信息检索论文

基于超文本结构的后控词表管理系统,本文主要内容关键词为:词表论文,超文本论文,管理系统论文,结构论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

摘要 本文旨在探索将一种新的技术方法用于后控词表的设计和开发。文中介绍了后控词表的研究开发情况以及超文本技术在信息检索领域的应用;提出了一个基于超文本结构的后控词表模型,讨论了它的功能要求及一些相关技术问题。

Hypertext-based Post-controlled Vocabulary System

Lai Maosheng and Tan Xiaodong

(Peking University)

Abstract This paper attempts to investigate a new technique for the design and development of a post-controlled vocabulary.To begin with,we review the state of the art of the R & D of the post-controlled vocabulary and its applications to information retrieval.Then,a model of a hypertext-based post-controlled vocabulary is described in detail.Finally,we discuss the functional requirements of the post-controlled vocabulary and the technical issues concerned.

1 后控词表研究开发状况

全文数据库和电子文献传递系统的迅速发展,使自然语言在信息检索中的重要性进一步增强。然而,单纯采用自然语言,显然会使相关材料过于分散和查全率降低,增加用户的脑力负担。若完全采用传统的前控方法,则不仅会增加系统成本,而且还会降低系统的友善性。LANCASTER指出:后控词表对于使用计算机的情报检索来说,似乎应作更多的推荐。如果实施得当,这种方法能综合自然语言和常规的受控语言的许多优点[1]。

后控技术研究最早大概可追溯到1959年美国匹兹堡大学法律全文检索系统中的同义词词典。继而有MEDLARS采用的“树篱”法,COOK等人提出的完整检索式存贮与再利用的方法,LEFEVER等人提出的通过识别相同词根来控制词汇的技术,以及STAIRS/TLS中采用的根据词的变化并利用算法实现检索词自动连接和扩展技术[2,3]。

80年代,后控词表研究又有了新的进展。德国慕尼黑技术大学在CYBER900计算机上开发了一个词表生成系统TEGEN。它采用分析学习法,即通过观测用户的检索过程来采集词汇知识,自动生成叙词表[4]。日本科技情报中心研制开发了一个自由词一受控词转换系统,作为辅助检索工具。日本庆应大学原田隆史和细野公男等人则提出一种复合词等级关系自动生成技术[5]。CROUCH提出了以词分辨率模型为基础,采用适当的聚类算法自动建立词表,并在两个文献集合中实现了这一方法[6]。

国内在这方面的研究起步较晚,主要有:武汉大学研究生臧国全开发的一个试验性的汉语后控词表检索系统[7];北京文献服务处汉语自动切词标引系统(CWSAIS)中采用的基于相关标引模式的后控技术[8];北京大学开发的基于文本分析和提问的实验性后控词表系统[9]。

2 超文本技术在信息检索系统中的应用

2.1 研究与应用概况

超文本是一种新的文本管理工具。它将文本组织为某种网状结构,允许用户根据网络中信息片断之间的联系,从不同角度以不同方式浏览或查询有关信息。这种非线性的文本管理方法比传统的文本更灵活、更便于利用,因而引起了信息检索专家的浓厚兴趣。将超文本技术引入信息检索领域的试验和研究日益增多。

在理论方面,提出了多种模型。AGOSTI将超文本与常规的信息检索模型进行了比较,认为可以把超文本系统作为一种新的IR模型[10]。翌年,他提出了一种双层结构模型[11]。

1993年,LUCARELLA等人提出似然推理模型[12],ABOUND提出利用分类的提问模型[13]。

目前的研究重点放在超文本的浏览功能与常规的信息检索功能的有效结合方面。与此同时,出现了一些具有超文本特征的软件。这些软件可分为两类:

(1)基于浏览检索的系统。现有的大部分超文本应用软件都属于此类。

(2)具有一定常规检索功能的超文本软件,如:ASKSAM4.0,FOLIO VIEWS,HYPERRS/HYPERCARD和PERSONAL LIBRARIAN[14]。

目前,在信息检索领域中,超文本技术的应用主要有以下三个方面:

(1)提供有效的系统—用户接口;

(2)概念的语义结构管理;

(3)非线性文本的组织与管理。

2.2 系统—用户接口方面的应用

用户界面对任何工具环境都是很重要的。IR系统的性能也依赖于用户界面的智能性和自然性。超文本能提供非顺序性的浏览功能,使用灵活方便,故在用户接口设计中应用较多。最常见的是一些大型软件包的联机手册和HELP功能都采用超文本界面。同时,也出现了一些应用水平较高的系统模型。例如,ASKSAM 4.0在提供标准的信息检索功能之外,增加了超文本功能。在超文本方式下,用户可以从屏幕上选择链路连接的语词,并将其转化为标准的数据库提问式进行顺序检索[15]。BELKIN(1993)设计了一种超文本界面BRAQUE,以支持用户对某大型文献检索系统进行浏览和提问式构造[16]。POLLARD(1993)设计了一个基于超文本结构的叙词表作为书目数据库的浏览界面[17]。此外,AGOSTI和PARSAYE也在这方面进行了研究和讨论[11,18]。

2.3 超文本技术在叙词表管理中的应用

超文本以节点为基本单位,节点间用链路连接。而叙词表则由众多的词目组成,叙词之间用各种参照连接。其次,超文本的主要功能是支持非顺序浏览。它允许用户从任一节点开始,根据需要从一个节点过渡到另一个节点。而叙词表的用户也往往要根据不同的需要选择不同的查词入口,再通过非顺序浏览找到合适的叙词。超文本与叙词表在结构和使用方式上的相似性,可以从理论上说明这种应用的可行性。

不过,目前这方面的研究还不太多。MARCHDTTI和UHLHAUSER(1991)描述了ESA/IRS的一个用户界面HYPERLINE,其中的概念浏览功能就是通过将叙词表组织成超文本网络来实现的。POLLARD考察了超文本支持词表显示的能力,设计了基于超文本的等级显示。MCALEESE和DUNCAN(1987)描述了一个运用图形浏览器显示叙词表的系统,用户可以利用图形显示浏览词表,也可以触发语词显示中的链来进行浏览。POLLARD(1993)提出了一个基于超文本的叙词表,用作书目数据库主题检索的导航浏览工具,并实现了ERIC叙词表的超文本转换[17]。

2.4 后控词表应用超文本技术的可行性

后控词表又称“自然语言叙词表”,它与叙词表在组织结构上应很相似。它与叙词表的一个显著不同是动态性。它需要不断地从标引、检索等操作过程中收集新词和词间关系信息,加入已有的概念网中,并根据需要进行修改和删除。目前,许多超文本软件都具有增加、删除、修改节点和链路的功能。可以说,超文本有可能为后控词表的建立和维护提供更好的技术环境。

3 基于超文本结构的后控词表模型

这里,提出了一个应用超文本技术的后控词表的概念模型。

3.1 总体结构

本模型以一个叙词表为底表,系统经过不断学习积累,逐步生成日益完善的后控词表。系统由四部分组成(如图1):

叙词表 有三重用途:①作为主题标引的工具;②作为主题检索的工具;③作为后控词表的底表。

扩展词表 用来存贮后控词及相应的词间关系。这里所说的后控词是经专家最后审定了词间关系的自由词。

叙词表和扩展词表均组织为超文本网络。二者之间也通过超文本链路将相应的结点连接起来。这样就得到一个后控词表。它可以支持检索式的自动扩展。

自由词库 存贮从多种途径采集到的新词及其属性特征,如标引频率、检索频率、与之共现过的其他词(包括主题词、后控词、新的自由词)以及它们的共现频率。

中间文档 存贮那些词间关系经系统检测和初步判定的自由词,亦组织成超文本形式。其中的自由词与叙词表和扩展词表中的相应词也通过适当的词间关系链接起来。中间文档只是一个临时文档,供专家对词间关系作进一步审核。经过确认的可以进入扩展词表中。

图1 系统的总体结构

3.2 主要模块的设计

3.2.1 提问式处理模块

该模块处理的对象是已进入系统的提问式。具体作业有:将提问式中的每个词与叙词表和扩展词表匹配,找出新的自由词,并统计其检索频率;识别提问式中用“OR”连接的词集合,统计新的自由词与其他连接词的共现频率。然后,将这些信息存入自由词库中。

3.2.2 文本处理模块

该模块处理的对象是文献库中文本(文摘或全文)和用户的自然语言提问。其处理技术与自动标引近似,即对文本进行分析、抽词和加权选择。同时,还要对选出的词实行类似于提问词的处理。

3.2.3 词间关系检测模块

该模块利用自由词库中提供的信息,借助其他一些手段和工具,对新的自由词与其他词(包括叙词、后控词和其他自由词)之间的语义关系进行检测和初步判别。然后,将已经检测出和初步判定的词和词间关系自动转换为超文本的节点和链(一种临时链),存入中间文档。

3.2.4 专家审核模块

该模块供词表专家或学科专家调用,向他们提供系统检测和初步判定的中间结果。专家对中间结果进行审核,然后给出“确认”或“删除”等标志。

3.2.5 自由词—后控词转换模块

系统根据专家意见,将认可的自由词节点加入扩展词表中,成为后控词节点。相应的词间临时链路也转化为正式链。同时,对标有删除标志的链加以删除。若删除后,某自由词不再与别的词发生任何联系,则将它从中间文档中删去。

各模块之间的关系见图2。

图2 各模块之间的关系图

3.3 节点和链路设计

该模块设有三类节点:

叙词节点 含有对一个叙词的属性描述,是叙词表的基本单位。

后控词节点 包含一个经专家审核并确定了词间关系的自由词,是扩展词表的基本单位。

自由词节点 是中间文档的组成单元,存放系统处理的中间结果。

连接这些节点的链主要有三种:

常规语义关系链 又分为同义链、等级链和相关关系链,用于叙词表中,固定不变。

扩展语义关系链 包括扩展词表中后控词之间的链以及后控词与叙词表中的词之间的链,也可以分为同义、等级和相关三种。它们是在系统自学习过程中逐步建立的,可应用于自然语言检索和提问式扩展。

临时链 指中间文档中连接自由词、自由词与后控词或自由词与叙词的链,也设同义、等级和相关三种链。临时链是在系统检测和初步判别后建立的,主要供专家审核用,一般不用于提问扩展。

无论何种链,都需标明链类型信息,并附载有表示语义关系强弱程度的权值,以帮助用户判别检索词的相关程度。

4 后控词表系统的功能要求

从信息检索系统的发展趋势和已有的各种后控词表模式来看,一个完善的后控词表系统起码应具有下述功能。

4.1 新词采集与学习功能

新词的采集与学习应是后控词表系统的基本功能。此功能一般应达到如下两点:

新词来源广泛 即可以从标引、提问、检索对话以及听取用户和专家意见等多种可能的渠道采集新词。这样,方有可能收集到丰富的词汇信息。

保证新词的质量 只有收集到高质量的新词,才有可能构筑高质量的后控词表。最能反映新词质量的是标引频率和检索频率。值得注意的是,对特定的文献库来说,这两个指标不应是固定不变的,必须随文献量和用户提问的增多作必要的调整。有时,对某些标引频率和检索频率较低但却很重要的名词术语,就需要利用其他方法来判断其价值。

4.2 词间关系检测功能

收集到的新词必须进行词间关系检测,以判明自由词与叙词、自由词与后控词、自由词与自由词之间的语义关系。实现此功能的关键是选择适当的方法。目前,检测词间关系的主要方法是,基于共现频率的方法和基于语言分析的方法[19]。选择何种方法,须考虑每种方法的适应性、有效性、可靠性和实现难度。此外,还需要考虑后控词表面向的文献量、文献的专业特色等。

4.3 辅助检索功能

后控词表实际上就是一种用户接口,向用户提供词汇帮助。一个后控词表系统主要应支持以下三种检索:

(1)常规的主题词检索;

(2)利用后控词表进行提问扩展,包括同义扩展、上位扩展、相关扩展等;

(3)自由词检索。

除上面介绍的功能以外,后控词表管理系统还应具有常规的词表管理功能,支持自动标引和文本分析功能,以及连接相同专业领域中的自然语言与受控语言的功能,等等。

5 相关问题讨论

在研制开发后控词表系统过程中,迄今虽然已取得一些进展和成果,但也遇到了许多困难和问题,需要我们加以重视和解决。

5.1 后控词表与文献库连接问题

基于超文本结构的后控词表系统应能同时作为普通文献库和超文本文献库的用户接口。

5.1.1 与普通文献库的连接

两者之间的连接是通过在词表与检索系统之间传递提问式和检索结果来实现的。这种连接方法简单,但可能会面临输出过量的问题。对于采用准确匹配的检索系统,后控词表的扩展功能可能使检出文献过多,又难以区分每篇文献的重要程度,从而加重了用户的负担。所以,似乎应研究其他辅助方法或采用最佳匹配方法,使这种状况得到改善。

5.1.2 与超文本文献库的连接

两者的连接通过用超文本链路将词表中的语词节点与相对应的文献节点连接起来而实现。这种方式给用户提供了浏览文献库的手段,有助于判别文献的相关性,但在实现上有一定困难。词表中每个词可能对应于上百篇文献。建立和维护这种链路很费时,而且超文本系统一般也不支持这种一对多的链路。POLLARD(1993)曾指出过这个问题,并提出了几种解决方法[17]。但这些方法还不完善,仍需要继续探索其他更有效的方法。

5.2 普通词表转换为超文本的技术问题

目前,将普通文本转换为超文本的方法主要有两种:手工转换和自动转换。最理想的是采用自动转换。人们发现:高度结构化的、组织明确的文本比结构独特的文本更易于转换为超文本[15]。有规律地重复地构建的文本是较适于自动转换的处理对象[17]。叙词表是一种高度结构化的文本,故实现自动转换理应容易些。不过,目前还没有有效的通用转换工具,仍需要编写专门的转换程序来实现。

5.3 新的后控技术的开发

正如CROUCH(1990)指出:任何信息检索课题的讨论如果不考虑到人工智能和专家系统对传统检索工作的影响都将是不完善的[6]。手工方式的后控词表虽然还有一定的用途,但这种模式已经过时。基于共现频率分析的各种后控技术比手工式后控前进了一大步,但远未达到成熟和完善的程度。引入超文本技术可能给后控词表提供一种更好的技术环境,在一定程度上克服了词间关系判定的机械性。但是,超文本不等于人工智能,它本身不能提供给我们所急需的后控技术。

因此,单凭一两种技术或措施来实现后控,显然是不够的,也是不可靠的。我们需开发更多更有效的后控技术。我们的目标应当是:建立一种人机结合的、词汇控制与自动标引和智能检索交互作用的、实用化和智能化的后控词表系统。只有将词频分析、语法和句法分析结合起来,吸收自动标引、自动分类领域的研究成果,并充分运用人工智能和专家系统知识,方能真正建立一个高效的后控词表检索系统。

收稿日期:1995年1月10日

标签:;  ;  ;  ;  ;  ;  

基于超文本结构的后控词表管理系统_信息检索论文
下载Doc文档

猜你喜欢