Web信息检索技术改进的途径与方法,本文主要内容关键词为:信息检索论文,途径论文,方法论文,技术论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近年来,随着信息技术、网络技术的发展,Web上的信息急剧增加,使人们在获取信息日益方便的同时,也给检索信息带来了困难。这是因为在Web上,虽然信息数量、信息类型众多,但却非常分散,结构也异常复杂,将其有序地组织起来进行检索更显得比较困难。目前Web信息检索多采用浏览方式和搜索引擎方式,基于简单文本字符匹配形式进行,仅能提供网络分类目录浏览的查询方式和关键词全文检索方式,缺乏概念的、主题的、特定学科的等多种检索途径,检索的相关性、知识性及检索效果都不够理想。因此,以前的Web检索技术已经不能适应现代Web网页检索的需要,必须突破原有的Web信息检索技术,倡导新的途径与方法。
1 在等级分类法(Hierarchical Classification)的基础上,多运用分面组配分类法(Faceted Classification)
等级分类法就是把类目层层划分,按等级加以排列。其大类一般依基本知识门类排列,然后用一定的分类标准将大类逐级细分,直至不能或没有必要再划分为止。如《杜威十进分类法》、《中图法》、《科图法》等都是十分典型的等级分类法。分面组配分类法又称“分析-综合分类法”,它是将客观事物分解成若干因素,再将许多因素根据一定标准归纳成若干组面。分类时,根据文献内容和形式中的各种因素,利用范畴表中各种组面的类目组配成适合这种文献的新类目。组配分类法专指度深,灵活性和容纳性大、篇幅小,检索效率较高。
众多研究者一致认为,在Web检索中,分面组配法是一条改进等级分类法的出路。因为组配分类法的特性更加适合于计算机处理,组配分类号与类名词汇互相连接,在分类检索途径和主题检索途径中都能够更有效地被利用;更重要地是,组配分类法容量相当大,只有它才能与世界上主题检索的发展趋势融合起来。国外大型分类法如BC2、UDC等都把分面组配法作为生存与发展的关键。例如在现有的网络分类目录Yahoo中,在数字化信息的组织中成功地应用分面组配法,建立起一套完整、全面、等级层次鲜明的主题目录以提高信息组织的质量。具体操作过程是:根据上下文组合信息内容,利用冒号作为统一分隔符标记信息内容,通过“◎”提供和跳换类目体系中不同的路径分支入口。综上所述,目前最理想的方法就是,接合等级分类法与组配分类法的长处,形成混合型分类语言,在其中融人大量的组配因素,大大提高分类法的兼容性,从而提高Web信息检索的使用效率。
2 引用本体论(Ontology)的概念,在Web网页上实现概念匹配检索
本体论(Ontology)是一个从哲学上引用来的概念,它是一个定义语词与语词之间关系的规范文档。Ontology着眼于定义概念并表达概念间的关系,它不是术语的集合而是关于概念的集合,这些概念以一种不依赖于任何自然语言中的术语的形式被表达。Ontology的主要贡献是提供了一种更为详尽和规范的概念表达语言,这种语言能够更全面地表达词义。一个完善的Ontology能够提出结构的主体和概念的关系,包括Superclass/Subclass/Instance(超类/亚类/实例)关系、Property Value(特征值)、时间关系以及其它依赖于所用的表达语言的关系等。Ontology的理论与主题词表的主要特征是相通的,它们都包括术语学的组织与等级结构,但主题词表中可用于组织术语的几种关系不仅在数量上相对较少,而且未被正式定义,因此被模糊地运用。与主题词表相比,一个Ontology包含的不止是关系,这些关系被正式地定义并且决不被模糊地运用。
本体论在Web检索中的使用优势主要表现在:通过概念和词间关系实现智能检索;不需要复杂的布尔逻辑规则检索;如果是多语种的本体论,还可以实现以用户熟悉的母语检索其他语种的同类信息;通过同义词及上下级词间关系,可以扩大检索范围,提高查全率;通过概念及词间关系可以精确词义,从而提高Web信息检索的查准率。
本体论的理论主旨是“概念匹配”,它在Web检索中的应用实质也就是概念匹配检索。自从Web出现以来,HTML和XML一直是创建Web页的标准语言,但这两种语言都缺少更多的结构化语义信息,不能适应现代Web信息检索发展的要求。因此,产生了概念匹配检索的发展契机。概念匹配检索也称为语义检索、语义交互,是一种建立在文献信息的概念相关关系基础上的检索,它通过建立某种语义索引,对用户进行交互式的导航,从而实现用户的深度检索。例如在Web网页上,可以设计一个5000术语的索引词汇表。这个词汇表除了按字母的顺序排列以外,还创造了一些相关术语的概念集(Concept Clusters),即概念族。在查找某一特定的词汇时,检索人员并不需要从上到下地按字母的顺序一个个地寻找,只需按照术语之间的相关性便能很快地查到所需的相关词汇。概念检索能实现语义蕴涵扩展、语义外延扩展和语义相关扩展,是解决搜索引擎传统的关键词匹配检索模式的关键技术,是未来搜索引擎发展的重要特色,更是未来信息检索发展的大趋势。随着Web上越来越多的页面成为Ontology页面,搜索引擎不再仅仅使用语义含混的关键词进行查询,而是精确地查找指向某一确定概念的网页,从而大大地提高了Web信息检索的使用效率。
3 在使用规范化信息检索语言的基础上,建立后控制词表,并对元数据实行标准化管理
语言的规范化是提高语言传递信息的效率、排除交流障碍的重要措施。在信息检索中,语言的规范性主要指词类、词形与词义的规范。分类语言、叙词语言、单元词语言、标题词语言都属于规范语言。虽然在网络信息组织中,主题法的自然语言得到了最为广泛的应用,但是由于其检索语言是不规范的自然语言,虽然对数据库中相关字段的词进行控制,但对同义词、近义词、同义词组和近义词组的查找还是相当困难的。因此,只能作为检索的辅助手段,而不能解决查准率、查全率问题。实践证明,传统的词汇系统和主题词库在信息检索过程中的效率是很低的。近年来,许多信息检索的研究专家意识到,为了更方便用户检索文本信息,信息检索人员应建立一个规范化的词汇系统或主题词库,这些系统和词库有着不同的内在逻辑结构,它们所包含的词与词组更便于在信息检索中使用。如建立后控词表,使它类似于人口词表,成为一种罗列自然语言检索标识供选择的工具,也成为一种转换工具、一种扩检工具。后控词表的控制词并非直接用于标引,而是作为文献检索标识的自然语言词进行控制,以建立等同、等级、相关关系。用户可以输入某一概念的任意同义词作为检索词,经过后控制词表找出其标识词,然后在通过对所有同义词的匹配查找后,检出符合条件的记录。后控词表的建立,将使自由标引显得更加现实,使自由标引所建数据库更具有检索利用价值。目前,Alta Vista由于其检索语句在原有的主题词、叙词的基础上,建立了后控词表,现被认为是搜索结果最快、搜索结果最准的一种搜索引擎。可见,后控词表是提高查全率和查准率的高效控制工具。
元数据在网络信息资源(主要是指万维网,简称Web)组织中的作用主要表现在:通过描述网络信息,提高网络资源的可获取性;增加网络资源的可交换性;在不改变网络资源原有格式的同时,使机器可以访问以不同形式描述的网络资源。目前,描述元数据语言的主要功能在于显示和定义文档,而非对网页内容进行描述,因此目前的Web上存在着数据量大,但缺乏语义描述的问题。这直接导致了计算机程序难以有效识别网络信息的内容、信息检索效率低下,影响了网络资源的有效利用。为了提高检索的效率,人们正尝试运用不同层次的元数据模型来构建语义网,使网页文档的语义能清晰地体现出来并为检索程序所理解。
另外,Web上的元数据还存在着标准太多的问题,且仍有继续增长的趋势。因为至今没有一种对元数据进行统一管理的机构。因而有可能在同一领域内存在着几种互不相容的标准。在当前如此众多的语言和如此众多元数据标准的基础上,首要任务是对元数据进行规范化、标准化处理,即在众多的标准中认定或制定一个国际通用的网络信息资源的著录格式标准。如DC(都柏林核心),因其通俗易懂、便于使用,得到了主要发达国家的普遍认可,有望成为国家标准。当今网络信息资源瞬息万变,只有对信息组织进行标准化、规范化管理,才能适应现代化信息检索的发展要求。
4 为信息检索人员设计一套高效率的信息检索系统
为了降低检索人员的检索成本,必须关注检索系统的设计、构造情况。Web网站上提供的许多信息在某种程度上都是由信息专家处理和筛选的,勿庸置疑,这些处理系统和筛选系统的操作过程,既费时、费力而且使用效率并不总是和付出的劳动成正比。在大多数情况下,是系统的某些支持软件,使工作人员的工作效率降低,而不是工作人员本人。所以,为了改变这种现象,提高系统的使用效率,必须单独建立一种高效的信息检索支持子系统,该系统有其独特的结构和功能。为了提高工作人员的操作效率,系统的工作人员在系统的词汇索引和类目索引中所用的检索方式,不同于系统的终端用户寻找信息的方式。与此同时,还必须大大简化系统软件的认知过程,从而减轻工作人员的工作压力。另外,还可以把一些标引款目分别进行段标识处理,使每一个段标识都成为可以控制的小因素,从而便于工作人员从一些细小的关键工作点处理各种问题。
5 利用“布拉德福等级排序法(Bradford Distribution)”,对Web检索实行定量分析
在信息检索中出现的各类现象,如Web搜索引擎的访问频率;某一个页面或站点中的索引术语及分类词汇的分配比例;检索子系统的规模分布规律等。它们并不都能以一定的标准来衡量,但却可以用“布拉德福等级排序”规律来解释。
“布拉德福等级排序法(Bradford Distribution)”,最早由情报学家布拉德福提出。是指把同类性质的研究对象,按其某一特征量的大小次第排列,以揭示其规律的科学研究方法。它把一组信息源按其所含某一特定信息量(如载文量、词汇复现率等)的递减次序排列,使含信息量最高者排于首位,最低者排于末位。如果取信息量对应于相应的信息源排列则可得到一个等级分布函数。以对数尺为横轴标表示信息源,以线性尺为纵轴标表示相应的信息累计量,便可得到等级分布函数R(n)二K.log(a+n/a)。式中n为排于第n位的信息源,R(n)为前n个信息源的累计量,K和a为常数。这就是布拉德福等级排序规律,它是一种重要的情报学定量研究方法。这种研究方法对现代的信息检索很有参考借鉴作用。在Web实际检索中,可以利用这种定量分析方法,对Web网站上的主题分布规律以及检索的命中率情况进行定量分析,可以查出:哪些主题经常被用户查阅,哪些主题很少或被几个人所查阅;哪一部分页面的检索命中率较高,哪一部分的页面检索命中率较低等。运用这种定量分析方法,使用户和检索工作人员在检索时能做到有的放矢,忙而不乱,可以根据检索的主题和命中率情况,及时调整检索策略及方法,以图达到理想的检索效果。
6 为信息检索设计规模、结构、功能相匹配的数据库
每一种类型的索引词汇和分类词汇都存在着显性的或隐性的结构模式,这种结构模式必须与规模适中的数据库相匹配。如为100万条的索引词汇设计的数据库,就很难满足500万条索引词汇的检索需求。随着数据库资源的日益增长,以前在19世纪初期功能较完善的索引体系,现在必须对其中的大多数体系进行淘汰处理才能适应现代社会的发展。20世纪以来,随着科学技术的迅速发展,科技文献的数量和质量也在大幅度地提升,信息检索的整个系统装置都必须进行技术上的改进或者是智能化的重新设置。21世纪以来,随着Web网页的出现及其迅速发展,对各种类型数据库的规模、结构及功能提出了更高的要求,信息检索的专家们从一开始就预测到了Web的发展趋势,纷纷行动起来,及时对各类索引系统分别进行全面升级发展和内部结构调整,把以前小的、简单的索引和分类词汇都改造成规模适中、功能齐全的、适应现代Web网页检索需要的大型索引体系。
以上提到的运用分面组配分类法、实现概念匹配检索、建立后控制词表、对元数据实行标准化管理以及对Web检索实行定量分析等途经与方法,都是信息检索专家根据现实的需要、适应社会的发展,对Web检索词汇、检索方法,尤其是Web检索系统的结构和规模做出的尝试性的设想和科学的改进。随着时间的推移,这些设想和改进将会慢慢地被实践所证明,为社会所接纳。
7 重视信息检索专家的作用
在实际检索操作过程中,专家们的作用也很重要。与普通用户相比,信息检索专家具有普通用户所没有的娴熟的分类与标引知识、需求分析知识、精炼提问知识及检索经验知识等。特定学科领域的专家还具有特定的学科背景知识,而这些特定的学科背景知识更有利于精炼和准确表达检索需求。当信息专家使用检索系统进行检索时,必然应用关于特定问题求解的核心知识和经验,这样就会使检索变得相对明确。另外,专家的检索实例系统(或服务器)通过对不同专家不同时期或同一专家不同时期的检索实例的总结、归纳、学习,可以提取出一系列针对不同领域、不同用户的检索模式,对系统在处理一般用户的提问时起到一定的指导作用,尤其是在指导用户准确表达其信息需求、改善用户对Web环境的认知能力等方面。在检索过程中,获得信息专家的指导,可以节省用户时间,使用户在检索中少犯错误或少走弯路。因此,用户在检索过程中寻求专家们的帮助和支持是改进检索方法、提高检索效率的有效途径。
最后,我想着重强调指出的是信息检索专家在Web检索改进过程中的重要作用。这些信息专家主要是指:创造分类法的专家、设计元数据及其协议的专家、为用户设计信息检索系统及技巧的专家、设计专业化信息检索程序的专家等。信息检索领域里的每一次技术上的改进和理论上的创新,都离不开信息专家们的辛勤工作。信息检索人员和用户都应该尊重和理解专家们的辛勤劳动,尽量为专家们提供宽裕的时间、充足的资金和必要的工作条件保障等。
收稿日期:2004-01-16