网络环境下检索语言的发展与新系统的建立RQ接收日期:1996/05/20_自然语言论文

网络环境下检索语言的发展与新系统的建立RQ接收日期:1996/05/20_自然语言论文

检索语言的发展及其在网络环境中新型体系的建立RQ收稿日期:1996-05-20,本文主要内容关键词为:收稿论文,体系论文,日期论文,语言论文,环境论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 知识表示理论研究及检索技术的进步是检索语言发展的动力

1.1 检索语言是知识表示的一种方式

检索语言本质是对文献所包含的知识的组织或表示⑴。表达知识的模式源于对人脑知识贮存记忆方式的模拟。每个时代的人都带有那个时代特色的知识体系。等级列举式分类法所反映的是以牛顿理论为代表的传统学科的知识结构,是一种一元决定论的单值线性关系,阐述的是决定者与被决定者的线性关系。而现代科学知识结构是一个多变量、多层次、多功能组成的反馈关系,有极其复杂的立体交叉结构。主题词法和叙词法理论及应用的兴起正是试图进一步模拟大脑中的知识贮存,能从任意角度灵活多变地组织和表达知识。这种语义网络结构与认知心理学上的一些记忆模型,如层次模型、激活扩散模型等是一致的⑴。情报检索语言的进步说明其对知识的组织和表达正从表层逐步深入到人们的思想之中。

人脑的思维并不按照某几种固定的路线进行,而是在一个个新信息的激励下自然、动态地展开,是无法事先统一规范的。显然规范化词表的结构与这种知识组织方式是不同的。规范化词表的最大特点是静态描述和静态概念,它把知识本身及其检索过程分割为许多不能动态变化的独立部分和几种固定联系方式,代表的是一种静态、僵硬的思维方式,当然不能灵活、高效地组织知识,因而影响了检索系统的整体功能。人们要求更加智能化的检索,情报检索系统正在由数据库向“知识库”、“思想基因库”发展。研究知识组织和表达的理论,将是设计未来情报检索系统的基础⑵。

1.2 检索技术的改进推动检索语言进步

检索语言的发展与检索方法和手段的改进息息相关。等级列举式分类法显然是手工卡片这种检索工具的产物,为满足排架的需要,决定了它先组式的特点。穿孔机和比孔卡的使用,促使“组配”(即后组)的思想取代了“先组式”,为机械化检索奠定了智能基础。主题检索语言适应了当时计算机成批检索的需要,而被人们广泛采用。联机检索则促使叙词语言从布尔逻辑检索的第一代向自然语言化的“语境逻辑”检索的第二代发展⑶。随着计算机的储存容量、运算速度和软件的改善,可以把大量原始信息存入检索系统,全文数据库的大量出现促使用自然语言检索势在必行。

计算机技术应用使检索系统对知识的组织能力空前提高,对检索语言提出了更高的要求。规范化语言的种种弊端暴露无遗。古老的等级列举式分类法面临着极大的困境,在历次修订同时坚持“体系、号码制度不变”和“跟上新知识发展步伐”两个互相矛盾的原则,使得分类法陷入了越来越大的混乱之中,正逐渐丧失其组织文献的能力。主题法的标引和和查找要求形式绝对规范,少一点少一横都不行,既给标引者增加了工作量,也给检索者增添了额外负担。一些有识之士指出,规范化检索语言已成为数据库建设的“瓶颈”⑷,检索语言必须向更加符合人们思维习惯和提高检索效率的自然语言化方向发展。

2 在网络环境下检索语言的发展趋势

2.1 信息网络化对传统规范化语言的冲击

在信息处理和传递的电子网络化过程中,信息资源爆炸及流通媒介的畅通无阻,导致了情报系统的剧烈变革。信息网络把出版、发行、图书馆、用户与整个社会紧密联系起来,导致了一个信息生产、传递和消费秩序的出现。在这个新秩序中,传统的规范化语言的地位受到了前所未有的冲击,主要表现在以下几方面:

2.1.1 信息数量和种类的变化

数据库联网使信息流通量和使用量大大增加,特别是Internet网的建立,促使成百上千个OPAC形成了更大范围的网络,形成了世界范围的书目信息资源共享。但联网的信息机构具有各不相同的专业特色、产品特色、服务特色,既有二次文献数据库也有全文数据库,而且数据库以多种形式发行,既有书本式的,也可是磁带、光盘,电子版可以先于印刷版发行,并可加工供全文检索和超文本联接,直接经网络传递。这就造成了巨大的信息量和五光十色的种类,如何有效地组织和利用联网环境下的信息成为一个新问题。原来的情报检索模式已不能承受社会化信息的容量大、速度快、需求多样的重负。一条目录只要给一个分类号和两、三条主题词的传统观念在联机环境下受到了猛烈的冲击,在一个大数据库中每个主题下都集中了成百上千条纪录,而书目显示时又无法按重要程度排列,实际上是检索失败⑸。正如R.K.Seidman所说:“信息转化为知识是信息社会的难题”⑹。如何将联网环境下似乎要将人湮没的巨量信息组织、整序,使之变为知识,是检索语言面临的新问题。

2.1.2 检索行为的变化

在信息资源爆炸时代,以查全、查准为衡量标准的检索观念正受到强烈冲击,浏览-检索式行为越来越受重视。这是因为传统的检索系统是“提问检索式”,要求用户对查什么形成一个明确的询问,也就是说要求用户具有背景知识,熟悉特定的术语和规范检索词,分类和主题词正是这种检索方式的工具。但“一个用户想要描述的不是他已经知道的东西,而是他尚未了解的内容”⑺,所以传统检索语言不能满足用户的最终要求。而浏览-检索是一种由意识到需求或兴趣所引起的行为,“是一门直到找到要找的东西之后才知道要找什么的艺术”⑻,通过浏览来选择有价值的情报,更符合用户实际情况和需求,这正象人们所进行的研究工作并不是刻板地循序进行,而是随机、自然地展开。随着全文本数据库的大量出现,更使得浏览-检索成为一种必然趋势,自然语言的全文本检索技术成为一种实际需要。

2.1.3 读者群及其需求的变化

由于广泛联网,终端用户可以直接介入,图书馆的传统中介地位正逐渐丧失,由专职人员根据用户提出的问题进行检索的模式被打破。用户能采取更加自由的介入方式,而传统的规范化语言已不能适应新的要求。由于计算机是集情报传递、处理和存储三种功能为一体的统一化终端,用户不再停留在复制资料的阶段,而是将信息的查寻、使用和再组织结合为一个过程,在获取信息的同时又产生新信息。这就要求检索语言不仅是一种控制书目查找途经的语言,还能满足组织并产生新信息的需求,代表着一种不同于传统规范化词表的全新的检索控制途径⑸。

2.2 对发展趋势的分析

2.2.1 文献情报系统以数据库联网的形式出现后,在信息网络中知识的组织和表达已成为一个重要课题,它直接关系到网络上检索系统的设计和开发。其实质是在寻找一种恰当的知识表达方式,其目的是通过有效的知识表示,揭示知识概念及其相互关系,使得系统能充分利用这些知识作出判断,输出信息。知识库结构检索系统将是数据库网络用来组织和表示知识的方式,检索语言在其中将起到重要作用。

2.2.2 检索语言研究的传统观念和原则受到强烈冲击,检索语言不断吸取自然语言因素和方法,“预先确定规范词以控制标引和检索”这一检索语言的基本规则发生根本性动摇。对检索语言的控制由前台走向后台,不是通过“规范”词进行控制,而是采取后控制技术,走向幕后,成为使系统“透明”的无名英雄。

2.2.3 后控制技术不仅仅是为词表增补新词打下基础,也不仅仅是为了不断完善规范化术语与非规范化术语之间的语义网,它使得检索语言系统具有了自我学习和自我完善的功能,在这个学习过程中逐渐具有自然语言理解能力,能在对用户的提问词经分析后进行各种控制,从而使系统逐步提高智能化的程度。

2.2.4 虽然检索系统的自然语言理解还只是一种理想和希望,随着检索系统中后控制支撑系统的不断完善和改进,词表将发展成为一个基于自然语言的大型结构化数据库,与其他各种知识库共同构成一个能以自然语言交流、基于知识进行推理检索的智能化检索支撑系统。

3 新型检索语言体系的建立

3.1 规范化词表的兼容问题迫在眉睫

随着网络化程度的迅速提高,检索语言兼容问题成为网络化建设中一个引起人们普遍关注的问题。由于每个规范化词表是事先根据某个系统的特定需要编制的,不同部门、不同系统、不同专业领域的专业词表在编制原则、使用目的(机检、手检)、词汇因素(如收词量、专指度、词条形式、入口词、精确度等)、结构因素(构造形态)等方面存在很大差异,因此对联机数据库网络的发展造成严重阻碍,使不同系统之间难以沟通、联接,现有数据库不能被有效利用。

笔者试图根据对网络环境下检索语言发展的总趋势的分析,提出在传统检索语言体系基础上采取后控制手段,以期在不断加深自然语言化程度的过程中达到殊途同归的兼容化目的的思路。这是因为:

3.1.1 在计算机信息检索高度发展的背景下,自然语言不依附于任何特定数据库,只有采用自然语言标引和检索才能适应不断扩大的联机网络中所有数据库,从而解决检索语言兼容问题。

3.1.2 根据我国检索系统的具体情况,为了达到兼容目的,在规范化语言中逐步加入自然语言成分、规范语言与自然语言结合使用是必然的一步,一个主题词、分类号、自由词合为一体的整体化检索语言是兼容化的重要过渡形式。随着自然语言成分的加入,对检索词的控制由前台转向后台,后控制技术发生关键性作用。

3.1.3 计算机性能的不断完善,使得采用自然语言带来的不利因素逐渐减少。充分发挥计算机系统功能,提高机器可读词表的作用,克服传统词表的弊病,是实现在网络上语言兼容的技术基础。

3.2 建立新型体系的思路

3.2.1 为了适应联网环境,词表的机读化是必要的前提,无论不同的分类词表还是各种专业的序词表,应在机读化的基础上具有联机显示的功能。

3.2.2 在使用特定词表的系统上,采用后控制技术将其改造成一个“分类+字顺”模式的分类号、规范词与自由词的一体化机读整合词表。分两步完成:

(1)输出检索系统中实际使用(标引和检索)的规范词和自由词,利用原词表(主题词表或分类表)的框架对规范词进行整理,初步形成一个“分类词表+字顺词表”模式的后控词表的雏形。

(2)对自由词段的不规范词的处理,先将其按字顺轮排纳入上述后控词表中,然后与表中的规范词建立同义关系,再根据原词表的框架进一步建立自由词与规范词的其它关系,如使用相似匹配法进行字面成组,用词频分析法和聚类分析法判定词间关系。

3.2.3 联机网络中各系统的整合词表,通过联机或混合显示构成一个网络共用的词库。联机显示词汇可有两种方法:所有文档采用同一形式,即在expand指令下按字顺显示词及词频,如DIALOG所用,此法的优点是易懂易用,以不变的形式应万变的数据库;或专用一个词汇文档,将各种词表合在一起显示,每个词下有其在各个词表中的相应形式⑸。为此对不同词表中词形、词义完全相同的词,形同义不同、义同形不同的词分别作出处理,采用步骤3.2.2中的方法建立不同的词间关系,形成一个网络兼容的整合词库。

3.2.4 对在标引和检索中出现的新词可随时增补到词表的字顺部分,而词间关系的建立可积累到一定数量时,再成批或定期处理(具体方法参考步骤3.2.2和3.2.3)。

3.2.5 由于在计算机中检索的组织方式是虚拟的,故其词表结构也可以灵活变化。对词的控制方式的不同导致词表显示的多种方式。随着科学技术的发展,当原分类体系落后时,可进行较大调整,而不会引起重新标引和排架问题。词间关系的类型也不再只是用、代、属、分、参,还可以建立其他多种关系,如因果关系、功能关系、条件关系、时间关系、地理关系、使用关系、取值关系、参数关系和其他随机关系。灵活多样的显示功能,使词表的体系能跟上新知识发展的步伐,大大加强了检索系统的理解能力。

3.2.6 这种基于自然语言的结构化大型词库的不断完善将逐步发展成为一个具有词间联想功能的知识库,成为具有自然语言理解能力的新一代检索系统。

标签:;  ;  ;  

网络环境下检索语言的发展与新系统的建立RQ接收日期:1996/05/20_自然语言论文
下载Doc文档

猜你喜欢