90年代我国情报检索理论研究述评,本文主要内容关键词为:述评论文,理论研究论文,情报论文,年代论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
为了解分析我国90年代情报检索理论的研究成果及发展趋势,本文依据《全国报刊索引》,对国内90年代以来情报检索理论的发展方向分为5个部分进行统计,即情报检索机理(理论)、情报检索系统、 计算机情报检索、情报检索策略、人工智能。从中可以窥见我国情报检索理论的研究发展及学术界在情报检索理论研究领域的热点及其发展方向,可使我们对90年代情报检索理论的研究有个总体上认识。
附表 90年代情报检索论文的内容分布
从附表中我们可以看出:人工智能方面的研究是我国情报检索理论中的薄弱环节,然而它却代表了我国情报检索理论研究的新的发展趋势,我们应加强对这方面的研究探讨。下面本文将从这5 个部分分析我国情报检索理论研究的现状及发展趋势。
1 情报检索机理
1.1情报检索模型
情报检索主要研究如何有效地表示文献和以何种方式描述用户的检索要求才能有效地检索到相关文献的问题。传统的情报检索模型有布尔检索模型、代数检索模型、概率检索模型等。
目前,人们用逻辑蕴含对布尔、代数、概率检索模型进行研究后,构建了一种基于可能世界理论的情报检索模型。〔1〕 这种情报检索模型是在传统情报检索模型之上构建而成的,它比传统情报检索模型更有效、更先进,它使文献与查询的相关性得到了量化。
同时人们对情报检索的过程也进行了研究,从而得到了情报检索主体在检索过程中的认知模型〔2〕。据此, 人们可根据自己的认知思维所得到的检索结论,改造自己的检索观念模型来适应不同检索系统,进而可根据自己的检索结论来评价和改造检索理论,创造出新的情报检索理论以及情报检索系统。
对情报检索的认知模型的研究有助于提高检索主体在检索过程中的自觉性和创造性,使检索思维和行动更加明确有效,同时也是对检索理论的进一步完善。
1.2并行情报检索
并行情报检索〔3〕是将并行处理用于情报检索, 它是应传统的顺序处理方式越来越难以满足许多情报系统的检索响应时间及效率要求而产生的,并行处理是相对于顺序处理而言,它意味着同时、并发、重复、重叠等多种含义。传统的顺序计算机处理速度受到机器物理特性的限制,而增加可并发操作的处理机数目,能够克服这一限制。
并行计算机情报检索可提高系统性能,还可改进系统的可用性、可靠性、可适应性、响应一致性、资源共享能力以及自动负载均衡等。目前,利用并行机、多处理机和分布式系统实现的情报检索技术的研究已经或正在呈现出较大的潜力。在今后一个时期内,新的具有独特并行特征的情报检索将会大量涌现。
1.3 概念信息检索
概念信息检索〔4〕 是在自然语言处理中语义层次上的新型的信息检索。它的理论框架最早由美国著名的人工智能专家Schank Kolodner和Dejong在1981年发表的《概念信息检索》一文中建立,并且指导了概念信息检索系统CyFr的开发。它的基本理论和应用的研究,如自然语言处理的理论和知识呈现的理论都已促进了国外情报检索系统的发展,本人认为概念信息检索的“信息”实际相似于文中的“情报”。
概念信息检索作为一种新型的信息检索,为信息检索及其系统的研究拓展了一个新的领域。目前,概念信息检索的理论和实践已经成为国外情报检索系统研究的基础理论,我国在这方面的研究比较落后。所以我国要在信息检索理论建设上取得进展,除了要大力提高我国自己的基础理论研究水平以外,还应该从国外的先进理论中汲取有用的成份来加强自己的理论基础。当前,介绍和研究该理论的文章日渐增多,它的研究应该成为我国情报检索的一个方面,并将对我国的情报检索系统的研究带来有益的启迪。
2 情报检索系统
2.1演绎情报检索系统
随着人工智能理论和技术的日趋成熟和推广应用,传统的情报检索系统越来越不适应情报检索的需要,逐渐显露出许多方面的不足。目前,针对传统的情报检索系统的弊端,人们试图寻找一种新型的情报检索系统,演绎情报检索〔5〕便应运而生了。 它是一个既能充分利用智能语言较强的演绎推理功能,又能利用传统情报检索系统技术成熟、数据管理能力较强等优点的情报检索系统,由情报数据库、检索知识库、检索与推理机制、人机接口和自然语言处理等部分组成。演绎情报检索系统由于它便于扩展,可以在其上进一步开发更高层次的智能情报检索系统、自然语言理解系统等,提高情报检索的智能性是非常有益可行的。这种检索系统必将推动情报检索进一步向智能化方向发展。目前,有关演绎情报检索系统的研究仅见到1篇。
2.2 基于超文本的情报检索系统
超文本技术就是利用计算机技术、通信技术和人工智能的知识表达技术非线性地组织管理多介质的电子信息的群体技术。目前,超文本技术已在国外的情报检索系统设计中广泛应用。我国也研制出了超文本全文检索系统的模型〔6〕, 这种模型不但弥补了当前全文检索所缺乏的联想功能和随意交叉参考的能力,也摆脱了超文本只能沿固定的链进行浏览的局限性。实验已经表明,该模型是可行的,具有一定的理论基础和实用价值。
总之,不论是演绎情报检索系统还是基于超文本的全文检索系统都已预示了情报检索系统的发展趋势——人工智能化。
2.3 智能情报检索系统
理想的情报检索系统应为用户提供诸多方便,代替或辅助用户完成诸如选词、选库、构造检索式,甚至在情报数据库中进行自动推理查找等功能,而不仅仅是将用户提问与数据库内容进行简单的匹配。智能情报检索是一个较为理想的情报检索系统。
智能情报检索系统〔7〕, 是完全基于知识的全面的智能情报检索系统。它的知识库中除了检索专家的知识外,还将相关领域的情报内容以一定的知识表达方式存储在其中,系统对知识库检索推理的结果可以使用户得到能够直接加以利用的情报。它是建立在一个或多个专家系统基础上的情报检索系统。
目前,对全面的智能情报检索系统的开发都限制在一个主题范围狭窄、且专家知识比较容易获得的领域内,并力图使其达到实用。所以,扩大智能情报检索系统的主题范围将是今后的一个努力方向。
3 计算机情报联机检索
3.1 联机情报检索的现状
1983年,中国科技情报所设立了国际联机检索终端,建立了国际联机情报检索服务部,与世界上4大检索系统(美国Dialog、ORBIT、德国STN、欧洲SA)联机。截止1989年底,我国联机检索终端已达102个,遍布26个省、市、自治区的47 个城市, 与国外联机的检索系统已发展到16个。我国国内联机情报检索系统的建立是从引进国外文献数据库,提供回溯性检索开始的。目前,我国联机系统已初具规模, 其中较大的4个系统是:中国科技信息研究所的 ISTIC 系统, 北京文献服务处的BDSIRS系统,化工部情报所的CHOICE系统和机电部情报所的MEIRS系统。这些系统的联机检索终端已达上百个,遍布全国20多个省市。
3.2 联机检索的发展与展望
3.2.1 联机系统的进展 目前, 联机系统已在以下几方面取得成果:①人-机接口智能化;②图像检索;③自然语言检索;④数值检索;⑤集团化检索;⑥法定数检索;⑦新价格政策。
3.2.2 新媒体介入联机检索系统 目前, 已有很多新媒体介入检索系统,例如:①光盘产品,很多联机系统正在致力于把其数据库及检索软件光盘化;②多媒体;③超文本。
3.2.3 信息传视系统的发展
信息传视系统的出现使信息技术可以普及到各机关单位的办公室、教室乃至家庭生活中,大大促进了信息化社会的到来,可以预见,信息传视系统是联机检索的一个重要发展方向。
3.2.4 系统中的语言障碍将自动消除〔8〕 不同语言文字之间的天然障碍是阻碍国际情报检索普及与发展的首要因素。随着科学技术的迅速发展,这道天然障碍最终将会被人类的智慧所攻破。
同发达国家相比,我们存在着很大差距,但是经过数年来全国各个方面的努力,我国已在引进库、自建库、中国国家情报检索系统的建设等方面取得了很大发展,所以,只要我们从人、机、环境等方面去努力,我国的联机情报检索定会出现跳跃式发展。
4 情报检索策略
4.1 检索策略的制定程序
一般认为制定检索策略的程序应包括:明确用户提问意图、主题分析、选择系统、构造逻辑表达式、优化检索表达式。目前通常采用布尔逻辑符or、and、not表达检索标识间的逻辑关系,但检索出的文献不能保证一定符合用户的需求,它存在着难以克服的弊端。为此,人们进行了种种努力,如概率模型法、向量空间法、人工智能法、法定数法等。但迄今为止,尚没有采用任何其它的一种逻辑运算来替代布尔逻辑运算。
4.2 检索策略与检索效果的关系
检索策略与检索效果两者的关系密切而又微妙,只有正确把握两者的特性才能给以有效控制与调节,目前已在下面3 方面取得进展:①以查全为目标的检索策略的调节与控制;②以查准为目标的检索策略的调节与控制;③以最小投入为目标的检索策略的调节与控制。
4.3 专门类型检索策略
随着检索策略研究的逐步深入,对特定系统,特定数据以及某一类型课题的检索策略的研究也已开展起来,具体表现在以下两方面:①某一系统、某一数据库检索策略;②某一类型课题检索策略。
目前,关于情报检索策略在以下几个方面的研究均已取得进展:①检索策略失误分析〔9〕;②降低检索费用的研究; ③用户检索行为及用户培训;④现代信息技术在检索策略制定中的应用。我国的智能情报检索系统的研究已发展到了对检索策略的自动修改〔10〕。在检索表达式重构专家系统中,把知识库分为领域知识库和规则库。领域知识库是重新设计和构造的专业词表,是一种语义网络;策略规则库包含检索专家知识,使用产生式规则表示。其控制策略使用正向演绎推理,随着智能情报检索系统研究的不断深入,将来的检索策略将由智能情报检索系统来承担。
5 人工智能在情报检索中的应用
自从专家系统获得思想认识上的突破后,各种专家系统如雨后春笋般涌现,人工智能技术成了各学科专家和研究人员竞相角逐的对象。从80年代起,情报界陆续推出了一大批智能情报检索系统。
5.1 基于词表的智能情报检索系统
我国对词表在情报检索中的应用主要集中在全文数据库上,这与我国出版物的电子化处理和汉语自动切分技术的突破性成就有关。作为反映概念关系的知识实体词表,在智能检索系统中将充当知识库的角色。目前“湖北省地方志全文检索系统”〔10〕已具有后控式词表控制下的检索系统原型,并已准备在此基础上进行二次智能化、实用化。在未来的发展中,随着自动切分技术的实用化,用户利用自然语言与系统通信,通过语法分析,自动构造检索策略的智能情报检索系统将会达到比较完善的境界。
5.2 情报神经网络的应用
人工神经网络是一门近年来得到迅速发展的理论,它是人工智能的重要分支学科。目前我国已经研制出了情报神经网络系统模型〔11〕,并以存储和检索文献自动分词为例,使得神经网络应用于情报检索领域。
神经网络的应用研究,对30多年来一直困扰计算机科学和符号处理的一系列难题可以得到比较满意的解答,特别是对时空信息存储并行检索等已显示了其特有的能力。它具有崭新的模仿人脑神经系统功能的原理及其优越的性能特点,吸引了广大计算机研究人员和情报科学工作者。在情报科学领域引入神经网络技术,必将加速情报检索自动化、智能化进程。
5.3 特定自然语言的处理
自然语言处理〔12〕就是研究如何能让计算机推理并生成人们日常所使用的语言,目的在于建立起一种人-机之间的密切而友好的关系,使之能进行信息传递与认知活动。它是人工智能的一个研究分支,在几十年的发展中已形成了有效的理论和实用技术。目前,自然语言的处理技术已大量应用于全文检索,虽在全文检索中的自动标引、理解检索要求、概念检索方面取得了一些成果,但还需在以下两方面进一步努力:①现存的句法语义分析技术;②段落和篇章深层次分析技术。
5.4 知识表达
知识表达,尤其是人工智能中的各种知识表达方法在情报检索系统中有着广泛的应用领域,然而不同的表达方法,其潜在的应用领域也不同。文献〔13〕列出了不同知识的表达方法。完全用知识表达方式来描述文献是不可能的,因为所占存储空间太大,最佳的选择是将现有的情报检索系统与专家系统协调起来。
知识表达方法在情报检索系统中有着广泛的应用领域,我们要发挥和利用除文献以外的其它有效知识源,如:设立智能终端,建立用户模拟等,这些都是知识表达方法可以应用的领域,也是情报检索系统实现智能化的潜在突破口,有待于我们继续研究。
5.5 人工智能与人工神经网络的合璧
人工智能(AI)是从功能方面建立自己的理论体系;人工神经网络是从结构方面建立自己的理论体系。它们以信息处理作为共同的目标和特征,从两种不同的思维方式出发,相辅相成,构成了智能理论的完备框架。
文献〔14〕对以下两方面进行了研究:①智能研究中的宏观—微观—宏观—微观及功能—结构—功能—结构的轮回;②人工神经网络的知识处理——模拟人的经验思维,人工智能的知识处理——模拟人的逻辑思维机制。研究表明:只有把人工智能方法和人工神经网络加以科学综合,才可能产生更强有力的新一代智能系统。当然,人工智能和人工神经网络的合璧决不是简单的相加。
人工智能和人工神经网络的互补可以弥补人工智能和人工神经网络各自的缺陷,而它们两者的结合又显示了它们各自所没有的优越性。所以,人工智能和人工神经网络的合璧将会给人类智能研究带来希望的曙光。
5.6 情报检索合作专家系统
专家系统(ES)〔15〕通常是针对某一特定领域研究开发出来的,在某一特定领域内可以达到专家的业务水平,一旦超出了由知识库内容决定的领域,就完全失效,我们称为ES的“脆弱性”。同时由于一般的ES能够处理的问题狭窄,所以难以获得广泛的应用。为了克服ES的局限性,采用CES (Cooperative Expert System),CES是由若干个相近领域或一个领域的多个方面的子ES组成的,通过各子ES互相合作可共同解决一个更广领域的问题。正因为CES能拓宽系统解决问题的领域, 并使一些相关联的领域能用一个系统来处理,同时也由于CES 能克服单个ES的“脆弱性”,所以通过多个子ES的合作就可扩大整体ES解决问题的能力。CES的整体功能大于各个子ES功能之和,它将是新一代ES 的发展趋势,其前景广阔,必将在今后的应用中得到进一步扩充和完善。