我国智能情报检索研究的回顾与展望,本文主要内容关键词为:情报论文,我国论文,智能论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
把现代人工智能的技术与方法引入情报检索系统,使后者具有一定程度的智能特征,在更高的层次上完成其功能,这样的系统就是新一代的情报检索系统——智能情报检索系统。[1]国外已投大量人力、物力和财力致力于这方面的研究,我国情报界也紧紧跟上,对智能情报检索开展了许多工作。
根据笔者对《全国报刊索引》的统计,我国15年来对智能情报检索的研究呈现出低谷——高潮——低谷的循环发展趋势。见表1、图1。
表1
1984-1998年我国发展的有关智能情报检索的论文统计
年代1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 总计
论文篇数
1 4
3 5
101110 7
2 3
4 3
6 3
3 75
所占比例(%) 1.33 5.33 4.00 6.67 13.33 14.67 13.33 9.34 2.67 4.00 5.33 4.00 8.00 4.00 4.00 100
(1)初步形成时期(1984-1987)。
计算机、通信、知识库等现代技术的迅猛发展,日益改变着人们的工作和生活方式,尤其是被称为人类三大尖端技术之一的人工智能技术的出现和发展,更给人类社会的进步注入了“催化剂”。在这种情况下,传统情报检索在理论和实践方面都受到了强大冲击,表现出许多其自身难以克服的弊端。情报界人士都在思考,情报检索的出路何在?
智能情报检索就是在这种背景下提出的。国外从80年代起就如雨后春笋般地陆续推出一大批智能情报检索系统。我国情报工作人员也紧紧跟上,从80年代中期开始了对智能情报检索的研究。
(2)发展高潮时期(1987-1991)。
人工智能技术经过几十年的发展,在80年代未达到了高潮。这也为我国智能情报检索研究的繁荣提供了客观基础。从国内来看,这也是我国情报学发展的黄金时期,大量情报学文献在此期间问世,当然也不乏进行智能情报检索研究的文献。
(3)逐步回落时期(1991——)。
人工智能毕竟不是一般技术,智能情报检索也是一项难度较大的课题,在人工智能没有突破性进展的情况下,其应用领域也不会有大的进步。这一时期,智能情报检索不可避免地受到影响。另一方面,因特网在90年代初引入我国,全国上下一下子把注意力转向网络化,情报检索也不例外,网络检索迅速成为国内研究热点,智能情报检索逐渐被冷落。于是,我国对智能情报检索的研究开始原地踏步,甚至回落,从高潮走进了低谷。
1 我国智能情报检索研究的现状
(1) 对智能情报检索系统的认识与理解。
①智能情报检索系统是建立在大规模的知识库基础上,有一个强有力的推理机,并且能用自然语言与用户交流的计算机检索系统。此系统能在已知情报的基础上,推理出系统没有明显表示出来的情报。此外,系统自身还具有学习和自适应能力。②在认为智能情报检索系统应具备知识库和推理机制的同时,强调智能情报检索的检索结果是用户能够直接加以利用的情报,与传统情报检索为用户提供的间接的文献线索相区别。前者可以免去用户再去查找相关文献的重复活动。③认为智能情报检索系统的智能因素不应仅仅定义在检索的执行过程中,还应体现在提问模型的形成过程中,即根据用户对问题的描述,借助于知识库里的有关知识,推断出他的真正需求,并形成提问模型。
(2)对智能情报检索系统基本结构的认识。
归纳概括我国大多数研究者的观点,智能情报检索系统主要由三部分组成:智能接口部分、知识库部分和文本处理部分。见图2。
①智能接口部分。智能接口是用户与系统之间的通道。它的主要功能是:对自然语言查询的处理;作为智能终端建立用户兴趣档案;加工检索结果。
②知识库部分。知识库是智能检索系统的核心。它也由三个子系统构成:知识库系统;数据库系统;检索推理系统。
③文本处理部分。
文本处理系统就是利用计算机自动处理自然语言形式的文本输入。它利用知识库中的语言学知识、科学知识和其他知识,对文本进行语法、语义分析,从内容上理解文献所论述的主题,并把它们表示成知识库中的知识和数据库中的数据元素,不断地丰富目标知识库和数据库。[2]
(3)智能情报检索与传统情报检索的比较研究。
①传统的情报检索系统要求用户将其情报需求用规范化的语言来表达,并以严格的格式输入系统;智能检索系统能理解、分析用户的自然语言提问,并产生合适的提问模型,用户与系统间可以进行自由、充分的反馈交流,直到获得满意的结果。
②传统的情报检索系统中,文献标识是根据词频统计得出的,标引时只利用了文献的字符形式,未涉及文献的内容本身,所以标识往往不能反映文献的真实内容;而智能情报检索系统具有处理自然语言文本的能力,它利用知识库中的有关知识进行语法、语义分析,从内容上真正理解并准确描述文献所论述的主题。
③传统的情报检索系统不能够很好地处理主题概念、标识之间的各种联系和因果关系;而智能情报检索则可以在知识库中使用语义网络、框架等各种知识表示方法来充分体现这些关系。
④传统的情报检索系统的检索结果只是一些文献线索,指引用户去获得原始文献,而智能情报检索系统可以将部分文献内容以知识形态存放于目标知识库中,通过对知识库的搜索和推理,得出用户能够直接加以利用的情报[3]。
⑤传统的情报检索系统缺乏适当的人机交互。这种交互只限于"YES"、"NO"或“菜单式”。情报检索实质上是用户询问和文献集合之间的匹配,用户的参与应该是整个情报检索过程的中心,只有用户充分地参与了情报检索过程,才能取得满意的效果。智能情报检索系统采用自然语言实现人机通讯,检索过程中用户和计算机之间可以不断地进行自由、充分、多方面的反馈交流,具有较高的人机交互水平。[4]
2 当前我国智能情报检索研究的重要课题
从笔者对1984-1998年的《全国报刊索引》中的相关文献进行的统计(如表2)。可以看出,15年来我国智能情报检索的研究课题中对智能情报检索系统的整体研究。对自然语言理解的研究和对专家系统的研究占据了很大比例,无论是阐述自己的观点,还是译文,我国研究者都在这三个方面用墨颇多。虽然也有文献对超文本技术和知识表达技术进行了专门的探讨,但是,所占比例很小。具体情况可以从以下几个方面加以叙述:
表2
1984-1998年我国智能情报检索系统研究课题统计
对自然对知识
整体研究
语言理
对专家
对超文
表达技
总计
解的研
系统的
本技术
术的研
究研究
的研究
究
论文篇数 27
17
17
10
4
75
例(%)
36.00
22.67 22.67
13.33
5.33
100
(1)智能情报检索专家系统。
①介绍国外专家系统实例。如:文献(5)从系统概述、知识表示、检索与推理和自然语言接口等四个方面介绍了法国国家科学研究中心人文科学信息实验室的Gian Piero Zarri领导研制的智能情报检索系统RESEDA,还有文献(6)中所介绍的中医专家系统、文献(7)中所附三个智能情报检索实例以及文献(1)中对CANSEARCH系统的介绍等。这些文献都通过对特定专家系统实例的介绍,叙述了专家系统的鲜明特色及其在情报检索中的广阔应用前景。
②构建具体专家系统模型。如,文献(8)、文献(9)、文献(10)等都对具体的情报专家系统进行了介绍。
③论述专家系统对情报检索系统的影响及在情报系统中的应用。如,文献(11)中所论述的专家系统对上题分析、标引工作的影响,还有文献(12)、(13)等都是有关这方面的介绍。
但是,无论采用那种方式,这些研究都对以下内容进行了探讨:建立智能情报检索专家系统的必要性和可行性;对智能情报检索专家系统结构的初步设想;智能专家系统的功能及应用。
(2)自然语言理解和知识表示。
自然语言处理技术是知识获取、知识表示技术的基础,也是实现完全意义上的语言提问的基础,其研究水平的高低决定了人工智能技术的发展水平。[14]
①自然语言理解。
目前我国的智能情报检索研究基本上都在分析现行情报检索系统弊端的基础上,提出了计算机进行自然语言理解和加工的必要性。传统的情报检索系统实行呆板的匹配机制,着重强调语法的一致性,这就在很大程度上限制了用户自由表达真实的情报需求,在情报解答的传输过程中也存在严重的失真问题。认识到传统情报检索的局限后,致力于智能情报检索研究的工作者纷纷将目光转向自然语言的理解和加工。我国许多有关智能情报检索系统的文献都以一定篇幅探讨了自然语言理解问题,有一部分文献还专门研究这个问题,通过表(2)的分析足以证明自然语言理解问题已引起了界内人士的普遍关注和重视,并有望成为解决现行情报检索系统弊端的有效途径。
我国有关这方面的研究主要包括以下几个方面:智能情报检索与自然语言理解的关系;自然语言理解检索的必要性;自然语言理解检索的可行性;自然语言理解检索的困难与对策。
研究者普遍指出:加强计算机对自然语言的理解,为情报检索注入智力因素,变传统的语法一致匹配为语义相符的检索,创造良好的人机界面,使用户与系统的交流就像人与人的对话一样亲切、自然。这是新一代智能情报检索的主要特征。当然,在实现的道路上还有许多困难,我们期待着基于自然语言理解的、完善的智能情报检索系统的早日到来。
②知识表达。作为人工智能的核心技术,知识表达技术就是要实现计算机对知识的合理组织,并进行形式化描述。
国内发表的文献中通常包括以下一些知识表达方式:[15]产生式规则表示法:将与问题有关的知识表达为相应于知识库、规则库和推理机三部分的一种结构化知识;框架表示法:通过框架名、槽和约束条件三部分,对知识做结构化表示;一阶谓词逻辑表示法:运用谓词将客观事物的状态、属性以及事物之间的关系等表示出来;语义网络表示法:把比较简单的事物和知识联系起来,形成对更复杂对象的描述。
此外,还有状态空间搜集、过程表示、关系表示法等。
一个智能情报检索系统在解决问题时可能会遇到不同行业和领域的用户,因此,这个系统就需要许多不同类型的知识。那么,在设计系统的知识库时,就应根据用户的知识类型和特征,选择恰当的知识表示方法。设计标准主要取决于:知识表达方法相一致:考虑问题求解时的应用效率。[16]
(3)超文本技术。超文本(HYPERTEXT)兴起于80年代,是情报技术的一个新兴领域。自从V.布什提出建立联想检索文献的机器设想以来,许多科学家在这方面进行了不懈的探索。由于技术上的原因,超文本未能付诸实施。后来,随着计算机技术和通讯技术的发展,超文本的研制引起了人们的极大兴趣。[17]最近10年来,国内情报界已陆续有这方面的文献发表。这些文献主要在介绍国外超文本技术发展概况的基础上,对超文本系统在智能情报检索中的应用原因作了分析,阐述了超文本技术用于情报检索的优越性。
超文本技术不仅是一种友好接口技术,而且是一种新的情报检索模型。国外对超文本技术的研究投入了大量人力、物力和财力,并取得了令人鼓舞的成果。在这方面,我国与国外相差甚远,因此,我们情报界同仁也应积极注视国外的水平动向,努力在系统设计中采用先进的技术。
(4)智能情报检索系统的理论基础——认知科学。
国外已把认知科学作为智能情报检索系统的理论设计基础,如METACAT利用“口头协议”、“发生思维”等实验方法,观察、记录、询问、分析受试用户的心理行为,形成情报检索过程中的“问题行为图”,从而归纳了五种检索策略,形成METACAT智能检索系统,且经过测试,查准和查全性能均高于STAIRS和MEDLARE。[18]
我国有关这方面的研究还不多,有人工智能专家将认知科学作为智能检索技术的理论基础,而明确将认知科学作为智能情报检索系统设计基础的,可见于文献(7)。该书作者阐述了将认知科学作为智能情报检索系统的设计基础的四点原因,并呼吁情报界“是该拿起认知科学的钥匙去打开人类知识时代大门的时候了”。[19]
3 我国智能情报检索研究的总体特征
(1)以介绍与引入国外先进技术和理论为主。纵观这些年来我国发表的有关文献不难发现:我国的智能情报检索研究几乎都是在国外智能情报检索理论的影响下进行的。有些文献是关于国外智能情报检索系统的专门介绍,如:文献(5);有些则是直接翻译国外文献,如:文献(20)等。
(2)理论研究多于实际操作。目前,我国对于智能情报检索的研究还只是处于理论描述阶段,切实可行的智能情报检索系统仍为空白。虽然国外在这方面的研究也处于实验试制阶段,但是,已经在较窄的范围内取得了可喜的成绩,如:NIPX—帮助查CN的专家系统;IR-NL-2会话文献检索专家系统;PLEXUS—专家咨询系统等(21),并且在智能检索的研究领域投入了大量人力、物力,期待着更多的突破。因此,我国情报界应紧紧跟上时代的步伐,不要落在后面。
(3)在某些观点上仍存在分歧。通过上面对我国智能情报检索研究情况的总结,我们可以看到,目前我国的智能情报检索研究呈现出百家争鸣的局面,在某些观点上尚未达成一致。这也是阻碍我国智能情报检索事业繁荣的一个难题。
4 我国智能情报检索系统实现的难点
(1)人工智能技术本身的不成熟。人工智能技术本身还有许多不完善的地方,这主要包括两个方面:①知识的获取与表达技术。目前,如何使复杂多样的专业知识形式化是较难解决的问题。此外,如果把人工智能技术应用到一个多学科综合的检索系统中,如何辨别某多义词当前的具体含义?如何了解用户特定的需求?这些都有待于继续研究;②受来自自然语言处理技术方面的局限。要想使计算机准确地分析、获得、表达并传输知识,就必须使计算机具备理解自然语言的能力。目前对自然语言的处理,虽然已从语法阶段上升到语义、语用阶段,但要从完全意义上理解自然语言,仍很棘手,对自然语言的理解能力还限制在一些规定的语句和语法范围内,这就决定了智能情报检索系统所能具有的智能化程度。[22]
(2)情报检索系统本身的障碍。
①情报检索系统所面对的用户来自不同专业领域,知识层次也各不相同,对其进行合理定位是一个难题。②情报检索系统涉及的专业知识广博而丰富,将诸多知识形式化并不是一件简单的事。③情报检索专家系统不易建立。不但这些专家的经验和技术很难准确的表达出来,而且不同的检索专家很可能持不同的观点,于是对专家系统的建立造成了诸多不便。
(3)除去上述客观原因外,我国并不发达的情报技术也制约了我国智能情报检索系统的发展。我国在人力、物力上的投入也不够,这也是造成我国智能情报检索研究进展缓慢的原因之一。
5 几点建议
(1)将认知科学作为智能情报检索系统的理论设计基础,拓宽人们的思想,加快智能情报检索系统的建设步伐。
任何一门研究都要有其科学的理论基础,智能情报检索也不例外。认知科学的一个来源是认知心理学(脑信息加工心理学),它所进行的理论研究如:自然语言接口,信息的表达与组织,搜索程序与智能情报检索系统所进行的研究是重合的;其解题系统在模拟人脑信息加工上几乎与智能情报检索系统没有区别,可以说同构同质,所以摆脱了唯心主义和形而上学的认知科学无疑应是智能情报检索的理论基础。[23]
(2)成立专门的智能情报检索小组,将智能情报检索系统的建立作为情报界的一件大事来抓。只有这样才能使智能情报检索的研究工作进入到有组织、有规划、有方向的轨道上来,从而打破原来那种“一盘散沙”似的研究方式,使我国的智能情报检索研究向着系统化、高效化的方向发展。
(3)加强情报教育,提高研究人员的科技水平,改善其知识结构。
建立智能情报检索系统的关键在于知识的发展和技术的进步。谁首先掌握了人工智能技术、突破了知识表示和自然语言理解等方面的局限,就等于谁在智能情报检索研究中提前迈进了一步。因此,我国应该从最本质的地方入手,提高研究人员的知识水平,争取在知识、技术方面赶超其他国家。
(4)加强研究人员之间的交流与合作,互通有无,争取实现观点上的一致。
这也是至关重要的一点。因为通过研究人员之间的交流与合作,可以免去不少无必要的重复工作,从而节省下宝贵的时间,进行其他更有意义的研究。
(5)摆脱思想束缚,将理论与实践紧密结合起来,在实际工作中寻求理论上的突破。理论与实践是不可分割的统一体,二者相互依存,相互影响。因此,要将二者结合起来,充分重视它们各自的重要作用,争取实现智能情报检索研究的整体突破。
我国的智能情报检索研究还处在起始阶段,未来的路还很长,其间也必然会有许多困难。但是,建立“知识大厦”更有意义,它将使人类长久的受益,[24]我们期待着新一代的情报检索系统——完善的智能检索系统早日出现。
收稿日期:2000-7-1