国外知识检索研究进展,本文主要内容关键词为:研究进展论文,国外论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G252.7 [文献标识码]A
网络技术、通讯技术的飞速发展使得人们可以接触到的信息呈爆炸式增长,引发了信息过载、检索负荷加重等问题,急需的知识通常被实际不需要的信息垃圾淹没。Moran认为信息时代竞争力的关键不是实物资产或资源,而是知识,所以要像其他资产一样管理和利用知识[1]。本文就国外知识检索的研究状况进行综述,以期对我国的知识检索研究起到参考借鉴作用,加速我国的知识检索研究进程。
1 知识检索的定义
知识检索作为一个新兴的研究领域,近年来受到较多的关注,但国外关于知识检索尚未形成一个学界公认的权威定义,迄今为止主要有以下几种表述:
Davenport和Prusak将知识界定为经验、价值观、语境信息和专家见解的动态结合,为评估和吸收新的经验、信息提供了一个框架[2]。知识检索包括搜索和解码两个过程:搜索过程选择与特定问题或目标相关的信息;解码则重构(reconstruction)选定信息以满足用户的需求[3]。
Bin Zhu和Hsinchun Chen认为知识和信息是可互换的,信息一经头脑的处理就变为个人知识,当知识被通过人工制品描述和表现时,则成为信息。知识检索指发现和处理相关信息,并将其转化成为自己的知识,类似于Nonaka[4]所描述的知识创造四过程中的内化过程。
Blair指出数据检索和知识检索之间的区别在于检索结果的相关程度;检索速度的影响因素;检索效果的衡量标准[5]。
由上述表述可以看出,知识检索是一种高级的信息检索方式,是传统信息检索的继承和发展。知识检索将信息资源或知识库作为被检索的对象,通过用户提问与被检索对象的语义匹配等智能化检索方式准确选取用户需求信息,并以可视化方式呈现信息及其关系,实现信息向用户知识的转化。
2 知识检索的理论基础
知识检索的提出和发展借助于人工智能、语言学、信息科学和认知科学等多学科的先进理论与方法,它们为知识检索的实现,包括知识发现、获取、组织、呈现以及向用户个人知识的转变等各个方面提供了理论指导。国外对此进行了大量研究,并取得了相应的研究成果。
2.1 人工智能
人工智能(Artificial Intelligence)是有关智能代理的设计与执行的科学,关注人脑智能任务如定理证明、外貌识别、疾病诊断等的自动化。“人工智能依据人类的感知、推理、学习、语言和其他创造性思维活动,为科学、工业、文化领域有效的新研究工具的设计、构造提供有益的帮助。”“人工智能为自动信息搜索、知识表示、自适应、自主学习以解决问题、设计规划、自主分析、知识检索及发现等提供了理论指导。”[6]Vasant Honavar明确提出人工智能是知识检索智能化、自动化及其他相关知识活动的理论基础。
2.2 语言学
知识与语言之间存在着同构关系,知识是语言所表达的思想内容,语言是知识的表达工具。知识的表现有其特定的语言逻辑,相应的知识检索也必须遵循这些语言逻辑,语言学(Linguistics)为知识检索的过程和方法提供了必需的理论依据。Invention Machine Corporation(IMC)[7]根据语言学规律开发的语言数据库包括大量的基本词典与基于算法的复杂规则,对数据库中所有信息进行预格式处理(Pre-format)、词汇分析(Lexical Analysis)、语法分析(Syntactical Analysis)、语义分析(Semantic Analysis)和语用分析(Pragmatic Analysis),实现了机器自动阅读并理解文档内容,抽取检索提问的相关知识返回给用户,有助于提高知识检索的速度及准确度。
2.3 信息科学
信息科学(Information Science)研究人如何生产、搜索、检索和使用信息,特别是人与信息系统的相互作用。信息科学着重于许多不同性质的过程,包括人所面临的信息难题,如解决问题的水平、认识水平和知识水平,应用信息检索系统的查找行为,以及诸如反馈、相关性等互动性问题。Brookes[8]提出的信息科学的基本方程——△I+(S)=(S+△S)在信息处理和信息改变代理两个概念之间架起了一座桥梁,提出了信息与知识关系的框架,对研究信息的利用及信息向个体知识的转化指明了方向。
2.4 认知科学
认知科学(Cognitive Science)以认知过程及其规律为研究对象,研究领域包括:语言习得、阅读、话语、心理模型、概念和归纳、认知技艺获得、视觉注意、记忆、行为、计算机及其科学理论等[9]。Belkin的“知识非常态”理论、Dervin的意义建构理论等都注重知识获取过程中人的认知能力在构建概念体系方面的作用,特别关注在此过程中以用户知识需求为导向以及双方的交互作用。因而在构建知识检索系统时应考虑支持检索的认知过程和检索本身的认知过程的最优化方法。
3 知识检索的技术工具
知识检索模拟和扩展人类关于知识处理与利用的智能行为和认识思维方法,其得以实现的技术支撑是知识技术。知识技术集成知识采集、模型化、重用、检索、提供和维护的方法和服务[10],是信息技术的延伸和扩充。知识技术包括语义网、概念本体、信息检索方法、贝叶斯分类器、自然语言处理、基本代理技术、网格计算等等[11]。
2000年“英国工程和自然科学研究理事会”(EPSRC)发起的先进知识技术(AKT)研究计划的研究课题涵盖知识采集、知识模型、知识重用、知识检索、知识提供、知识维护六个方面。美国图形通信协会(GCA)主办的“2001知识技术会议”(简称KT2001)包括知识采集、知识模型化、知识交换、知识检索和导航、主题图、概念本体和分类体系、语义网等十个议题;KT2002会议议题包括知识表达/人工智能、知识组织和图书馆、Internet/语义网、机器学习、专家系统和代理计算、知识管理、文献资产管理。“知识技术(KT)”也成为“欧盟第六期研究架构计划”科研资金支持的“信息社会技术”优选研究项目的一部分,KT研究范围覆盖改进网上知识流(包括多媒体内容或人员通信中隐含内容)的先进技术。知识技术的相关会议文献和学术论文[12-18]中涉及的知识检索技术工具主要有以下几种:
a.语义网(Semantic Web)是对当前互联网的一种扩展,其通过使用概念本体和标记语言(如XML、RDF、DAML等),使互联网资源的内容能被机器理解,为用户提供智能索引、基于语义的知识检索和知识管理等职能服务。
b.智能代理(Intelligent Agent)是可以在用户没有明确具体要求的情况下,根据用户需要,代替用户进行各种复杂工作的代理软件,如信息查询、筛选、管理,并能推测用户的意图,自主制定、调整和执行工作计划,是实现知识检索自动化、智能化的基础技术。
c.语境检索(Context Retrieval)集成检索技术、查询提问和用户信息,为用户需求提供最佳答案。语境检索涉及三大语境维度:时间维度、社会维度和工作背景维度,提高了检索的语义、语用匹配程度,一定程度上弥补了传统检索技术返回结果相关度差的缺陷。
d.自然语言处理(Natural Language Processing)通过对自然语言文字与话语的语法、语义、语用进行分析,有助于实现基于语义而非关键词的检索。在知识检索中的作用表现在结合语境实现词义消歧,进行文档信息抽取,从文献语料库中抽取明确的自然语言提问答案。此外,自然语言处理已大量应用于自然语言接口,人—机交互模拟,人—人交互的认知功能,实现用户与系统之间更充分的交流、理解、学习与协作。
e.知识可视化(Knowledge Visualization)以科学计算可视化、数据可视化、信息可视化为基础,是所有可以用来建构和传达复杂知识的图解手段。知识可视化的目标在于传输见解、经验、价值观、期望、观点、预测等,并以这种方式帮助人们正确地重构、记忆和应用这些知识。知识可视化技术包括6种类型:启发式草图(Heuristic Sketches)、概念图表(Conceptual Diagrams)、视觉隐喻(Visual Metaphors)、知识动画(Knowledge Animations)、知识地图(Knowledge Maps)、科学图表(Scientific Charts)。
4 知识检索系统
实现知识检索的关键是构建知识检索系统,当前已有部分知识服务公司和研究者设计开发了一系列知识检索系统。下面是几个知识检索系统的典型实例。
图1 移动知识检索系统结构图
4.1 移动知识检索系统[19]
Dae-Keun Si等设计的基于语义网的移动知识检索系统能够通过便携电脑、手机等移动终端为用户提供高效、便捷的知识服务。该系统由阅读器系统、Java Web Start软件、普通搜索引擎和知识检索系统四个模块组成。阅读器系统是一个移动用户客户端程序;Java Web程序分配和管理网络上的阅读器系统;知识检索系统提供内容目录和检索服务;移动知识检索系统提供构建关键词所需的有意义的数据。如图1所示,用户界面可适应/容纳一般应用、网络应用和移动终端。每项应用基本上都是基于Axis框架,所以可以使用网络服务,同时又是基于Cocoon框架,支持WML,从而支持移动环境。该系统使用Java 2 API作为过程本体,并利用JDOM,DOM和SAX处理基本的XML数据。知识阅读器接到搜索请求,知识网络服务的服务器从相应的本体运行推理机,将结果转换成XML并返回给知识阅读器。移动用户可以通过知识阅读器查看想要的内容。
4.2 BEE-SMART知识检索系统[20]
语义网将知识和服务用结构化的机器可理解的方式编码,但由于没有足够的工具或应用揭示语义网中编码知识和服务的潜在语义关系,语义网的潜在优势无法充分发挥。针对这一情况,Yugyung Lee和他的学生设计了一个基于语义网技术的自然语言界面检索系统BEE-SMART。BEE-SMART应用语义网社区开发的可扩展工具,包括自然语言(AIML,Link42)、本体爬行器(RDF Crawler,Jena,etc)、本体查询和存储库(KAON,etc)、本体(SUO,WordNet,etc)和自行开发的本体搜寻器(OntoKhoj)、本体概念图和实例构建系统(OntoGenie)、本体列阵构筑知识(概念)原型系统,并且为用户提供了一个直观易用的简单聊天、知识提问和语义服务执行界面。系统从万维网和语义网中动态的提取知识,并应用语义网技术实现服务的搜寻及执行。
图2 BEE-SMART的体系结构
BEE-SMART的体系结构如图2所示:a.个人代理(Personal Agent Component)嵌有一个简单的基于交互询问模块的模式匹配,进行自然语言分析,形成检索提问。系统通过分析提问,确定提问的种类,决定下一步的检索路径走向KA或者SWS。b.知识助理(Knowledge Assistant)从KM在语义网中检索的知识构成的KB中搜索问题答案,辅助PAC解决用户知识需求。c.知识中介(Knowledge Mediator)在语义网上爬行并获取本体,进而在网页上提取信息为爬行本体生成本体实例。d.语义网服务(Semantic Web Services)连接到所有主要的UDDIs并搜索与检索提问匹配的服务。动态提取信息并呈现给用户,执行实时交互服务。
4.3 IMC知识检索系统[7]
Invention Machine Corporation(IMC)设计的知识检索系统包括四部分,如图3所示。a.自然语言界面(Natural Language Interface):用户可以用一个自由文本格式的检索提问进行查询。系统利用自然语言处理技术来解释用户提问,提取并重新格式化主导词,使用同义词字典实施扩展查询。b.文档检索(Document Retrieval):IMC用自动化的内部工具,以行业或领域为标准识别、聚类网站,进而检索文档。c.知识抽取引擎(Knowledge Extraction Engine):IMC的知识检索社区首创的“主体—行为—对象”模式,很好地解决了自动文摘和不遗漏重要信息两者难以兼顾的难题,优化了知识抽取效果。d.知识组织器(Knowledge Organizer):IMC开发了自动生成分类结构和知识索引的程序,组织相同类型的知识,方便检索。IMC采用两种不同的方法并行实现知识组织:主导词抽取和同义词数据库。
图3 IMC知识检索系统
此外,Stephen W.Ryan与Arvind K.Bansal建立的多媒体知识检索系统,后端是一个基于关联逻辑编程模型与异构分布式计算的高性能知识库引擎,前端包括一个便携式图形用户界面,一个解析/编译器,以及分布式知识库系统的查询管理系统接口,基于Java技术实现可携性,多媒体功能以及互联网的功能[21]。Verity公司开发的知识服务器能自动执行个人知识检索服务,如监测用户的搜索请求类型,然后从信息服务器转发适当的项目/条款到用户的电子邮箱账号或个人网页[22]。
上述知识检索系统的工作机理和运行环境存在很大差异,但它们的基本构件无外乎本体(OntoloSy)、知识获取代理(Knowledge Acquisition Agent)、文档库(Document Repository)、元数据库(Metadata Repository)、知识库(Knowledge Base)、搜索引擎(Search Engine)、内置措施(Built-in Measures)、推理引擎(Inference Engine)、用户界面(User Interface)。而且知识检索系统一般都能够实现:a.检索并显示与提问相关的文档。b.展示概念及概念关系的说明。c.回答问题。
5 知识检索的研究热点
知识检索是一项复杂的系统工程,涉及工具开发、系统设计、过程控制等诸多方面。通过对现有文献的分析,我们发现目前知识检索的研究热点集中在CBR、知识库、本体论和过程感知知识检索等方面,它们也代表了今后的研究趋势。
5.1 CBR
案例式推理法(Case-Based Reasoning,简称CBR)通过应用或调整已有案例的解决方案来解决新问题。CBR由连续的六个工作步骤构成:a.检索与待解决问题类似的案例;b.重用类似案例推荐的解决方案;c.修改或调整解决方案以更好的适应新问题;d.考查新的“问题——解决方案”案例是否有价值作为一个新的案例保留;e.保留步骤4中有价值的解决方案;f.完善案例库索引和特征权重。
Dubitsky等构建了包含多种异构案例的CBR仓库,并利用本体解决案例库之间的语义差异。通过单一的CBR检索系统在异构知识来源中检索案例[23]。eGain(www.egain.com)开发的eGain知识网关,经由一个界面实现无缝获取多种知识。eGain应用CBR检索基于用户自然语言提问的解决方案,可实现对Lotus Notes数据库,Microsoft Office文档,HTML和PDF文件,e-mail以及其他格式信息的知识检索[24]。
Doug Warner指出CBR基于更加结构化的知识,能够更好地复制“症状/目标/诊断/补救”过程,进行快速高效的知识检索,但此解决方案的致命缺陷是其应用的复杂性和管理与维护的高昂成本[25]。
5.2 知识库
知识库(Knowledge Base)是一种在线的、基于计算机的,有关某一专门领域的专家意见、知识、经验等的文件仓库,是对各种来源信息的收集、归纳和综合。
Philippe Martin和Peter W.Eklund提出并构建了WebKB。WebKB通过应用可视化技术,避免词汇(主要是术语别名)冲突,并且让使用者集中于某类知识;应用制定协议,允许使用者在通用本体中插入新的术语和关系解决语义冲突;应用知识表示协定,改进来自不同用户知识的自动对照关系、提高一致性和检索效果[26]。面向欧盟第六期研究架构计划方案协商会议的会议文献指出,知识库集采集、管理、检索和发布数字化、多媒体内容、知识库用法信息汇编、分析于一身,是新型协作式、基于社区的知识系统的核心[27]。知识库组织知识信息的方式影响检索策略构建、工作流程及检索结果的输出,在知识检索中具有举足轻重的作用。开发功能科学、系统完善的知识库成为当前研究的重中之重。
5.3 本体论
本体论(Ontology)在知识检索中的应用是最新出现的研究热点,代表了知识检索的最重要研究方向。“本体论是关于共享概念的协议。共享概念包括对领域知识建模的概念框架、可互操作的系统通信协议和特定领域理论的表示协议。在知识共享环境中,本体论以定义表达词汇的形式来获得描述。”[28]本体论反映某一特定领域的通用观点,是该领域中的概念以及这些概念间关系的集合,关系反映了概念间的约束和联系。
领域本体作为某领域的通用概念化知识,往往用来详细说明组织的工作领域。Fensel,Staab,Studer等建议基于领域本体架构知识的本体论结构以支持企业环境的知识检索[29]。
D.R.Liu等提出了一种基于任务的知识支持(KSupport)系统以获取、组织、传播组织的知识资源。基于任务的信息被概念化到本体,本体被用来作为一个概念中枢组织知识资源并支持知识的获取[30]。
Johannes和Robert开发了基于本体的知识检索平台Melvil,提供一个三维可视化的搜索结果。用户可以通过改变屏幕上各种参量的设置,定制检索结果的表现形式[31]。
5.4 过程感知知识检索
过程感知知识检索(Process-Aware Knowledge Retrieval)提供了一个框架将信息获取的负担从用户转移到了电脑。通过明确描述过程和过程信息,过程感知知识检索使计算机可以作出关于知识和信息来源的高度针对性的建议,同时协助工序的完成。一个过程感知知识检索框架由过程描述、知识源结合体和整合过程感知检索与现行工具的具体运作平台机制构成,具有过程库、知识来源库、监测框架、自动控制、过程识别功能。此五项功能实现系统观察用户行为,在恰当的时机为用户提供帮助[32]。
Phil Oertel和Eyal Amir提出的辅助自主决策制定的常识知识检索方法,实现了代理器对两类知识的查询:领域提问,返回代理器认为能起作用的相关概念与公理;路径提问,返回描述当前情形与目标的概念和公理[33]。
过程感知知识检索变被动检索服务为主动检索服务,真正实现了知识检索的智能化,是知识检索的主要研发方向之一。
6 结束语
综上所述,国外知识检索的理论研究和实践应用已取得了一定的进展。研究者对知识检索的概念探讨较少,但已基本达成共识;理论基础研究也比较完善;技术工具研究引起了极大关注,知识技术获得了很好的应用与改进;设计开发出一系列知识检索系统并已投入使用。但也存在一些问题,如尚未形成系统的理论框架,也没有提出知识检索的基本机理和构建知识检索系统的一般模型,研究过于分散,形成了研究的丛林。研究成果以实证研究为主,说明知识检索研究还处于实践探索阶段,有待于向更高层次的理论抽象、归纳总结阶段过渡。
此外,知识检索系统的可用性评价研究相对匮乏,缺乏可操作性的研究成果。今后在知识检索系统的可用性评价研究中应融入用户研究、人机交互、系统设计等知识,从ISO提出的有效性、效率和用户满意度等方面进行评价[34],使知识检索研究更为完善和科学。
(收稿日期:2008-02-22)