数字参考咨询系统中范例库建设初探,本文主要内容关键词为:范例论文,数字论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
纵观当前国内外主要的数字参考咨询系统,不难发现知识库在整个系统中起着举足轻 重的作用(如图1[2,3]中a和b),它是数字参考咨询系统的知识中枢,是系统经过长期 运行后知识精华的凝聚,是实现知识共享的支撑点。然而就目前实际应用来看,各数字 参考咨询系统中的知识库主要还只是存放相关FAQ和问答结果集的数据库,虽然可以实 现对问题的检索,但智能性欠佳,缺乏推理机制,与人工智能领域所探讨的知识库还存 在较大差距。而计算机应用系统是朝着自动化、智能化方向发展的,因此从知识库在数 字参考咨询系统中的长远发展来考虑,我们认为应当建设一种既符合数字参考咨询系统 具体应用需求,又能提高系统自动化、智能化的知识库。基于此,范例库就是一个不错 的选择,相应的推理机制则是基于范例的推理(Case-Based Reasoning,CBR)。
基于范例的推理是80年代末90年代初人工智能中新崛起的一项重要技术,是一种基于 过去的实际经验或经历的推理,即它是由目标范例(当前所面临的问题或情况)的提示而 获得记忆中的源范例(过去的实例或经验),并由源范例来指导目标范例求解的一种策略 。所有源范例的集合即形成范例库。CBR来源于人类的认知心理活动,属于类比推理方 法,其基本思想是基于人们在问题求解中习惯于运用过去处理类似问题的经验和获取的 知识,再针对新旧情况的差异做相应的调整,从而得到新问题的解并形成新的范例。自 90年代以来,CBR技术已被广泛应用在各个领域建立智能系统,如计划、决策制定、错 误诊断等。在一些不能或者不便于用数学模型表示的领域,这种方法特别有效,例如医 疗诊断、法律应用、气象灾害预测等领域。
鉴于数字参考咨询系统所服务的领域主要为图书情报,无须高深的数学模型来表示; 其对象主要为广大读者和信息用户;服务方式主要是通过与用户进行问答形式的交流; 形成的问答结果集可以复用等特点,我们认为,将系统中的知识库建设成为范例库的形 式,利用CBR技术,是切合实际的。它可以使系统知识库(范例库)具有知识获取容易, 信息表达完全,能够进行增量式学习,形象思维的准确模拟,求解效率高,实现简单等 优点。而目前图书情报界对数字参考咨询系统中范例库的专门研究甚少,本文试图从这 一角度进行一些探讨。
2 DRS系统中的范例库建设
如果把数字参考咨询系统中的知识库建设成为范例库形式,那么其中基于范例推理的 结构示意如图2,它主要关心如下5个问题:
(1)范例的表示[1]。范例内容一般有如下三个主要组成部分:
①问题或情景的描述,即范例发生时要解决的问题及周围世界的状态;
②解决方案:对问题的解决方案;
③结果:执行解决方案后导致的结果(周围世界的新状态)。对于DRS系统来说,问题或 情景描述和解决方案是必不可少的部分,而结果部分可根据具体系统酌情考虑。当然, 范例表示还涉及选择什么信息存放在范例库中,如何选择合适的范例内容描述结构,范 例库如何组织索引等问题。
(2)范例库的构造。目前来看,主要是从DRS问答历史数据库中获取范例,构造出一个 丰富、有效、尽可能减少冗余的范例库。这是CBR中亟待解决的难题之一。
(3)范例的检索。即从范例库中找到一个或多个与当前问题最相似的范例。它通过三个 子过程——特征辩识、初步匹配和最佳选定来实现。
(4)范例的复用[1]。把检索到的旧范例的解答复用到新问题或新范例中,需要比较所 给问题和范例库中范例,得到新旧范例之间的不同之处,然后回答哪些解答部分可以复 用到新问题之中。对于简单的分类问题,仅需要把旧范例的分类结果直接用于新范例, 无需考虑新旧范例之间的差别;而对于问题求解类的问题,则需要对领域知识的深入理 解,根据范例之间的不同对问题进行调整。此外,当复用阶段产生的求解结果不好时, 需要对其进行修正。修正一般有这样几种形式:在旧解中增加新的内容,或从旧解中删 去某些内容,或对旧解中的某些内容进行替换,或对旧解中的某些部分进行重新变换。
(5)范例库的维护[9]。当DRS系统范例库不断增大时,带来的好处是容易找出相同范例 或相似范例,减少修正的次数与时间,但带来的缺点则是范例的冗余度也随之增加,其 中有的范例可以用其他范例来替代,有的是噪音范例(错误的范例数据)。当检索相似范 例的代价迅速上升且超过了它所带来的效益时,就会出现“沼泽问题”,即范例库的功 能维护问题。
对于上述5个问题,其中范例的表示可以通过关系数据库、语义记忆网、层次表、框架 、二维矩阵等来实现,本文不再赘述,文中重点讨论范例库的构造和维护以及范例的检 索和修正。
2.1 DRS系统中范例库的构造
要从DRS系统问答历史数据库中提取范例,传统的方法可能需要领域专家手工积累,耗 时长,代价高。而就目前计算机技术的应用来看,采用合适的数据挖掘技术从历史数据 库有效地提取范例,将不失为一种可行的方法。
定义2所有可能的问答类型F = {F[,1],F[,2],…,F[,v]},其中Fi可以是单个问答或 几个问答的组合,v是所有可能问答的类型数。
定义3一个范例被定义为二元组:(Pr,FTt),其中的Pr是问答模式,FTt是相关问答集 合。
在DRS系统中,从问答历史数据库从挖掘关联规则的任务是:确定F中哪一类型问答FTt 发生,从C中寻找合适的模式Pr,并发现Pr与FTt任何可能的关联关系。
根据参考文献[5],可将数据挖掘技术中的离群分析、聚类、分类技术用来从历史数据 库中构造范例库。如图3,算法首先对数据库中离群数据进行挖掘,提取离群数据(离群 数据的发现,往往可以使人们发现一些真实的、但又出乎意料的知识,所以这样的数据 应该予以保留);然后采用聚类方法来从数据库中发现初始聚类;接下来再用C4.5算法[ 10]对聚类进行分析,合并相似的聚类;最后从每一类中随机提取范例,形成范例库。
值得说明的是[4,7]:
(1)在数据库中生成聚类,识别出的聚类代表范例库中不同的概念,每个概念都可以识 别出问题领域的一个子集,每个概念的相关特征项可能都不同,从而使得为每个概念所 建立的范例都可能会有着不同的结构,同时不相关的特征项被删除掉。领域专家提供的 领域专业知识可以用来将属于这个概念的数据库映射到概念范例空间中去;
(2)在识别出数据集中的聚类后,要研究这些聚类,从而确定出这些聚类是否有差别, 也就是说是否存在相似的聚类可以合并。
在这一阶段采用了下面的启发式:如果一个聚类中相当多的记录被识别为另一聚类, 则可以认为这两个聚类具有很大的相似性。由此,可以利用C4.5算法尝试推导出一个带 有一些应变量的决策树,这些变量是数据集中每个样本所属聚类的代表值,可采用维持 样本技术使得从C4.5中获得的决策树有效。整个数据集的1/2为维持样本,而1/2作为训 练样本。相似的聚类被结合起来,形成一个可用的概念。找出的所有离群值都被区分开 来,每个离群值就是一个范例。最终,我们会从每个概念中选择一个元组,使之成为范 例库中的一个范例。此阶段可以重复进行,即分析聚类,结合聚类,形成概念,如是正 确的概念即选择一个范例,否则再重新进行本阶段的操作。其中用概念而不用聚类作为 应变量。
2.2 范例的检索
当接受了一个求解新问题的要求后,DRS系统中的CBR利用相似度知识和特征索引从范 例库中找出与当前问题相关的最佳范例,它通过三个子过程——特征辩识、初步匹配和 最佳选定来实现[1]。
特征辩识是指对问题进行分析,提取有关特征。DRS系统中采用的特征提取方式有:
(1)从问题的描述中直接获得问题的特征,即用自然语言对问题进行描述并输入系统, 系统可以对句子进行关键词提取,这些关键词就是问题的某些特征;
(2)根据上下文或知识模型的需要从用户那里通过交互方式获取的特征,系统向用户提 问,以缩小检索范围,使检索的范例更加准确。
初步匹配是指从范例库中找到一组与当前问题相关的候选范例。这是通过使用上述特 征作为范例库的索引来完成检索的。由于一般不存在完全的精确匹配,所以要对目标范 例(当前问题)与源范例之间的特征关系进行相似度估计。要计算两者之间的相似度,必 须考虑组成一个范例的各个属性相似度综合在一起形成的效应。范例的相似度常常通过 距离来定义。常用的典型距离定义有:
①绝对值距离:
如果我们为相似度设置一个阈值B,则当计算出的CB(i)和CB(j)间的相似度SIM[,ij]≥ B时,可将CB(j)作为候选范例。
最佳选定是指从初步匹配过程中获得的一组候选范例中选取一个或几个与当前问题最 相关的范例。这一步和领域知识关系密切。可以由领域知识模型对范例进行解释,然后 对这些解释进行有效测试和评估,最后依据某种度量标准对候选范例进行排序,得分最 高的就成为最佳范例。
2.3 范例的修正
范例修正的第一步是对复用结果进行评估,如果成功,则不必修正,否则需要对错误 和不足进行修正。修正过程的输入是当前的问题描述和不太正确的建议解,输出是更适 合当前情景的较好的解答。
修正有四类方法:替换法(Substitution)、转换法(Transformation)、特定目标驱动 法(Special-purpose Adaptation and Repair),以及派生重演法(Derivational Replay)。其中,替换法是把旧解中的相关值作相应的替换而形成新解;转换法可使用 常识性启发式从旧解中替换、删除或增加某些组成部分,也可通过因果模型来指导如何 转换;特定目标驱动法主要用于完成领域相关以及要作结构修改的修正;派生重演方法 则是使用过去的推导出旧解的方法来推导出新解[1]。
假设DRS系统中已存在一个范例库CB,参考文献[6],可以得到相关范例修正算法,算 法的核心是比较范例间的差异,将范例特征的比较结果作为新规则的前件,范例间的结 果比较作为新规则的结论部分,从而得到相关修正规则。
当新问题得到了解决时,则形成了一个可能用于将来的情形与之相似的问题样本,这 时有必要把它加入到范例库中,即保存范例。此过程涉及选取哪些信息需要保留,以及 如何把新范例有机地集成到范例库中,并且会涉及到范例库的组织和管理方面的知识, 文中不再讨论。
2.4 范例库的维护
范例库的维护涉及到:范例的增加与删除,范例库结构的调整,范例库的更新,索引 机制的调整等。我们重点考虑当范例不断增加到范例库中时,整个系统的能力和效率如 何保证的问题。常用的办法是在CBR求解的各个过程中进行信息过滤,但由于这种选择 性过滤的方法容易造成系统性能下降,检索时间增长,为此,我们推荐使用基于数据挖 掘技术的范例库维护策略,类似于范例库的构造过程,采用数据挖掘技术中的离群分析 、聚类、分类技术,不但可以实现对范例库的维护,而且保证了系统的学习不会影响系 统性能。相关文献可参考文献[8]和文献[9]。
3 总结
数字参考咨询系统是建设服务主导型数字图书馆的重要支柱,在数字参考咨询系统中 引入范例库无疑将提升系统的性能,使数字图书馆的服务水平又上一个新台阶。
作者E-mail:olay05@swnu.edu.cn
标签:聚类论文;