基于语义相似度的公共危机事件案例检索方法,本文主要内容关键词为:语义论文,危机论文,案例论文,事件论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 案例(case)是对研究领域中某个特定的具体事件以及与事件相关的环境、状态特征、事件结果以及特别情节的记录和描述。案例库(case database)通俗地讲是案例存放的仓库,是一个由众多数量、种类的案例汇集、整合而成的资源库或数据库。在公共危机管理中,要求案例库既能提供已经发生危机事件的直接性素材,包括危机形成的原因、发生时间、持续时间、发生地点、危机处理过程、受灾对象、受灾损失等信息,而且通过案例分析和推理能够识别案例库中隐藏的模式,发现突发危机事件与已有案例的知识关联,为突发事件的预测、预警和有效应对提供决策依据。然而,国内的公共危机事件案例库尚处于初期建设阶段,正在建设的一些代表性的案例库,如中国自然灾害数据库、中国政府网典型案例库、应急管理网一网五库、中国应急分析网重大安全事故案例库、广东省应急网、中国应急分析网、麦尼哲·中国危机事件与管理案例库、暨南大学应急管理案例库以及兰州大学PCIM(Public Crisis Information Management)团队建设的中国公共危机事件案例知识库等,均只有简单的案例展示、检索功能,欠缺分析和推理功能,不能满足危机管理辅助决策的要求。因此,案例分析和案例推理研究,无论从理论上还是实践需求上,都是公共危机事件案例库建设和研究的一个核心问题。 CBR(Case-Based Reasoning)把经验和知识存储于历史案例中,利用历史案例来解决当前遇到的问题。CBR主要包括案例表达、案例检索、案例修正和案例维护四个步骤,案例检索属于CBR的一个重要组成部分。由于公共危机事件案例库中案例属性庞杂,案例的大多属性用非结构化的文本来表示,传统的信息检索方法在公共危机事件案例检索中并不适用,而基于语义相似度的检索方法可以提高案例中文本属性相似度的计算准确度和效果,因此,语义相似度检索在CBR研究中正在得到高度重视。本文以案例推理中的案例检索为切入点,借鉴已有文本处理、特征提取和语义相似度计算方法,建构公共危机事件案例语义相似度计算模型,以兰州大学PCIM团队建设的中国公共危机事件案例知识库(http://ccm.lzu.edu.cn)为例,选取案例库中两种不同类型的四个案例进行实验验证,以期为公共危机事件的案例推理增加一种可借鉴的方法。 2 文献回顾 2.1 案例推理研究 20世纪70年代末,就有学者进行了CBR的研究。较早的CBR的思想来自于Rog Schank。他在动态存储器技术研究中发现过去的事件状态对当前的问题解决与学习有重要的作用,提出了以记忆组织为核心的记忆理论。1983年,Janet Kolodner在耶鲁大学采用动态存储模型,开发了第一个CBR系统CYRUS,实现了Schank的诸多思想[1]。CBR研究的迅速发展是在80年代的中后期,涉及电子商务智能推荐、故障诊断、企业诊断、应急辅助决策、复杂产品案例检索、疾病诊断等方面。以国内研究为例,刘双印做了基于领域本体的电子商务智能推荐系统的检索算法研究[2];王波等人探索了基于粗集的故障诊断系统检索方法[3];尤军东做了企业诊断流程案例检索与复用[4];仲秋雁等人研究了应急辅助决策中案例表示和检索[5];张鹏程基于语义做了复杂产品案例库的推理技术研究[6]等。现有的案例库检索方法研究主要包括粗糙集[7]、领域本体[8]、语义[9]、多Agent[10]、XML技术[11]、灰色关联度[12]、人工神经网络[13]、微粒群[14]、网格聚类[15]和蚁群算法[16]等。同时,对于检索算法的研究倾向于结合多种检索算法的优点来提升系统的检索效率,如张文领等基于GRA和GA做了工程项目案例的检索研究[17];贾兆红等结合禁忌搜索与遗传算法探索案例检索[18];王宏宇做了粗糙集与灰色关联理论在案例检索中的研究[19]。 危机管理领域的学者更倾向于研究危机管理中CBR的整个过程。Krupka等研究了危机管理过程中的CBR模型[20],以及CBR在危机管理中的资源需求[21];Dixena等人运用案例推理来研究阻止船的碰撞[22];Farah等研究了基于案例推理的危机情景下的沟通平台[23]。在危机决策和预警方面,研究涉及基于CBR的危险化学品泄漏事故的应急决策支持系统[24]、基于整体优势度的应急救援案例推理决策[25]、基于CBR的煤矿瓦斯预警支持系统等。 2.2 语义相似度研究 语义相似度研究方法主要包括本体论的方法、基于文档分类的相似度计算方法、基于语境框架的相似度计算方法、基于图形的文本标示模型方法、属性论方法。 运用本体论研究文本相似度有两个类别的方法:一种类别主要用统计学习的方法,使用模糊逻辑和聚类去构造文本的本体模型,然后利用本体模型对文本进行处理。该方法需要分析整个文档语料库去构造本体模型,文本处理的好坏与本体模型的良好程度成正相关[26]。另一类是使用现有的本体模型,如WordNet以协助文本处理[27]。颜端武等提出基于领域本体和概念向量的中文文本相似性研究,指出概念通过12种抽象类型的关系链接,构成领域本体的网状结构[28]。 文本分类的过程和文档相似度的计算很相似,因此,可以借助文档的分类结果来计算文本的相似度。赵俊杰等人提出了基于文本分类的文档相似度计算方法,借助目标文档的分类类别和文档特征向量值,进一步计算目标文档与同类中其他文档的相似度值,寻找超出特定阈值的文档,即可找到与目标文档相似的文档[29]。 与基于统计学的相似度计算方法相比,基于语义理解的文本相似度计算不需要使用大规模语料库。晋耀红在“基于语义的文本过滤系统”中提出了基于语境框架的文本相似度计算方法,把文本内容抽象成情景(动态描述)、领域(静态范畴)、背景(褒贬、参照等)三个框架[30],从领域相似度、情景相似度和背景相似度三个方面来计算文本的语义相似度。同样,金博等人提出的利用知网的知识结构进行语义相似度的计算[31],孙爽提出基于语义相似度的文本相似度算法——TCUSS算法[32]。 Junji Tomita等人利用基于图形的文本标示模型计算语义相似度。每个文本通过三个步骤转化成一个主体图,这三个步骤包括:从文本中提取项;计算每一个项的属性值,产生项向量;计算项与项组合的显著性,产生组合向量;最后,使用向量和组合向量的线性组合来计算文本相似度[33]。 潘谦红等人提出利用属性论来计算文本相似度,通过计算属性重心点来确定匹配基准,计算匹配距离,从而描述关键词之间的关系[34]。该方法与空间向量模型具有相似的效果。 3 语义相似度的公共危机事件案例检索模型 3.1 CBR循环过程模型 一般意义上讲,CBR循环可以描述为以下四个步骤:检索最为相似的案例或者案例集;复用案例中的知识和信息来解决问题;修正推荐的解决方案;保留有可能在未来问题解决中有用的经验。一个新的问题可以通过检索一个或多个之前的案例,以一种方式或者其他方式来重用案例,基于重用以前的案例修正解决方案,并入已经存在的案例库保留新的经验。这四个过程每一个都包含一些具体的步骤,可以在任务模型中描述,如图1所示。基于语义相似性的公共危机事件案例检索方法_公共危机论文
基于语义相似性的公共危机事件案例检索方法_公共危机论文
下载Doc文档