基于语义相似度的公共危机事件案例检索方法,本文主要内容关键词为:语义论文,危机论文,案例论文,事件论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 案例(case)是对研究领域中某个特定的具体事件以及与事件相关的环境、状态特征、事件结果以及特别情节的记录和描述。案例库(case database)通俗地讲是案例存放的仓库,是一个由众多数量、种类的案例汇集、整合而成的资源库或数据库。在公共危机管理中,要求案例库既能提供已经发生危机事件的直接性素材,包括危机形成的原因、发生时间、持续时间、发生地点、危机处理过程、受灾对象、受灾损失等信息,而且通过案例分析和推理能够识别案例库中隐藏的模式,发现突发危机事件与已有案例的知识关联,为突发事件的预测、预警和有效应对提供决策依据。然而,国内的公共危机事件案例库尚处于初期建设阶段,正在建设的一些代表性的案例库,如中国自然灾害数据库、中国政府网典型案例库、应急管理网一网五库、中国应急分析网重大安全事故案例库、广东省应急网、中国应急分析网、麦尼哲·中国危机事件与管理案例库、暨南大学应急管理案例库以及兰州大学PCIM(Public Crisis Information Management)团队建设的中国公共危机事件案例知识库等,均只有简单的案例展示、检索功能,欠缺分析和推理功能,不能满足危机管理辅助决策的要求。因此,案例分析和案例推理研究,无论从理论上还是实践需求上,都是公共危机事件案例库建设和研究的一个核心问题。 CBR(Case-Based Reasoning)把经验和知识存储于历史案例中,利用历史案例来解决当前遇到的问题。CBR主要包括案例表达、案例检索、案例修正和案例维护四个步骤,案例检索属于CBR的一个重要组成部分。由于公共危机事件案例库中案例属性庞杂,案例的大多属性用非结构化的文本来表示,传统的信息检索方法在公共危机事件案例检索中并不适用,而基于语义相似度的检索方法可以提高案例中文本属性相似度的计算准确度和效果,因此,语义相似度检索在CBR研究中正在得到高度重视。本文以案例推理中的案例检索为切入点,借鉴已有文本处理、特征提取和语义相似度计算方法,建构公共危机事件案例语义相似度计算模型,以兰州大学PCIM团队建设的中国公共危机事件案例知识库(http://ccm.lzu.edu.cn)为例,选取案例库中两种不同类型的四个案例进行实验验证,以期为公共危机事件的案例推理增加一种可借鉴的方法。 2 文献回顾 2.1 案例推理研究 20世纪70年代末,就有学者进行了CBR的研究。较早的CBR的思想来自于Rog Schank。他在动态存储器技术研究中发现过去的事件状态对当前的问题解决与学习有重要的作用,提出了以记忆组织为核心的记忆理论。1983年,Janet Kolodner在耶鲁大学采用动态存储模型,开发了第一个CBR系统CYRUS,实现了Schank的诸多思想[1]。CBR研究的迅速发展是在80年代的中后期,涉及电子商务智能推荐、故障诊断、企业诊断、应急辅助决策、复杂产品案例检索、疾病诊断等方面。以国内研究为例,刘双印做了基于领域本体的电子商务智能推荐系统的检索算法研究[2];王波等人探索了基于粗集的故障诊断系统检索方法[3];尤军东做了企业诊断流程案例检索与复用[4];仲秋雁等人研究了应急辅助决策中案例表示和检索[5];张鹏程基于语义做了复杂产品案例库的推理技术研究[6]等。现有的案例库检索方法研究主要包括粗糙集[7]、领域本体[8]、语义[9]、多Agent[10]、XML技术[11]、灰色关联度[12]、人工神经网络[13]、微粒群[14]、网格聚类[15]和蚁群算法[16]等。同时,对于检索算法的研究倾向于结合多种检索算法的优点来提升系统的检索效率,如张文领等基于GRA和GA做了工程项目案例的检索研究[17];贾兆红等结合禁忌搜索与遗传算法探索案例检索[18];王宏宇做了粗糙集与灰色关联理论在案例检索中的研究[19]。 危机管理领域的学者更倾向于研究危机管理中CBR的整个过程。Krupka等研究了危机管理过程中的CBR模型[20],以及CBR在危机管理中的资源需求[21];Dixena等人运用案例推理来研究阻止船的碰撞[22];Farah等研究了基于案例推理的危机情景下的沟通平台[23]。在危机决策和预警方面,研究涉及基于CBR的危险化学品泄漏事故的应急决策支持系统[24]、基于整体优势度的应急救援案例推理决策[25]、基于CBR的煤矿瓦斯预警支持系统等。 2.2 语义相似度研究 语义相似度研究方法主要包括本体论的方法、基于文档分类的相似度计算方法、基于语境框架的相似度计算方法、基于图形的文本标示模型方法、属性论方法。 运用本体论研究文本相似度有两个类别的方法:一种类别主要用统计学习的方法,使用模糊逻辑和聚类去构造文本的本体模型,然后利用本体模型对文本进行处理。该方法需要分析整个文档语料库去构造本体模型,文本处理的好坏与本体模型的良好程度成正相关[26]。另一类是使用现有的本体模型,如WordNet以协助文本处理[27]。颜端武等提出基于领域本体和概念向量的中文文本相似性研究,指出概念通过12种抽象类型的关系链接,构成领域本体的网状结构[28]。 文本分类的过程和文档相似度的计算很相似,因此,可以借助文档的分类结果来计算文本的相似度。赵俊杰等人提出了基于文本分类的文档相似度计算方法,借助目标文档的分类类别和文档特征向量值,进一步计算目标文档与同类中其他文档的相似度值,寻找超出特定阈值的文档,即可找到与目标文档相似的文档[29]。 与基于统计学的相似度计算方法相比,基于语义理解的文本相似度计算不需要使用大规模语料库。晋耀红在“基于语义的文本过滤系统”中提出了基于语境框架的文本相似度计算方法,把文本内容抽象成情景(动态描述)、领域(静态范畴)、背景(褒贬、参照等)三个框架[30],从领域相似度、情景相似度和背景相似度三个方面来计算文本的语义相似度。同样,金博等人提出的利用知网的知识结构进行语义相似度的计算[31],孙爽提出基于语义相似度的文本相似度算法——TCUSS算法[32]。 Junji Tomita等人利用基于图形的文本标示模型计算语义相似度。每个文本通过三个步骤转化成一个主体图,这三个步骤包括:从文本中提取项;计算每一个项的属性值,产生项向量;计算项与项组合的显著性,产生组合向量;最后,使用向量和组合向量的线性组合来计算文本相似度[33]。 潘谦红等人提出利用属性论来计算文本相似度,通过计算属性重心点来确定匹配基准,计算匹配距离,从而描述关键词之间的关系[34]。该方法与空间向量模型具有相似的效果。 3 语义相似度的公共危机事件案例检索模型 3.1 CBR循环过程模型 一般意义上讲,CBR循环可以描述为以下四个步骤:检索最为相似的案例或者案例集;复用案例中的知识和信息来解决问题;修正推荐的解决方案;保留有可能在未来问题解决中有用的经验。一个新的问题可以通过检索一个或多个之前的案例,以一种方式或者其他方式来重用案例,基于重用以前的案例修正解决方案,并入已经存在的案例库保留新的经验。这四个过程每一个都包含一些具体的步骤,可以在任务模型中描述,如图1所示。 在初始的问题描述中定义一个新的案例,这个新的案例用来从之前案例集中检索一个案例,检索的案例结合了新的案例(通过复用)形成了一个已解决的案例,是初始问题的解决方案。通过保留经验,有用的经验可以在未来复用,案例库可以通过修改已经存在的解决办法进行更新。 3.2 文本特征值提取TF-IDF算法 目前确定文本特征项的最有效的算法是Salton提出的TF-IDF算法,TF(Term Frequency)称为项的频率,用于计算该特征项描述该文本的能力;IDF(Inverse Document Frequency)是逆向文档频率,用于计算特征项区分文本的能力。TF-IDF算法依据以下基本假设:在一个文本中出现次数多的词,在另一个同类文本中出现次数也会较多,反之亦然,因此,以TF特征项作为测度方式,可以体现同一类文本的特点。IDF表示在一个文档中一个单词出现频率越小,用这个单词区分不同类别文档的能力就越大。TF-IDF以TF和IDF的乘积作为特征空间坐标系测度值。 TF-IDF算法以特征词在文档中出现的次数与包含该特征词的文档数之比作为该词的权重: 3.3 公共危机事件案例语义相似度计算模型的构建 (1)公共危机事件案例文本预处理 首先从案例库中提取两个案例的事件过程信息,对事件过程进行文本预处理,形成分词结果。文本预处理采用利用Luence的基于字典的分词器庖丁解牛中文分词系统(Paoding's Knives),其中有最大单词长度和最大分词数量两种模式。经过测试效果,本文选择最大单词长度模型来处理公共危机案例。 (2)公共危机事件案例文本特征提取 特征抽取和选择降低了特征的维数,从而达到降低计算复杂度的目的。 本文采用TF-IDF文档中每个词的权重,并且选择每个文档前10个词作为文档的特征值。 (3)公共危机事件案例库文本表示模型 根据TF-IDF计算之后,选择出每个文档的特征值,可以得到文本的语义词特征集合: (4)文本相似度计算 文献[27]中假设:文本A和文本B,提出了文本相似度的计算公式如下: 其中Sim(A,B)为A,B的相似度,L(A)和L(A)是A,B字符串的长度,common(A,B)为最长共子序列。该相似度计算公式虽然将文本相似度进行了量化,但是引入了多余的评估参数,这个评估参数过大会减少特征向量选择的数量,从而降低相似度的计算准确度。文献[38]提出的文本相似度计算方法通过计算所有特征值的两两相似度,保证所有特征都经过了计算从而每个特征都能影响文本间的相似度,计算出来的相似度处于0~1之间,很好地量化了文本的相似度。 这样,把两个词语之间的相似度问题归结到了两个概念之间的相似度问题,本文采用知网相似度来计算两个词语之间的相似度。 4 实验结果及分析 为了验证上述语义相似度模型的有效性,本文从同类案例相似度和异类案例相似度两个方面对其进行对比试验验证。案例选自兰州大学PCIM团队建设的“中国公共危机事件案例知识库”,抽取事件过程信息作为案例文本。 4.1 同类案例语义相似度计算 从案例库的公共卫生类案例中选取“四川岳池顾县小学发生牛奶中毒”和“江苏省淮安市发生学生食物中毒”两个案例,其结构如表1、表2所示。 建立停用词规则或停用词表,过滤掉分词结果中对计算语义相似度没有帮助的虚词和时间、数量等词语。去停用词后基于TF-IDF计算公式: 计算词的权重值,并挑选权重值最大的前10个词作为特征词,“四川岳池顾县小学发生牛奶中毒事件”和“江苏省淮安市发生学生食物中毒事件”的特征词分别为: (1)四川岳池顾县小学发生牛奶中毒事件 学生、中毒、症状、食物、孩子、医院、病床、意外、午餐、老师 ={学生,中毒,症状,食物,孩子,医院,病床,意外,午餐,老师} (2)江苏省淮安市发生学生食物中毒 学生、部门、食品、奶、药品、小学、人员、公安、同学、事故 ={学生,部门食品,奶,药品,小学,人员,公安,同学,事故} 至此,案例已经用相应的特征词进行了表示。 根据知网相似度计算规则计算和所有特征词的相似度,结果如表3所示。 计算两个案例的相似度,=0.222035 4.2 异类案例语义相似度计算 同样,从案例库的事故灾难类案例中选择“安徽萧县特大交通事故”(案例3)和“湖南永州载有47名师生大客车坠崖”(案例4)两个案例。对案例3和案例4进行特征提取,形成案例3和案例4的特征向量集。 ={货车,人员,故事,客车,车牌,司机,现场,大队,交通,车身} ={伤员,遇难,官兵,车辆,民警,师范,师生,村民,伤情,教师} 计算案例3和案例4的相似度, =0.216758 以上计算过程都是选择同一类危机事件进行的案例相似度计算,为了验证方法的有效性,我们再计算不同类型案例的相似度,用同样的方法对案例2和案例3进行文本预处理、特征提取和相似度的计算。 案例2:江苏省淮安市发生学生食物中毒: 学生、症状、中毒、食物、孩子、医院、病床、意外、休息、午餐 案例3:安徽萧县特大交通事故: 客车、货车、事故、消防、乘客、车牌、司机、人员、大队、交通 =0.148919 由于案例2和案例3分别属于公共卫生类和事故灾难类两种不同类型的案例,所以相似度要比,小很多,因此,可以说明此种语义相似度计算的有效性。 5 结语 案例推理对公共危机决策来说,从国内外的实践来看,是公共危机事件案例库建设和研究的一个重要内容和前沿问题。本文以案例推理中的案例检索为切入点,建构了公共危机事件案例语义相似度计算模型,并以兰州大学的中国公共危机事件案例知识库为例,选择案例库中两种不同类型的四个案例进行了结果对比验证。实验结果表明,本文提出的案例相似度计算方法具有有效性,为公共危机事件的案例推理增加了一种可借鉴的方法。 阿莫特(Aamodt)把CBR方法的发展趋势概括为四个主要方面:整合其他学习方法;与其他推理方法的集成;并入大规模的并行处理以及通过认知科学的新进展带动CBR方法的进步。近年来人们发现CBR系统在知识管理方面有良好的性能,出现了一些以CBR方法进行知识管理的研究工作。根据CBR的发展趋势,今后案例检索研究需要在以下几方面进行拓展和深化:(1)结合更多的语义相似度计算方法对公共危机事件案例进行案例检索计算;(2)对公共危机事件案例的聚类分析可以得出更多的有助于危机管理的知识;(3)在公共危机事件案例推理过程中,整合其他推理组件,并进行较大规模案例处理以及关注新的认知方面方法的提升。随着兰州大学的中国公共危机事件案例知识库建设的推进,上述问题将陆续得到研究,并经过验证后应用于案例知识库案例推理功能的完善。基于语义相似性的公共危机事件案例检索方法_公共危机论文
基于语义相似性的公共危机事件案例检索方法_公共危机论文
下载Doc文档