使用LDA构建预警情报的本体映射依据研究
刘冬瑞,潘越,郭继光
(中国电子科技集团公司 电子科学研究院,北京100041)
【摘 要】 针对军事预警情报具有多元、复杂、无序和异构等挑战,使用本体技术对其进行描述,并且结合LDA 主题建模技术提出一种构建本体映射依据的方法。使用10 个预警情报本体进行分析,结果表明,该方法能够为本体映射提供依据,为自动化构建本体映射提供支撑。
【关键词】 预警情报;本体;LDA;映射
1 引言
军事预警情报在战争中扮演着重要的角色。传统战争过程中,首先围绕情报的争夺拉开战争序幕[1]。随着信息技术的飞速发展以及网络的高度普及,军事预警信息承载形式也发生了变革[2]。收集到的预警情报数据具有多元、复杂、无序和异构等挑战,为军事预警情报准确定位及服务带来巨大挑战,是情报工作者必须解决的问题。使用本体技术能够更加规范、完整地将情报内容描述出来,增强情报的透明度和共享性。
由于本体可以描述数据语义,所以在网络或传统数据库中的任何数据都可以用本体来表示,使不同用户可以进行高效的数据交互,有效解决了预警情报信息共享和复用效率低的问题。本体映射是解决异构本体之间互操作的有效方法[3,4],是本体研究领域中的基础性研究。
本文针对互联网络中的预警情报信息,使用本体技术描述预警情报的特征,为决定作战决策提供辅助。并且结合LDA主题建模技术,建立本体之间的映射依据,提供自动化本体映射的有利依据,为研究本体构建策略提供参考。
宵禁的存在,在战乱频仍时确实可以起到一定的维护治安之用。但当经济发展,商业社会需要前行之时,这种制度就不免成为阻碍进步的枷锁。制度本身无对错,如何根据时代的发展需要采用相应的政策,才是为政者必须不断思考的问题。
此时,一杭那种悔恨,无法用言语表达。他压抑着哭声,看着护士给母亲穿衣服,又拿一张蓝色塑料纸,轻轻盖在母亲脸上,用一辆平车把母亲推出了病房。而他,站在一旁,像个局外人。
2 预警情报需求
20世纪90年代以来,以信息化为核心的军事预警变革蓬勃发展,信息化武器装备大量出现和广泛运用,信息作战正成为一种全新的作战样式,信息化战争的核心之一就是情报战。随着现代技术在情报领域的运用,军事预警情报呈现出情报范围广泛、数据量大、保密性强、成为战争前沿等特性,增加了军事预警情报搜集和使用的难度,针对这些特性研究者进行了相关研究,包括实现了基于Web 军事预警情报挖掘模型[5]、提出一种基于云计算架构的四层军事预警情报融合系统实现模型[6]、建立了基于本体的情报元数据模型等。
3 构建本体映射关系探索
使用本体技术能够有效解决情报信息共享和复用效率低的问题,但由于本体本身具有分散性,不同用户可以构建不同本体,而导致在同一个领域产生了大量冗余的本体,出现本体异构问题。异构的本体之间不能进行互操作,用户之间也不能进行相互理解。本体映射能够很好地解决本体异构的问题,为本体之间的互操作提供支撑。
相对于CAD技术在中国三十多年的发展,BIM技术在中国的应用与发展不过是“才露尖尖角”,虽然我国从2009年开始就在政策层面持续大力推动BIM技术应用,但是,由于VR等高新技术、智慧建筑等朝阳行业的出现与快速发展,对BIM技术的应用提出了更多新要求。
3.1 军事领域中本体的应用价值
以上研究将本体技术应用于军事情报领域,在一定程度上提升了情报共享和信息检索的效率。但本体自身带有分散的特性,很多具有相似属性的数据可能来自多个不同本体。由于本体的创建和建模方法不同,即使对同一领域内数据的建模,不同专家开发的本体也很可能存在差异,导致本体异构问题,限制了本体之间的互操作。本体映射可以有效解决本体异构的问题,从根本上解放本体互操作的限制,从而进一步提升本体应用价值。
目前本体理论在军事情报领域当中已经有了相关的研究,如信息检索、知识管理、信息服务等方面。基于本体的元数据思想引入军事情报描述中,建立了用于描述军事情报资源的元数据模型,能够更加清楚地反映军事情报资源所涵盖的信息,提出了基于本体的情报需求满足度计算方法,解决了海量军事情报排序问题,提出基于军事训练本体的向量空间模型构建方法,使用文档相似度作为参考标准,解决了语义相关问题。
3.2 本体映射方法
本体异构问题已经成为语义网所面临的重要问题之一,而本体映射能够较好地解决本体异构问题。国内外对本体映射较为统一的认识是:“假设O1 和O2 两个本体,用一种方式来映射本体O1 中的每一个概念,使其能在本体O2 中找到相应的类或概念,反之亦然”。
王树林无意中发现了它,显然是属于车内的某个配置,凹字型的一个塑料物件,烟壳大小,遗落在座位与档位的狭窄空隙里。纯属偶然,王树林移动座椅的时候发现了它。是座椅下面的螺栓扣件。他拿起来看了一眼,这东西怎么掉下来了?
①map:O1→O2;
本文首先使用LDA 主题模型提取本体文本的主题,将文本主题词作为本体的文本概念,通过比较不同文本概念的相似度,为确认本体之间的映射关系提供依据。
③构建本体映射依据的映射关系。
3.3 LDA 简介
最早在2003年,David M.Blei 等人提出LDA 主题模型。该模型的目标是识别文档中的主题词集,根据词集对文档进行分类。目前LDA 已经广泛应用于文档分类、人脸识别、信息演化分析等方面。本文结合LDA 和本体技术,构建语境情报领域内容本体映射关系,为数据共享提供支撑。
3.4 使用LDA 提取本体的文本特征
本文目标给本体映射提供依据,为实现自动构建本体映射关系提供支撑。所谓本体映射,是根据两个本体O1、O2之中不同概念的相似度进行比较,认为概念相似度较大的本体属于同一本体库。给出本体O1和O2的映射过程:
概念C1和C2的相似度sim<(C1,C2)如果高于阈值ε 时,则建立O1和O2之间的映射关系,将异构本体不同概念建立映射关系的过程转化为概念语义相似度计算。如果本体库中存在大量本体,构建本体映射关系以前,首先要确定相似的本体集合。
以推动林产品向高质、高端、高效发展为重点,集中打造了杜鹃花、蓝莓、彩色苗木、野山茶、榛子等10大林业特色产业基地,连片规模化发展7.3万亩。积极培育林业龙头企业,用好市级林业产业专项资金和林业贴息贷款等优惠政策,培育市级以上林业龙头企业87家,全市涉林企业已发展到近500家。同时,积极探索林业+旅游、生态+文化等复合型、专业化发展途径,大力发展森林旅游和康养林业,重点打造精品采摘园60多个,让林区变景区,基地变公园,生态变商品,资源变资产,叶子果子变成票子。特别是依托日照绿茶优势,组织实施“引茶上山”,实行林下野茶种植,新发展野山茶2万亩,拓展了绿茶发展新空间、再造了日照绿茶新优势。
其中m个公共因子F1,F2…Fm和特殊因子,组成。若用矩阵表示,则是这一高度“数学化”的模型,往往让文科学习者“如坠云雾”。
②抽取文本特征的主题信息,作为本体映射依据;
除电视、报刊外,充分利用互联网、QQ、微信、微博等媒体平台,传递无偿献血能帮助别人点燃生命希望的正能量;开展主题宣传和献血者关爱活动,通过表彰先进等措施弘扬社会正能量。如:济南血站启动的“公益爱心网络团购”活动,它联合相应团购网站搭起无偿献血参与平台,为献血者提供个体化无偿献血服务,就是一个很好的尝试。
在构建本体过程中,依靠专家经验,为每一个本体添加描述,作为本体的文本特征。在不解读本体概念关系前,提供本体摘要性描述,该过程依赖于专家的经验。
4 基于文本特征构建本体映射依据
本文对本体映射依据进行研究,主要分为3 个步骤:
近年来,本体映射技术已经成为一个研究的热点,许多国内外研究者开发出了不同的本体映射方法。例如:基于Schema 的本体映射方法、基于上层本体的映射方法、基于语义相似度的本体映射方法、基于机器学习的本体映射方法、组合映射方法等。
②如果Sim(C1,C2)>ε,则map(C1)=C2,其中ε 是设定的阈值,C1∈O1,C2∈O2。
①根据专家经验为本体添加描述性综述文档作为本体文本特征;
为了提高映射的整体效率,对于待映射的本体概念,首先直接比对本体的文本主题词集,如果相似度大于阈值ε,继续建立映射关系,否则没有映射关系,阈值ε 根据专家经验给出,公式(1)表示如下:
使用Jaccard 相似度模型计算不同本体中不同主题词集Ct1与Ct2的相似度,如公式(2)所示:
针对多本体之间构建映射关系问题,设计了适用于本体文本映射的算法,如算法1 所示。算法思想:在所有本体Os中,本体Oi之间的文本特征Ct进行相似度比较,若相似度大于阈值ε,则对本体间的文本概念建立映射关系,继续建立其
余概念映射关系。
算法1:
通过以上方法,能够确认本体之间的映射依据。在映射依据的基础之上,对本体之间继续构建映射关系,提升多本体之间建立映射关系的效率。
表1 试验数据
5 试验
5.1 实验数据
本文选择10 个有关预警情报特征的本体进行试验。根据专家经验为每个本体添加综述性文档特征,试验数据描述如表1 所示,其中每个文档特征用一篇综述性文章进行表示。依照本体的构建过程,本体3 与本体4 非常类似。
5.2 试验结果及分析
使用Mallet 主题建模工具提取每个本体文本特征的主题,设置主题个数为20。例如提取本体7 文档特征的主题如下:model space vector training military ontology based construct revelance semantic representation text index problem solve VSM show results experimental reduction。
翠姨很喜欢我,因为我在学堂里念书,而她没有,她想什么事我都比她明白。所以她总是有许多事务同我商量,看看我的意见如何。
依照主题之间的相似度作为本体映射的依据,选择了本体1、3、5、7、9 的数据进行显示,如图1 所示,其中横轴表示10个本体,纵轴表示本体间文本概念相似度。明显发现其中本体3 和本体4 的文本主题相似度达到50%,而其余本体之间的文本主题相似度均低于25%。说明本体3 和本体4 具有映射依据,很有可能是异构的本体,应该对其进行本体映射处理。
图1 本体映射依据
进一步分析发现,影响构建映射依据有效性的原因可能有以下几个方面:①根据专家经验为本体添加文本概念,能够在解析本提前对其进行描述,为后期本体映射提供依据。但该文本概念还没有固定的形式,依赖于专家的决策,直接影响到本体的映射依据。②LDA 提取到的主题,能够对文本概念进行较为准确的描述。但字符数较多的文本概念无法用20 个主题进行准确表现,因此LDA 提取的主题个数应该随着文本概念长度的变化而变化,可以进一步提升映射依据的准确性。
6 结语
本文在军事预警情报领域当中,使用本体相关技术,提升军事情报的共享和复用性。首先根据专家经验为每一个本体添加文本概念,接着使用LDA 技术提取文本概念的主题,最后通过比较主题之间的相似度,为本体映射提供依据。试验选取了10 个预警情报领域的本体,经验证发现本文所提方法能够在多个本体映射之间,提供本体映射依据,为本体之间自动构建映射关系提供支撑。
【参考文献】
【1】李月丽,赵旭峰.军事情报特征与军事情报系统构建[J].图书馆工作与研究,2009(7):73-75.
【2】马建威,陈洪辉.军事信息精准服务过程中信息特征捕获方法[J].指挥信息系统与技术,2015,6(3):24-30.
【3】朱珍元.基于多策略的自动化本体映射[D].合肥:安徽大学,2011.
【4】李日晖.语义Web 搜索中的本体映射研究[D].武汉:华中科技大学,2005.
【5】傅畅,宋佳庆.一种基于文本聚类的web 军事情报挖掘系统设计与实现[J].中国电子科学研究院学报,2015,10(5):541-545.
【6】许辉辉,许荣荣.云计算在军事情报融合中的应用研究[J].西安文理学院学报:自然科学版,2014,17(1):97-100.
Research on the Ontology Mapping Basis of Early Warning Information Constructed by LDA
LIU Dong-rui,PAN Yue,GUO Ji-guang
(China Academyof Electronic and Information Technology,Beijing 100041,China)
【Abstract】 Aiming at the challenges of military early warning information,such as multivariate,complex,disordered and heterogeneous,etc.,the ontology technology is used to describe it,and combined with LDA subject modeling technology,a method of constructing ontology mapping basis is proposed.The analysis with 10 early warning information ontologies shows that this method can provide basis for ontology mapping and support for automatic construction of ontology mapping.
【Keywords】 early warning in formation;ontology;LDA;mapping
【中图分类号】 TP391.1
【文献标志码】 A
【文章编号】 1673-1069(2019)04-0190-04
【基金项目】 电子信息装备体系研究国防科技重点实验室基础研究项目(DXZT- JC- ZZ- 2011- 015)。
【作者简介】 刘冬瑞(1989-),男,内蒙古呼和浩特人,助理工程师,从事军事信息系统,软件复用研究。
标签:预警情报论文; 本体论文; lda论文; 映射论文; 中国电子科技集团公司电子科学研究院论文;