关联规则挖掘在作战实验数据分析中的应用
曹冠平,王跃利,张立韬
(军事科学院,北京 100091)
摘 要 :随着作战实验的发展,作战实验数据呈现出规模海量化、类型多样化、处理快速化等特征,传统实验数据分析方法存在存储和运算能力不足等问题。对海量实验数据关联规则挖掘进行了研究,设计了挖掘框架,明确了挖掘流程,并对现有关联规则挖掘算法进行了改进。最后,通过案例验证了框架和流程的有效性,仿真结果表明,改进后算法的挖掘效率得到有效提升。
关键词 :作战实验数据;数据分析;关联规则;挖掘;算法
关联知识反映了一个事件和其他事件的依赖或关联,通过关联知识的分析,可以找到现实中事物间的某些规律并指导工作实践。关联规则挖掘的目的就是发现隐藏在海量数据中的关联知识,帮助用户找到有用的信息,为用户合理决策提供有效支撑。当前,关联规则挖掘已在商业、教育、医疗等领域广泛应用并取得了很好地效果[1]。顾苗将关联规则挖掘运用于招聘信息系统中,通过对企业招聘信息的挖掘,得到不同企业的招聘要求倾向,为用户提供了有用参考[2]。汪丽等对分布式数据挖掘方法进行了研究,并将其运用到教育决策支持系统中,帮助用户查找有用的决策信息[3]。高生鹏通过对子宫肌瘤治疗相关数据进行关联规则挖掘,得到该疾病治疗效果与药品种类和用药量的关联程度,为优化疾病的治疗方法提供了参考[4]。王圣通过对大量物流交易数据的关联规则挖掘,提出了改进实际物流业务和库存管理相关建议[5]。庄细清通过对公司大量交易数据进行关联规则挖掘,为公司提出了最佳促销方案和最可靠商品售卖组合等个性化推荐[6]。刘惠通过对海量物流信息进行关联规则挖掘,实现了货物运输平台信息的推荐功能,帮助用户根据运输货物选择最佳运输平台[7]。李政等对关联规则挖掘在电子对抗目标分析中的应用进行了研究,提出采用频繁模式增长挖掘算法进行关联规则挖掘,取得了较好效果,有效增强了作战决策的合理性[8]。芮少辉等人通过对航空发动机工作日志进行关联规则挖掘,较好地实现了航空发动机的故障检测[9]。
信息网络和计算机技术的发展,各类传感器和智能设备广泛运用于作战实验中,促使作战实验采集的数据急剧增加,这些海量的数据中蕴含了丰富的军事知识。受存储和计算能力等因素的限制,传统数据分析方法不能很好地满足海量作战实验数据分析要求。鉴于此,本文将分布式存储和并行计算技术运用到作战实验数据分析中,构建了海量数据关联规则挖掘框架,明确了挖掘流程,并对现有关联规则挖掘算法进行了改进。最后,设计了一个简单的作战实验数据关联规则挖掘案例,验证所提框架和流程的有效性以及改进后算法的挖掘效率。
纳入标准:所有患者入院时均伴有腰骶部或髋关节疼痛,患者的日常活动也由于腿麻或腿痛受到较大影响。患者及其家属均配合实验并签署知情同意书。
1 作战实验数据关联挖掘的挑战及应对
1.1 作战实验数据的新特点
作战实验数据包括基础数据、系统数据、作战环境数据和装备性能数据等。随着科技的发展,高性能侦察探测设备、测量设备、感知设备、传感设备和记录存储设备等在作战实验中广泛运用,作战实验数据采集的方式更加灵活、手段更加多样,信息网络的大范围覆盖,使得数据采集范围更加广泛。当前作战实验所采集的数据和传统实验数据相比,有了明显的区别:一是数据规模海量化,急剧拓展的战场空间、庞杂的武器装备和作战环境数据,加上敌我对抗的复杂化,作战实验中的数据量呈爆炸式增长,由过去的MB跃升至GB、TB,甚至PB以上;二是数据类型多样化,作战实验手段和技术的发展,同时带来了数据类型的增加,数据格式不再是单一的结构化数据,诸如视频、图像、声音、文本等类型的非结构化或半结构化数据越来越多;三是数据处理快速化,随着技术的发展,作战实验过程中数据产生速度更快,不仅要求对数据分析和处理更加快速,有时甚至要求进行实时处理;四是数据隐性价值化,作战实验过程中采集的海量数据,虽然分布广泛且杂乱无章,但却蕴含着丰富的价值,通过合理地挖掘分析能够揭示其中隐藏的有用价值,为实验结论的分析提供重要参考。
1.2 传统关联挖掘的不足
海量的作战实验数据中,绝大多数来源于不同的站点,存储于分布式数据库中。传统的数据分析方法在对作战实验数据进行关联分析时存在如下瓶颈:一是存储和计算能力不足,传统的数据关联挖掘大多以单机的形式进行处理。随着数据的增加,对单机的计算性能和稳定性要求越来越高,面对海量作战实验数据,单机的处理能力远远不能满足需要,很难及时存放和分析处理;二是无法应对多源异构数据,传统的数据处理方法主要基于结构化数据的统计方法,通过对筛选后的样本数据进行分析来查找相关规律,但对于半结构化或非结构化数据则束手无策;三是因果关系难追溯,传统的数据挖掘分析侧重于因果关系的查找,信息化战争复杂多变,战争的各因素相互交织、关联,一因多果、一果多因、多因多果或无因果的情况普遍存在,单纯从数据中追溯因果关系十分困难。
1.3 海量作战实验数据关联挖掘
“关联而非因果”是进行海量数据分析的重要理念,相比于追溯海量数据中的因果关系,更可行和有效的方法是通过关联规则挖掘,查找各因素之间的关联关系。相比于传统的数据分析方法,大数据关联分析具有明显优势:一是数据存储和计算能力强大,借助分布式集群处理方式,将海量数据进行分布式存储,同时利用集群处理器进行分布式并行运算,能够很好地解决存储和计算能力不足的问题;二是支持多源异构数据,通过非关系数据库,能很好地支持图片、音频、视频等半结构化和非结构化数据的存储、管理、查询和分析;三是关联挖掘容易实现,关联分析不需要理清关系网络和证明前因后果的时序逻辑,只需要进行关联挖掘就可以得到关联结论,进而分析出有用信息,且整个过程可以通过计算机程序实现,操作比较简单。
因此,通过引入分布式和并行计算技术,构建分布式数据关联规则挖掘模型,明确具体流程,同时改进或创新挖掘算法,可以实现作战实验数据的高效分析,挖掘出有用信息,为决策提供重要参考。
2 作战实验数据关联规则挖掘
2.1 关联规则挖掘技术
关联规则挖掘是数据挖掘的主要任务之一,其核心内容是通过扫描数据集合,发现其中的频繁项集,并在此基础上构造关联规则。
假设min sup为用户设定的最小支持度,min conf为最小置信度,若:sup(A ⟹B )>min sup且conf(A ⟹B )>min conf,则关联规则A ⟹B 为强关联规则。关联规则挖掘的目的就是在给定一个事务集D 的情况下,运用挖掘算法,依据用户设定的最小支持度和最小置信度,找出符合要求的关联规则。
步骤四:Reduce函数根据提交的键值对求得相同key项集的全局支持数;
4.3 数据关联规则挖掘及结果分析
s =sup(A ⟹B )=P (A ∪B )
(1)
c =conf(A ⟹B )=P (B |A )=P (A ∪B )/P (A )
(2)
令I ={i 1,i 2,…,i m }是所有数据项的集合,D 表示所有事务的集合,T ={t 1,t 2,…,t m },(t i ⊂I )表示D 中的一个事务,用TID进行唯一标识,A 和B 分别表示由若干数据项组成的集合,D 中的关联规则是形如A ⟹B 的蕴含式(其中,A ⊂I ,B ⊂I 且A ∩B =ø)。
2.2 作战实验数据关联规则挖掘的框架
作战实验数据关联挖掘是在分布式存储和分布式并行计算技术的基础上,通过一定的关联规则挖掘算法对各类多源异构作战实验数据进行挖掘,得出强关联规则,最后,经过分析得出有用知识。根据关联规则挖掘原理和作战实验特点,作战实验数据关联规则挖掘框架(如图1)。框架自底向上分为数据采集层、数据存储层、数据表达层、数据计算层和数据分析层等5层。其中,数据采集层是关联规则挖掘的基础,主要负责作战实验数据的采集,采集方法有传感器网络采集、系统自动采集、人工记录采集和背景调查采集等;数据存储层主要负责将采集层的海量实验数据分块存储到事先构建好的计算集群中,并提供高速的数据访问读写服务;数据表达层是在数据存储的基础上,对各类不同类型结构化的数据进行表示,以便进行数据计算;数据计算层采用MapReduce计算模型,实现对海量数据的并行计算处理;数据分析层是用户根据实验目的,运用一定挖掘算法进行关联规则挖掘并对结果进行分析,最后得到有用知识。
图1 作战实验数据关联规则挖掘框架
2.3 作战实验数据关联规则挖掘流程
作战实验数据关联规则挖掘的目的是从采集到的海量作战数据中找出强关联规则,并通过分析抽取出数据中蕴含的有用知识。其流程主要包括3阶段:数据预处理、关联规则挖掘和分析形成结论(如图2)。其中,数据预处理阶段主要对采集的数据进行净化、去噪、一致性处理、抽象描述和规模压缩等处理,以消除缺失、重复、相似和不一致的数据,并将数据转化为适合关联规则挖掘的模式;关联规则挖掘阶段主要是运用分布式并行计算技术,运用相关挖掘算法,找出满足符合用户要求的频繁项集,并根据频繁项集挖掘出符合用户要求的强关联规则;分析形成结论阶段主要是对挖掘结果进行军事层面的提炼,得到有用知识供指挥和参谋人员参考使用和辅助决策。
图2 作战实验数据关联规则挖掘流程
3 作战实验数据关联规则挖掘算法及改进
典型的挖掘算法是Apriori算法,其优点是结构简单、易于理解,为提高算法的效率,许多学者对Apriori算法进行了改进,提出了分布式并行关联规则挖掘算法[10],文献[11]通过MapReduce编程框架实现了分布式CD算法,较好地提高了挖掘效率,其过程主要是:1)由主进程根据k -1项频繁集求得k 项候选集并将候选集均匀分发给各节点;2)各节点运用Map函数并行计算其数据中的k 项候选集的支持数并将结果提交给reduce函数;3)Reduce函数根据Map函数提交的支持数求得k 项候选集的全局支持数;4)根据Reduce函数得出的结果,主进程求得k +1项频繁项集。但算法存在两个较大问题:1)需要迭代k 次(即运行多次MapReduce函数)才能求得最终的频繁项目集,而迭代次数越多,效率越低;2)挖掘过程中需要多次扫描原始数据集,随着数据集的增大,挖掘效果逐渐降低。对此,本文提出一个改进的并行关联规则挖掘算法。
在运用MapReduce程序完成频繁项集挖掘时,关键之处就是通过扫描1次原始数据集,运用Map函数一次性求得数据集的全部项集,包括1至k 项所有项集,同时产生<key, value>键值对,每一个项集作为key值,value统一设为1,(即该项集的支持数)。具体步骤如下:
在进行仿真运算时,仿真系统详细记录了每次突防过程的具体数据,在进行关联规则挖掘之前,首先需要对采集的数据进行预处理,主要是将每一条仿真记录按照{TID,J,R,Y,Z,G,D,E}的格式进行统一表示,TID表示仿真序号,预处理后的数据如表1所示。
步骤二:运用Map函数求得各子集的全部项集,同时产生<key, value>键值对;
步骤三:,在Map端调用Combine函数,对具有相同key的键值对进行合并(即求得项集的局部支持数),并将结果提交给Reduce函数;
3)草把的规格和处理。草把直径15~20厘米,长度比穴深短3~5厘米,要捆绑结实。材料用玉米秆、麦秸或杂草等均可。捆好后埋前最好在水及尿的混合液中加以浸泡,使其充分吸水。
《教育信息化十年发展规划(2011-2020年)》提出“以硬件为中心”转变到“以解决实际问题应用和促进人的发展为核心”,“通过优质数字教育资源共建共享、信息技术与教育全面深度融合、促进教育教学和管理创新,助力破解教育改革和发展的难点问题”。“微课”作为信息技术与学科整合过程中产生的新型教学模式,利用其“短、小、精、悍”等特色,成为课堂教学的一种有效补充形式,已经在部分学校中使用并得到教师和学生的认可。
步骤五:根据用户设定的最小支持度,求得到最终频繁项集。
参试品种有金优38、泰优2806、两优33、甬优4949、A 优 338、天两优 953、黄华占、黄科香 1号、黄科香2号、黄广油占,对照为黄华占。
由算法描述可知,改进后的算法只需要扫描1次原始数据集,而且只需要提交一次MapReduce任务,减少了迭代次数,有效克服了文献[11]中所提算法的不足。
4 应用算例
4.1 案例背景
规则3:红方运用远程空地导弹进行突防,突防效果好(规则的置信度为93%)。
4.2 实验数据采集和预处理
步骤一:将原始数据集划分为N 个大小相当的子集;
北京理工大学附属中学小学部从课程目标、内容、实施、评价四个方面出发,制定了德育《主题教育月课程纲要》;语文学科《语文学科实践活动课程纲要》《诵读经典课程纲要》;数学学科《数学绘本故事阅读课程纲要》《益智古典数学游戏课程纲要》;英语学科《英语绘本故事阅读课程纲要》《快乐口语课程纲要》……如语文学科教师刘京执笔的学科实践课程纲要考虑了学科综合性、学生年级特点,节选内容如下。
衡量D 中关联规则A ⟹B 的两个常用指标是支持度s 和置信度c 。其中,支持度表示关联规则出现的频度,即D 中包含集合A 、B 的事务数占D 中所有事务数的比值,用于衡量关联规则“量”的多少;置信度则表示关联规则的强度,即D 中同时包含A 、B 的事务数与D 中仅包含A 的事务数的比值,体现了关联规则在“质”上的可靠程度。s 和c 分别由下列公式求得
运用本文设计的挖掘算法对预处理后的数据进行关联规则挖掘,设定最小支持度为25%,最小置信度为90%,得出所有频繁项集,并筛选出以作战效果E为结论的强关联规则(如表2)。
表1 预处理后的实验数据集
表2 筛选后的强关联规则
最后,对表2中的强关联规则进行筛选解读,可以得到以下几条规则:
规则1:红方实施远距离电子干扰,突防效果好(规则的置信度为91%)。
规则2:红方采用反辐射制导武器打击敌对空雷达阵地,突防效果好(规则的置信度为92%)。
由于注水系统首先要满足注水井压力需求,因此选取干线末端井和破裂压力较高的典型井计算相邻注水站是否能够满足注水压力需求。
分析以上2条规则表明,在进行突防时,应当尽量压制敌探测感知效果和手段,即提升突防效果。一方面,可以通过对敌实施强电子干扰,压缩敌雷达探测距离,降低突防歼击机的发现概率;另一方面,可以通过运用反辐射制导武器打击敌对空雷达,实现对敌探测手段的硬摧毁。
(3)离心过滤机。铜渣液固分离采用PGZ1250型平板刮刀离心过滤机。布料盘、转鼓、刮刀轴材质为TA2;滤布为聚丙烯; 壳体内钢衬钛、壳体外钢衬PE;机座(Q235- A)双面全部衬3 mm厚PE。
在运用空地仿真系统进行航空兵突防效果仿真实验中,要求分析红方突防方法与突防效果的关系,其中,红方拟采用的突防方法有:1)采用反辐射武器打击敌对空雷达阵地(用J表示);2)实施远距离电子干扰(用R表示);3)运用远程导弹进行突防(用Y表示);4)运用中程导弹进行突防(用Z表示);5)运用超声速空地导弹进行高中空突防(用G表示);6)运用亚声速巡航导弹进行超低空突防(用D表示),J、R、Y、Z、G、D等均区分“是”和“否”两种情况。突防效果用E表示,区分“好”和“一般”两种情况。
规则4:红方运用中近程空地导弹进行突防,突防效果一般(规则的置信度为91%)。
企业知识型员工的成就需要可以有效地预测工作绩效及其各个维度,是知识型员工工作绩效的预测源。企业知识型员工与一般性人才不同,他们有较强的自主性,他们非常希望自己能够独当一面,成为企业决策的主要力量,这种决策不仅仅局限在他自己的工作职责范围内,而且扩展到高层决策。因此,建议企业的管理层应注意到这一特点,根据其工作任务要求进行适当的授权,允许员工自主制定工作措施,有机会参与到企业的重大决策,参加各级管理工作的讨论,增强员工对上级的信任,激发他们的强烈责任感。
2018年的末尾,才来给大家盘点今年各大品牌出的生肖腕表,貌似有点儿后知后觉的意思。今年是中国农历生肖狗年。“狗”似乎天生就和人类有着分不开的亲密关系。有句话说的好,狗是人类最忠诚的伙伴。在时间的表达上,狗年腕表也是大有作为,可圈可点之处比比皆是。
规则5:红方运用远程空地导弹进行突防,同时运用中近程空地导弹进行突防,突防效果好(规则的置信度为97%)。
分析以上规则表明,突防时,采用远程空地导弹突防时,由于导弹可在敌防区外发射,突防效果较好,但由于远程空地导弹造价相对昂贵,作战效费比不高。采用中近程空地导弹突防时,需要载机突进敌防区内,载机被拦截的风险较大,平均突防导弹数量减少,突防效果一般。当采用远程和中近程组合攻击方式时,突防效果好。故可以先运用少量远程空地导弹打击敌防空系统,压缩敌防空杀伤区,降低中近程空地导弹载机被拦截风险,再运用中近程进行攻击,以此达到较好的突防效果,且相比单独使用远程空地导弹,效费比更高。
让儿童实实在在地获得能适应未来社会生存能力的核心素养,绝不是一朝一夕的事情,这是一个系统教育教学工程。这个系统教育教学工程的第一步是什么?不是“我以为”式的主观阐释,也不是贴标签的课堂展示,而是扎扎实实的调查研究。
规则6:红方运用超声速空地导弹进行中高空突防,突防效果一般(规则的置信度为92%)。
由于严格的过程考核需要花费教师和学生不少时间,课程考核大多以期末考试成绩为主,学习过程管理不足,过程考核常以平时作业和考勤为评判标准,实验考核流于形式,无法较好地反映学生的实践水平,而且这种考评机制容易造成学生指望考前突击而不注重平时学习。
规则7:红方运用亚声速巡航导弹进行超低空突防,突防效果一般(规则的置信度为90%)。
规则8:红方运用超声速空地导弹进行中高空突防,同时运用亚声速巡航导弹进行超低空突防,突防效果好(规则的置信度为98%)。
分析以上规则表明,突防时,若只运用单一类型和单一弹道空域的导弹进行突防,不能达到很好的突防效果,应当采用多类型、多弹道相结合的方式,分散敌防空火力和雷达探测资源,提升突防效果。
4.4 算法评价
为检验算法的有效性,本文对案例背景进行了扩展以增加仿真数据规模,综合考虑影响突防效果的红方兵力类型(区分轰炸机、歼击轰炸机、多用途战斗机等)、兵力规模(区分小、中、大规模)、保障形式(区分预警侦察、空中掩护、指挥引导等)等20余种因素;同时,区分敌采用不同防御体系和不同防御方式下的突防情况,将突防效果细化为“非常好”、“好”、“一般”、“不好”等层次。最后,在仿真结果数据集中分别选取10 000 条,20 000条,30 000条,50 000条仿真记录,运用Apriori算法、文献[11]算法和本文所提算法进行挖掘,找出强关联规则,效果对比如图3。
图3 各算法挖掘效率对比图
结果显示,相比Apriori算法,分布式并行挖掘算法在数据集较小的情况下,效果并不明显,但随着数据集的增大,挖掘效果逐渐显现,这表明,分布式并行技术比较适用于处理海量作战实验数据。此外,结果也表明,由于只需要提交一次MapReduce任务,且对原始数据集只扫描了一次,本文所提算法挖掘效率较文献[11]中的算法也有一定的提高。
5 结束语
作战实验数据关联规则挖掘是作战实验数据分析的重要方面,可以拓展作战实验数据分析方法,深化对作战实验问题的研究。本文针对传统数据分析方法存在的不足,将分布式并行处理技术运用到作战实验数据关联规则挖掘中,构建了分布式作战实验数据关联规则挖掘框架,明确了挖掘流程。为提升挖掘效率,本文还对现有关联规则挖掘算法进行了改进。最后,进行了案例分析,结果表明,分布式并行处理技术能够更好地处理海量数据,通过挖掘得到关联规则,能够很好地反映作战要素间的相互联系,经过合理筛选分析,能够有效揭示数据中蕴含的军事知识,为作战决策者提供重要参考。此外,通过在不同数据集上进行关联规则挖掘的仿真实验,也验证本文所提算法的有效性。
参考文献 :
[1] 梁吉业, 冯晨娇,等.大数据相关分析综述[J]. 计算机学报, 2016, 39(1):1-18.
[2] 顾苗. 关联规则挖掘算法及应用研究[D]. 南京: 南京邮电大学, 2015.
[3] 汪丽, 张露,等. 基于分布式数据挖掘方法的研究与应用[J], 武汉理工大学学报(信息与管理工程版), 2013, 35(1):40-44.
[4] 高生鹏. 基于关联规则的医学用药数据挖掘及可视化[D]. 兰州:兰州交通大学, 2015.
[5] 王圣. 基于物流信息的关联规则算法及其应用研究[D]. 北京:北京邮电大学, 2015.
[6] 庄细清. 基于关联规则的电商个性化推荐方案设计[D]. 福州:福州大学, 2013.
[7] 刘惠. 基于关联规则挖掘的货物运输平台信息推荐功能的研究与实现[D]. 青岛:中国海洋大学, 2015.
[8] 李政, 祝利,等. 关联规则挖掘在电子对抗目标分析中的应用[J]. 舰船电子工程, 2015,38(5):1-5.
[9] 芮少辉, 张凤鸣,等.改进关联规则挖掘算法航空发动机故障检测[J].火力指挥与控制, 2011, 36(9):199-203.
[10]吕婉琪, 钟诚,等. Hadoop分布式架构下大数据集的并行挖掘[J]. 计算机技术与发展, 2014, 1(24):22-26.
[11]马盈. 基于MapReduce构造多维数据及关联规则挖掘算法的研究与应用[D]. 长春:东北师范大学, 2013.
Application of Association Rule Mining in Combat Experiment Data Analysis
CAO Guan-ping, WANG Yue-li, ZHANG Li-tao
(Academy of Military Science, Beijing 100091, China)
Abstract :Along with the development of the combat experiment, the size of the combat experimental data becomes huge, the type becomes various and the process becomes rapidity, while the traditional experimental data analysis method is short at storage and calculate. This paper does some researches on the application of association rule mining in combat experiment date analysis, builds a data association rule mining framework, defines the mining process and improved the existing mining algorithms. Finally, a case is given to verify the validity of the framework and the process, the simulation results also show that the mining efficiency of the improved algorithm has been increased.
Key words :combat experimental data; data analysis; association rule; mining; algorithm
中图分类号 :E917
文献标志码: A
DOI: 10.3969/j.issn.1673-3819.2019.02.014
文章编号 :1673-3819(2019)02-0070-05
收稿日期 :2018-05-31
修回日期: 2018-06-07
作者简介 :曹冠平(1984-),男,湖南郴州人,博士研究生,研究方向为军事运筹学。王跃利(1965-),男,硕士,研究员。