基于数据立方体的评估特征项生成方法
刘海洋1,2,唐宇波1,胡晓峰1,乔广鹏1
(1.国防大学联合作战学院,北京 100091;2.航天工程大学,北京 101416)
摘 要: 针对传统评估指标生成模式无法适应作战态势快速变化的问题,提出一种基于数据立方体的评估特征项生成方法。以兵棋推演数据为基础,基于数据立方体框架构建评估特征项生成模型,利用不同维度组合生成评估特征项。围绕数据立方体中存在的“维度爆炸”问题,利用维度组合裁剪模型来缩小搜索空间,通过特征项标识算法进行唯一标识,并采用移动时间窗口提取评估特征数据。实验证明,该方法生成的评估特征项能够有效支撑对特定问题的评估。
关键词: 数据立方体; 兵棋推演; 评估特征项; 机器学习
典型的战区联合作战方案涉及要素众多、作战空间广阔、作战问题多样且指标关联复杂,针对相同的作战方案评估问题,不同的专家往往会给出不同的指标选取建议,就是同一个专家在不同作战阶段所选取的指标也会有所侧重。传统的自上而下逐层分解的指标生成模式[1]:一方面囿于专家经验的条条框框,在指标完备性上很难突破现有的认知;另一方面由于人工介入程度较高,在速度上很难实现快速提升,因此,传统的指标生成模式在作战态势快速变化的情况下显然无法满足需求。为解决评估指标快速选取问题,首先需要构建开放的基础评估指标库,并在此基础上针对特定的评估问题快速选取相关指标,类似于“搭积木”一样快速实现评估指标的组合,同时结合专家经验对指标进行适当的增减与微调,最终形成评估指标产品快速投入评估工作。
在基础评估指标库的构建过程中,评估指标需要相应的评估数据做支撑,而评估数据中蕴含了大量的数据特征,除了利用特征工程由人工构建有限的评估指标外,很多数据特征并未得到有效利用。多维数据模型是面向数据分析应用而提出来的一种直观的概念模型[2]。该模型将数据看作数据立方体(Data Cube)[3]形式。传统的数据立方体是以牺牲存储空间为代价来换取查询效率上的提升,其对所有可能的维度组合进行聚集计算,并将聚集结果进行实例化存储,以缩短查询响应时间[4-5]。为减小数据立方体的尺寸,很多压缩算法被相继提出,如Condensed Cube[6]、Quotient Cube[7]、Dwaf[8]等算法。文献[9-12]等通过使用MapReduce并行架构,实现数据立方体的并行建立、查询和更新等功能,提高了数据立方体的计算效率。文献[13]针对数据流的特点,提出了一种流数据立方体分析挖掘框架,文献[14]对维度属性中的概念分层特性进行了研究,文献[15]从复杂网络的角度对数据立方体内部结构特性进行了研究,文献[16]针对大数据背景下的数据立方体物化视图选择问题,提出了基于云计算环境的物化视图选择算法改进思路。国内外相关研究大多集中在数据立方体的压缩算法与查询效率上,对具有动态时序特性的数据研究相对较少。
这一声“‘娘气’亚文化,放过我的儿子吧”,激起了很多人的共鸣。但也有不同意见认为,不是现在年轻人有多大问题,而是你们这一代成年人审美有问题,应该尊重一个多元审美时代的到来。
教育是顺其自然,是奉天承运。我们帮助孩子扩张自己的空间和时间,让他获得更充分的自由,把自己生命内在的规范发挥出来,纵横捭阖而不逾矩。
依托国防大学兵棋团队研制的大型战役兵棋系统开展联合作战方案推演,能够为联合作战方案评估提供涵盖陆、海、空、天、网电等多维战场空间全过程推演所产生的全时空样本数据。本文按照从数据中获取指标的思路,以兵棋推演数据为基础,基于数据立方体框架构建评估特征项生成模型,利用不同维度组合生成评估特征项。围绕数据立方体中存在的“维度爆炸”问题,利用维度组合裁剪模型来缩小维度组合搜索空间,通过特征项标识算法对生成的评估特征项进行唯一标识,并采用移动时间窗口提取评估特征数据。所提取出的评估特征数据在某种意义上可以看作是评估问题在特定时空条件下所表征出来的特征信息,通过分析挖掘评估特征数据与评估问题的关联性,能够帮助指挥员从不同的视角、不同的侧面理解评估问题。
1 数据立方体框架
定义1:多维数据模型(Multi-attribute Data Model, MDM)
具有多个维度的数据记录,可形式化表达为S =(F 0,F 1,…,F i :M ),F i 表示维度特征,M 为维度度量。
特征项标识(Feature Identifier, FI)算法的功能就是把维度组合所产生的特征项映射成唯一整数,且算法支持维度或属性的扩展,即对现有维度或属性进行新增或修改都不会与原值产生冲突。在数据R =(F 1,F 2,…,F n :M )中,|F i |表示第i 维的基数,使用下列步骤进行特征项标识。
MDM=(作战时间,属性,任务类型,机型,活动空域,状态:数量)
其中,在多维数据模型S 中的维度特征主要包括作战时间、属性、任务类型、机型、活动空域和状态等6个维度,特征的度量为飞机的统计数量。数据记录r=(XXXX,1,2,5,4,1:6)可解析为:“作战时间=XXXX”表示纪录作战发生的时刻(可精确至秒级),“属方=1”表示红方,“任务类型=2”表示空中侦察任务,“机型=5”表示某型飞机,“活动空域=4”表示在第4号空域内活动,“状态=1”表示飞机状态良好,“数量=6”表示飞机数量有6架。
定义2:数据立方体(Data Cube, DC)
给定一个时间段内的MDM,按照不同维度组合构建的一个数据集合。对于数据立方体中的每条数据记录r =(f 1,f 2,…,f n :m ),其中r [F i ]=f i ∈F i ,i =1,2,…,n ,f i 为特征F i 的值,m 为度量值。
推广大容量远距离输电技术,加快重点联网工程建设,提升大型能源基地外送能力;研究部署大电网状态评价、预警和自适应决策控制系统;加强电网设备状态监测,开展智能巡检,推广全寿命周期管理;提升电网设备运行管理水平和利用效率,提高电网抗灾防灾能力。
数据立方体可以理解为多维数据模型在某时间段内的集合,对于时间维度T ,t i-1 <t i 表明数据在时间先后顺序上具有连续单调性。
定义3:父代单元和子代单元
S m =D 1m ~(D 2(j+1) ,…,D 2n )~(D 31,…,D 3k )
算法1:基于裁剪模型的特征项标识算法
ETCR由于手术创伤小,门诊很容易向CTS患者介绍微创及早期手术的优点,导致很多患者很容易就接受了早期治疗。这不但避免了严重的神经损伤和肌肉萎缩,也减轻了患者的痛苦,降低了经济负担,有很大的社会效益。
(1)
记为C n [t ]⊂C m [t ],即两个数据单元的时间相同,父代单元至少在一个维度上能够包含子代单元,且在其他维度上和子代单元的取值相等。父代单元与子代单元之间的关系可用数据立方体晶格表示[16],父子两代的数据单元具有连接关系,且由父代单元指向子代单元,在3个维度上的数据立方体晶格如图1所示。
图1 在3个维度上的数据立方体晶格
以空中作战任务数据立方体中的数据单元C0=(SIDE-1, J10B, AIR-ATTACK) 为例,其父代单元有如下7个:
C1=(*, J10B, AIR-ATTACK)
C2=(SIDE-1, *, AIR-ATTACK)
C3=(SIDE-1, J10B, *)
C4=(*, *, AIR-ATTACK)
C5=(*, J10B, *)
C6=(SIDE-1, *, *)
C7=(*, *, *)
上述例子中没有显示数据单元的度量值M ,父代单元的度量值可以由其子代单元的度量值通过聚合计算得出。
假设数据立方体的维度为N ,则该数据立方体的维度组合规模为
M D =2N
(2)
若数据立方体在每个维度上的取值基数为l i ,记为l i =|F i |表示第i 维候选值的数量,其中i =1,2,…,N 。则该数据立方体能够生成的特征项规模可达
后来,爸妈主动学会了上网。我教他们百度,帮他们注册老年人论坛,眼见着他们变成了网虫。我十分好奇他们每天霸着电脑做什么,那天趁他们出去买菜,我打开了电脑显示器,就在他们尚未关闭的页面上,我看到百度搜索栏里的一组关键字:乳房切除,乳房再造,修复。
1.2.5 体外抗黑素瘤细胞试验。试验分为无细胞对照组(只加不含细胞的培养液)、正常对照组和用药组(空白纳米乳组、党参总皂苷水溶液组、党参总皂苷纳米乳组)。96孔板中每孔接种200 μL B16黑素瘤细胞悬液,37 ℃ 5%CO2培养,当细胞生长融合到70%~80%时,弃去原培养液,用药组加入含药培养液,正常对照组加入不含药培养液。培养48 h后,每孔加入MTT溶液20 μL,继续培养4 h后,弃培养液,每孔加入150 μL DMSO,避光振荡10 min,酶标仪490 nm处测定A,计算细胞增殖抑制率。
(3)
在某时间段内考察数据立方体中的数据,时间间隔越小,时间分辨率越高,所产生的数据规模越大。若该时段T 内有k 个时间片段,则最终的数据规模为
(4)
举例来说,空中作战任务数据立方体在仅考虑属方、机型与任务类型3个维度的情况下,其维度组合有23=8种。假设属方维度包括红、蓝、绿3方,机型维度包括84种不同型号的飞机,任务类型维度包括14种不同类型的任务,则可生成的特征项数量为(3+1)×(84+1)×(14+1)=5 100。若考察时间段设为4个小时,时间窗口间隔为5分钟,则该时段内共有48个时间片段,最终形成的数据规模为48×5 100=244 800。
《庄子·逍遥游》:“庖人虽不治庖,尸祝不越樽俎而代之矣。”晋郭象《注》:“庖人尸祝,各安其所司。”谓人有专职,即他人不能尽责,亦不必超越己职而代作。宋王安石《临川集》八十《上郎侍郎启》之一:“追惟旧闻,不越俎以代庖;盖言有守,未操刀而使割。”曹彦约《昌谷集》十一《上宰执台谏札子》:“汉阳者,前日之小垒,今日之地利,措置经书,当有正官,而越俎代庖,其名不正。”〔2〕174
基于数据立方体框架,采用工程化的维度组合方法生成评估特征项,同时根据时间窗口大小,将数据切分为不同粒度的数据块,通过聚合计算获得与评估特征相对应的评估数据。在兵棋推演数据的基础上,数据立方体提供了有组织、时序化的汇总数据,因此能够在不同粒度层次上对数据单元进行较为全面的挖掘与分析,从而大大增强了探索式数据挖掘的能力,为后续的问题评估提供全量、实时和多层次数据支撑。
2 评估特征项生成模型
在利用数据立方体生成评估特征项的过程中,首先为缩小计算时间与存储空间上的成本,需要对维度组合空间进行适当的缩减;其次需要对大量的评估特征项进行唯一标识,以便于后续的计算与检索;最后在获取数据的时间窗口上应能够动态调整,以满足不同粒度上的评估需求。
2.1 维度组合裁剪模型
改进配对函数的定义如式(10)和式(11)所示。
1)限定维度组合规则
从兵棋推演数据中抽取相关维度,需要领域专家的先验知识,而将抽取出的维度进行组合则需要考虑数据的涵义与推演的常识,部分不合理的维度组合将被剔除。以空中作战任务中的属方、机型和任务类型3个维度为例,机型维度中的歼10、歼11和歼20等机型应与属方维度中的红方相组合,与蓝方或绿方的维度组合均为不合理的维度组合,另这3种机型可派出执行空中巡逻、空中游猎等任务,而执行空中运输、电子对抗等任务的情况则应被剔除。因此,在考虑数据涵义与推演常识的基础上加入维度组合规则,能够排除掉很多不合理的组合情况,从而缩小了搜索空间,省掉不少没有意义的维度组合计算。
假设数据立方体有N 个维度,第i 个维度记为D i ,i =1,2,…,N ,维度D i 的取值可用D ij 表示,j =1,2,…,|D i |。维度D i 与维度D i+1 的组合记为(D i ,D i+1 ),组合后生成的特征项集合可表示为S =(D i1 ,D i2 ,…,D im )~(D (i+1)1 ,D (i+1)2 ,…,D (i+1)n )。在数据涵义已知的情况下,通过加入维度组合规则,将维度取值限定在有限个数量较小的集合中,避免出现不合理的维度组合情况。图2所示为一个在3个维度上的组合规则集合特例,其中|D 1|=m ,|D 2|=n ,|D 3|=k ,该维度组合的限定规则集合为
S 1=D 11~(D 21,D 22,…,D 2i )~(D 31,D 32,…)
S 2=D 12~(D 2i ,D 2(i+1) ,…)~(D 31,D 33,…)
…
对于数据立方体中的数据单元C m 和C n ,定义*表示该维度折叠且不考虑聚合计算,则C m 是C n 的父代(或者C n 是C m 的子代)可表示为:
(5)
图2 在3个维度上的组合限定规则集合
通常情况下,维度组合的限定规则可通过对兵棋推演数据的预统计获得,对各维度取值之间的组合情况进行计数,将计数值不为零的组合情况添加到规则集合中。限定规则也可使用排除规则,将不可能出现的维度组合情况加入到规则集合中,其作用原理与组合规则相同。在实际应用过程中,具体使用哪种规则应根据数据预统计情况综合判断。
2)限定维度组合测量阈值
数据立方体的聚合操作一般可以分为分布型(distributive)、代数型(algebraic)和整体型(holistic)3类[3]。在兵棋推演数据聚合操作中,常见的如sum和count等都属于分布型聚合操作。这类分布型聚合操作的父代单元聚合了其所有子代单元的值,由父代单元的取值可得到子代单元的上限和下限,而由子代单元也可以推理出父代单元取值的范围,如式(6)所示。
count(X )=sum({count(X i |i =1,2,…,n )})
(6)
其中,父代单元X 可由子代单元X i 集合组成。对于父代单元X 下的任意子空间g 的取值上下限如式(7)所示:
count(g )=sum({count(X i |i =1,2,…,n )})
count(g )=min({count(X i |i =1,2,…,n )})
(7)
结合式(7)可知,父代单元与子代单元间的包含关系在分布型操作中体现出单调特性,即
C ac [count ]>τ →C a [count ]>τ ,C c [count ]>τ
式中:F为研究对象取值(矿体镍金属量);R为等级值或秩,一般用自然数1,2,n表示;K为常数。齐波夫定律就是:
(8)
由上述父代单元与子代单元的上下限原理,可得维度组合测量阈值限定规则如下:
对于分布型聚合操作,如父代单元的测量值小于阈值,则所有它的子代单元的测量值必定小于阈值,因此可以裁剪掉所有子代单元。
如给定记录r =(a ,b ,c ),若C a [count ]<τ ,则C ab|ac |abc [count ]<τ 。对于n 维度的数据,可先对每个维度进行单维度统计,假设经统计后有k 个单维度数据单元的测量值小于限定阈值(一般设限定阈值为0),则可以裁剪的维度组合数量为2k ,而对于数据库中每条数据记录可减少统计操作2k -n 次。如果单维度阈值筛选效果不佳,也可尝试进行二维或高维的阈值筛选,其原理与单维度阈值筛选相同。由于兵棋推演数据中维度的取值往往具有稀疏性,所以裁剪模型通过限定测量阈值的方法通常可以剔除掉大多数的维度组合。
2.2 特征项标识算法
数据立方体通过维度组合产生了大量的特征项,而这些特征项中不同维度的属性值又包含多种类型,如离散型、连续型以及字符型等等。为便于后续计算,对于单个维度的不同属性值,还需要对其进行字典化处理,即以序列量化的形式对其进行编码。
以夺取制空权作战为例,空中作战任务多维数据模型可表示为:
1)由于维度属性值具有多样性,需要先把记录R 的维度F i 映射成连续的自然数,即F map (f i )→N i ,0≤N i ≤|F i |;
2)在步骤1)中产生n 个自然数N i ,i =1,2,…,n ,形成集合S =(N 1,N 2,…,N n ),对S 中的任意非空子集,使用配对函数产生唯一的自然数标识。
定义4:配对函数(Pairing Function, PF)
配对函数的定义是把二维元组映射为一维元组,可形式化表示为π:N ×N →N 。一般情况下,配对函数是一类双射函数[17],在自然数域内具有单调递增的特性。
在元组维度较高的情况下,可使用嵌套模式进行映射,本文选择Cantor配对函数[18]进行配对映射。在对不同维度的属性取值进行编码的基础上,按照维度顺序对属性取值进行嵌套配对,把中间配对结果当成下一步递归操作的输入。Cantor配对函数的嵌套映射原理见式(9)。
办公室是一个单位的重要窗口,其服务工作质量的高低不仅关系到口碑评价,更关系到单位能否正常高效运转。从办文办会、准备材料、布置会议室到一言一行,每一个细节都不仅仅只是一个细节,要时刻留意这可能给别人带来什么样的感受,是温暖舒心、淡漠无感、还是让人受尽委屈,这直接关系到服务对象的办事积极性,如果办公室的工作人员具备同理心,能感受他人的感受,凡事为他人着想,换位思考,就能为服务对象提供温暖的服务,就能维护好服务对象干事创业谋发展的积极性。
(9)
当元组维度较高时,Cantor配对函数可采用嵌套模式生成映射值,而当某些维度基数较大时,映射结果往往会出现大数值的情况,给标识理解与后续计算带来一定的不便。此时,可考虑对配对函数进行部分改进,其基本思路是在不改变计算模型的情况下,尽量产生较小的映射值。
freq (f i1 )>freq (f i2 )>…>freq (f in )→n 1<n 2<…<n n
1)在数据立方体中,数据单元描述与维度的先后顺序无关,即数据单元(F 1,F 2)=(F 2,F 1);
在图1四边形OABC中,矢量a、c与x轴正向的夹角为φ、φ- ψ(图1(a))或φ+ ψ(图1(b))。将矢量OB= a- c在x、y轴上投影,有x= acφ- ccφ±ψ,y= asφ- csφ±ψ,注意到φ∓ ψ=∓(ψ∓φ),得凸轮廓线方程:
2)嵌套计算为倒序计算,数值排序越靠后则参与循环的次数就越多,其对映射结果的影响就越大。
定义5:改进配对函数(Improved Pairing Function, IPF)
由数据立方体模型产生的维度组合数量是幂级增长的,如给定n 维记录r =(f 1,f 2,…,f n :m ),则可以产生2n 种维度组合。随着维度数量的增加,将会出现海量的维度组合,从而造成数据立方体的“维度爆炸”问题。因此,一般在维度的选择上,需要引入领域专家的先验知识,对相关维度的选取层次与取值范围进行适当的限定,同时考虑计算的时间效率和存储的空间效率,综合选取数据立方体的维度。
IPF (F 1,F 2,…,F n )→|F 1|>|F 2|>…>|F n |
(10)
对给定维度F i :
改进配对函数的理论依据如下:
(11)
式(10)表示对输入维度的先后顺序进行排序,即改进配对函数的输入维度顺序取决于维度基数大小,基数越大则维度越靠前。式(11)表示对维度取值的先后顺序进行排序,在把维度取值编码成连续自然数时,将小自然数赋给出现频率高(freq值大)的维度取值。通过对兵棋推演数据进行预统计,可以得到不同维度基数的大小和维度值的出现频率。使用改进配对函数能够有效减少大数值在嵌套中的计算次数,从而达到控制输出映射值的目的。
特征项标识算法先通过数据统计对维度顺序进行排序,并把维度值出现频率按照由高到低的顺序编码成由小到大的自然数,通过嵌套函数得到所有相关的维度组合,并使用Cantor配对函数获得所有特征项的唯一标识。结合维度组合裁剪模型,对特征项标识算法进行改进,可得到基于裁剪模型的特征项标识算法,如算法1所示。
同时,杨总还向我们透露,该设备其实还能够实现双工序同时进行的功能,即前端搅拌头执行正常的焊接工序,而后面可以同时进行铣削焊道毛刺的工作,进一步提高效率,减少能耗,只是碍于目前的产品结构,该功能未投入正式使用。
柏树湾村拥有特色农业基地8100亩,从创办基地开始,村里就成立了合作社,先后3次发行股份,募集股金588万元,常住村内的148户家家参股。同时,这些基地全部承包给村民,合作社采取“分户管理、集体经营”模式,激发村民劳动积极性。
输入:数据记录r =(f 1,f 2,…,f i :m ),裁剪阈值τ ;
输出:数据r 生成的所有特征项标识。
Step1: set<DCounter>←{};
姜堰境内以新通扬河为界,南部为通南平原,地势高、以高沙土为主,北部为里下河平原,水网密布、以黏土为主,因此风土人情、经济基础有着较大的差异。为此,我们坚持系统思维、战区思维,把实施功能区战略作为对集约发展、特色发展、可持续发展的“规划之纲”,分类打造主城区、工业集中区、溱湖生态经济区、通南经济发展区“一城三区”,通过资源要素最优配置,实现区域协同发展。
Step2: <DCounter>←C ak [count]>τ ,1≤k ≤i ;
Step3: (f1,f2,…,fj)←(f1,f2,…,fi)|<DCounter>;
Step4: 根据IPF模型中式(11)和式(12)进行排序编码操作,(f1,f2,…,fj)→(n1,n2,…,nj);
Step5: set<Combination>=(n1,n2,…,nj)组合所产生的所有特征项集合;
Step6: set<result>←{};
Step7: begin for x∈{<Combination>};
Step8: <result>←pairing function(x);
Step9: end for;
Step10: return <result>.
2.3 时间序列索引描述
在数据立方体框架下,经过维度组合裁剪模型处理后生成的特征项,可视为有效的评估特征项,与评估特征项对应的评估数据需从兵棋推演数据中经聚合计算得到。由于兵棋推演数据本身带有时间标签,其具有内在的时序性,在对兵棋推演数据进行分析时应采用定制时间窗口按需在不同时间粒度上进行分析。
兵棋推演数据中的时间主要包括作战时间和物理时间,作战时间是按照虚拟的作战逻辑进行演化,而物理时间则是对发生具体操作的真实时间的记录,在作战方案评估过程中应以作战时间为主线对兵棋推演数据进行分析。在作战时间轴上对时间进行离散化处理,生成连续的时间片段,按照时间片段对评估特征项进行聚合操作,将得到的结果存入评估特征空间中。
图3 数据立方体时间窗口的聚合操作
如图3所示,数据立方体中的时间粒度选择支持时间窗口间的聚合操作,即小时间单元的累加可得大时间单元上的度量值。假设生成的评估特征项数量为n ,对于任意第j 个特征项,j =1,2,…,n ,其在时间上的度量值均满足时间聚合计算条件,合并算式如式(12)所示:
∀1≤j ≤n :DC [j ,h j (i ta +t b )]←DC [j ,h j (i ta )]+DC [j ,h j (i tb )]
(12)
3 实验结果与分析
以某次兵棋推演数据为基础,讨论联合作战方案中制空权争夺问题。对制空权评估来讲,应重点考虑空中作战、地面防空、侦察预警、干扰压制、后装保障等方面的影响因素,以空中作战因素为例选取兵棋推演数据如表1所示,在属方、任务类型和机型3个维度上进行维度组合,度量指标为数量,时间为作战时间。
经数据预统计可知,属方维度的基数是3,任务类型维度的基数是14,机型维度的基数是84,不经裁剪生成特征项的规模为5100。根据维度组合裁剪模型,属方1对应的空中作战任务类型有12种,共有49种机型参与空中作战任务,每种空中作战任务类型对应的机型数量取值范围在[1,18]中,属方1可生成的特征项数量为99,属方2和3依次可生成50和57,故经裁剪后生成特征项规模为206项,裁剪率接近96%。
抽取作战时间为20XX年X月X日6:00-7:00,作战空间为XX号作战空域,统计在特定时间内能够对XX号作战空域产生影响的作战飞机数量,其中限制条件为空中任务编队距作战空域的距离同时小于探测距离与打击距离(或干扰距离)。设定时间窗口大小为5 min,时间间隔为1 min,共生成60组评估特征数据如表3所示。
考虑空中作战、地面防空、侦察预警与干扰压制4类影响因素,在实际实验过程中对部分维度属性取值在概念层次上进行了聚合,如雷达型号基数较大,则可按照雷达作用距离将其概括为远程雷达、中程雷达与近程雷达3个维度。针对制空权评估问题综合选取了107个特征项,抽取1个小时内100个作战区域的近4 000组评估特征数据作为特征数据集,利用兵棋推演实验来判定制空权标签数据,基于WEKA平台分别采用朴素贝叶斯(NB)、支持向量机(SVM)、多层感知机(MLP)和随机森林(RF)4种机器学习方法进行有监督训练,训练结果如表4所示。
由表4可知,除NB算法外,其余3种算法的分类准确率均超过了92%,而RF算法的准确率略高于SVM和MLP算法。从机器学习算法的分类效果来看,依据本文提出的方法所生成的评估特征项涵盖了制空权评估的部分关键特征,能够为分析制空权评估问题提供有效支撑。由107个特征项与标签组成的训练样本集在制空权分类中的部分数据分布情况如图4所示。
表1 兵棋推演空中作战任务数据示例
表2 经裁剪后生成的特征项规模统计
表3 空中作战任务评估特征数据抽取示例
表4 评估特征数据在4种不同机器学习算法上的训练结果对比
图4 部分评估特征数据在结果分类上的分布情况
4 结束语
基于数据立方体的评估特征项生成,本质上来讲就是提取在特定时空条件下对当前作战态势产生影响的外在表征,且尽可能涵盖相关的关键特征。从部分专家经验来看,大规模的评估特征项可能会有很多没有军事意义或毫无价值,但是从数据的角度来看,特征的意义与价值则取决于特征数据与最终评估问题的相关性。结合从兵棋推演数据中获取的评估特征数据,构建评估特征空间,可为后续的基于机器学习的评估模型提供可靠的训练样本数据集。在评估特征空间构建过程中,主要考虑特征的完备性和数据的时效性两个方面。在完备性方面,主要采用维度组合的方式生成大规模的特征项,再利用裁剪模型缩小评估特征空间;在时效性方面,主要采用移动时间窗口的方法提取特定时段内的特征数据,较好的体现了作战态势的动态演化以及作战效果影响的时延特性。
参考文献:
[1] 胡晓峰, 司光亚, 等. 战争模拟原理与系统[M]. 北京: 国防大学出版社, 2009.
[2] 冷芳玲. 支持高效查询的数据立方构建技术研究[D]. 沈阳: 东北大学博士学位论文, 2008.
[3] Han J, Kamber M, Pei J. 数据挖掘概念与技术[M]. 范明, 孟小峰译. 北京: 机械工业出版社. 2012.
[4] 张亮, 白振兴, 周军, 等. 一种生成封闭数据立方体的新算法[J]. 弹箭与制导学报, 2010, 30(3): 247-250.
[5] 高雅卓. 多维联机分析处理中的高效查询关键方法研究[D]. 合肥:合肥工业大学博士学位论文, 2012.
[6] Wang W, Lu H J, Feng J L, et al. Condensed cube: an effective approach to reducing data cube size[C]∥Proceedings of the 18th International Conference on Data Engineering(ICDE), San Jose, California, USA, 2002. Washington, DC, USA: IEEE Computer Society, 2002:155-165.
[7] Lakshmanan L V S, Pei J, Han J W. Quotient cube: how to summarize the semantics of a data cube[C]∥Proceedings of the 28th International Conference on Very Large Data Bases(VLDB), Hong Kong, China, 2002. [S.l.]: Morgan Kaufmann, 2002:778-789.
[8] Sismanis Y, Deligiannakis A, Roussopoulos N, et al. Dwarf: shrinking the PetaCube[C]∥Proceedings of the ACM SIGMOD International Conference on Management of Data, Madison, Wisconsin, USA, 2002. New York, NY, USA: ACM Press, 2002:464-475.
[9] 奚建清, 游进国, 汤德佑, 等. 基于MapReduce的封闭立方体并行计算方法[J]. 华南理工大学学报(自然科学版), 2009, 37(1): 91-95.
[10] 师金钢, 鲍玉斌, 冷芳玲, 等. MapReduce环境下的并行Dwarf立方构建[J]. 计算机科学与探索, 2011, 5(5):398-409.
[11] 牟雁超, 李红燕, 王腾蛟. PHCC: 一种处理稀疏变化的封闭数据立方体算法[J]. 计算机研究与发展, 2013,50(Suppl.):85-93.
[12] 唐珊珊, 朱跃龙, 朱凯. 基于Map/Reduce的外壳片段立方体并行计算方法[J]. 计算机工程与应用, 2015, 51(22):124-129.
[13] 金苍宏, 刘泽民, 吴明晖, 等. 一种流数据立方体分析挖掘框架[J]. 电信科学, 2014, 9:61-71.
[14] 张子轩, 万定生, 朱凯. 层次维编码片段立方体生成算法应用研究[J]. 计算机技术与发展, 2017, 27(2):134-138.
[15] 王洋, 游进国, 张婷, 等. 数据立方体格的图结构特性研究[J]. 计算机工程, 2017, 43(2):68-73.
[16] 付岩, 冯径, 钱越英. 面向大数据的物化视图选择算法[J]. 计算机应用, 2017, 37(S1):250-254.
[17] 李玮, 张大方, 黄昆, 等. 面向大数据处理的高精度多维计数布鲁姆过滤器[J]. 电子学报, 2015, 43(4): 652-657.
[18] 罗文涛, 许蕴山, 肖冰松, 等. 预警探测中的多传感器多目标分配[J]. 电光与控制, 2014, 21(11): 28-32.
Generation Method of Evaluation Features Based on Data Cube
LIU Hai-yang1,2, TANG Yu-bo1, HU Xiao-feng1, QIAO Guang-peng1
(1.Joint Operations College, National Defense University, Beijing 100091;2.Space Engineering University, Beijing 101416, China)
Abstract : For the problem of traditional generation pattern of evaluation indicators not adapting to rapid change of combat situation, a generation method of evaluation features based on data cube is proposed. Based on wargaming data, generation model of evaluation features is built in the data cube framework, and evaluation features are generated by different dimensions combination. Around the problem of dimension explosion in data cube, dimension combination reduction model is used to narrow the search space, and unique identification is calculated by feature identification algorithm, and evaluation feature data is extracted by moving time window. The test result show that evaluation features generated by the method can support special problem evaluation effectively.
Key words : data cube; wargaming, evaluation feature; machine learning
中图分类号: TJ530+;O34
文献标志码: A
DOI: 10.3969/j.issn.1673-3819.2019.03.022
文章编号: 1673-3819(2019)03-0102-07
收稿日期: 2018-10-31
修回日期: 2018-12-27
作者简介:
刘海洋(1983-),男,山东曲阜人,博士研究生,讲师,研究方向为计算机战争模拟。
唐宇波(1974-),男,博士,高级工程师。
(责任编辑:胡志强)
标签:数据立方体论文; 兵棋推演论文; 评估特征项论文; 机器学习论文; 国防大学联合作战学院论文; 航天工程大学论文;