基于 AdaBoost的潜射防鱼雷诱饵干扰效果预测研究
范学满,张 会
(海军潜艇学院,山东 青岛 266199)
摘 要: 鱼雷来袭时,潜艇通常通过发射诱饵和规避机动进行防御。根据本艇、诱饵和鱼雷的相对态势,实时、准确地预判诱饵的干扰效果即鱼雷能否发现本艇,对本艇进一步防御决策具有重要意义。目前,基于经验的预测无法保证准确率的要求,基于在线仿真的预测无法保证实时性要求。对此,采用机器学习将该问题转化为典型的二分类问题,以本艇、诱饵和鱼雷的相对态势作为分类特征,通过离线仿真生成训练数据集,以错误率降低剪枝决策树(Reduced Error Pruning Tree, REPTree)作为基分类器,构建了基于自适应增强(Adaptive Boosting,AdaBoost)的诱饵干扰效果预测模型。实验结果表明,模型具有良好的鲁棒性和准确性。
关键词: 作战辅助决策;决策树;集成学习;自适应增强法
对于潜艇而言,其威胁主要来自于自导、线导等重型鱼雷以及空投、火箭助飞、舰艇管装等轻型鱼雷。自航式声诱饵不仅能够模拟潜艇的辐射噪声特性和声反射特性,还能模拟潜艇的运动特性,对鱼雷具有很强的欺骗性,已成为潜艇防御声自导鱼雷的主要手段之一[1]。潜艇发射自航式声诱饵后,根据本艇、鱼雷和诱饵的实时态势准确预判鱼雷能够发现本艇,对本艇下一步战术决策影响重大。
本文以离线仿真数据作为训练样本集,利用机器学习构建诱饵干扰效果的在线预测模型。考虑到单一分类器在精度和泛化能力方面的不足,本文采用典型的集成学习[2]算法——AdaBoost[3],综合利用多个基分类器提升预测性能。目前,AdaBoost在机械故障诊断[4]、发电系统孤岛检测[5]和步态识别[6]等多个领域取得成功的应用,但AdaBoost通常采用均匀分布的方式进行样本权重初始化,这并不适应于本文这类不均衡分类问题。为此,本文为AdaBoost引入数据预处理操作,专门进行样本权重初始化,从而降低类别不均衡对AdaBoost性能的影响。在基分类器选择方面,为了保证模型的可解释性,以REPTree决策树[7]作为基学习算法。基于离线仿真数据寻优确定了预测模型的参数,进行交叉校验实验验证了预测模型的有效性。
1 诱饵干扰效果预测数据集
潜艇的鱼雷防御方案可表示为四元组(α m ,α y1 ,t y1 ,α y2 ),其中,α m 、α y1 、t y1 、α y2 分别为潜艇转向角,诱饵的第一次转向角、第一段直航时间和第二次转向角。防御过程为:潜艇鱼雷报警后立即发射诱饵,并转向α m 角度规避,诱饵出水后首先转向α y1 角度,然后直航t y1 时间,然后再转向α y2 角度,然后再直航至航程终了。
使用安全余量作为效能和方案优化指标。安全余量分为瞬时安全余量和过程安全余量两种。瞬时安全余量定义为
(1)
式中,M 为潜艇位置点,C 为鱼雷搜索扇面,d (M ,C )为点M 到扇面C 的距离。过程安全余量定义为整个过程中安全余量的最小值。
潜艇规避成功当且仅当整个规避过程的安全余量大于0。进而根据潜艇、诱饵和鱼雷的运动控制逻辑,建立计算潜艇使用自航式声诱饵防御鱼雷效果的多实体有限状态机模型。利用该模型可仿真得到不同相对态势下诱饵的干扰效果。
AdaBoost的算法流程如下:
仿真中,D ts ,φ ds ,φ sd ,D dt ,φ dt 分别均匀地取10个值,共仿真生成105个样本,作为诱饵干扰效果预测数据集。其中,真实类标签为-1的样本19527个,真实类标签为1的样本80473个。
2 基于AdaBoost的预测模型
AdaBoost是集成学习领域处理分类问题的重要工具,可以集成多个基分类器的优势,提升整体的准确率和泛化性能。本文将AdaBoost用于预测本艇发射诱饵后,鱼雷能否发现本艇。构建AdaBoost模型通常包括数据预处理、基分类器选取和基分类器集成3个步骤。
2.1 数据预处理
X ={x 1,x 2,…,x N }为样本集,N =105为样本总数,类标签y =-1的样本数N 0=19 527,类标签y =1的样本数N 1=80 473,类别比例ρ =N 1/N 0≈4.12。一般而言,如果类别不平衡比例超过4∶1,那么分类器性能会因数据不平衡而受到影响。因此,在构建分类器之前,需要对类别不平衡问题进行处理[8]。
由于AdaBoost是样本权重敏感的分类算法,对于类别均衡的数据集,通常将各样本的权重D 1=(ω 1,1,ω 1,2,…,ω 1,N )初始化为对于类别失衡的数据集,为保证不同类别样本公平的参与分类器构建,需根据式(2)进行权重初始化,
AdaBoost是boosting算法的改进,全称是自适应增强算法,其自适应体现在:前一个基分类器错误分类的样本权重会增大,而正确分类的样本的权重会减小,加权后的新样本继续用来训练下一个基分类器。同时,在每一轮迭代中,加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数,才通过加权集成确定最终的强分类器[12]。
(2)
式中,w 0、w 1分别为类别-1和类别1的样本权重;N 0、N 1分别为类别-1和类别1的样本数。
将N 0=19 527、N 1=80 473代入式(2),得w 0≈2.56e -5、w 1≈6.21e -6。
2.2 基分类器的选择
根据稳定性可将分类算法分为稳定和不稳定分类算法两类。其中,稳定分类算法是指当训练集发生较小变化时,训练所得分类器不会发生较大变化。不稳定分类算法是指当训练集发生较小变化时,训练所得分类器会发生明显变化。常见的分类算法中支持向量机、k最近邻法属于稳定分类算法,决策树和神经网络属于不稳定分类算法[9]。为了保证基分类器集合的多样性,AdaBoost集成学习中通常选用不稳定分类算法,另外考虑到决策树相对神经网络具有可解释性的优势,本文在后续集成分类器的构建过程中均采用Weka中的错误率降低剪枝决策树REPTree作为基分类算法[10]。
由表1可知,基本苗是处理6最高,为7.17万株/亩;依次是处理5为7.15万株/亩,处理3和处理4为7.04万株/亩;处理1最少,为6.90万株/亩。总茎蘖是处理6最高,为16.29万蘖/亩;处理1最低,为14.70万蘖/亩。有效穗是处理6最高,为10.79万蘖/亩;处理1最低,为9.25万/亩。
下面基于P2数据集[11]进行实验,验证REPTree的不稳定性和剪枝技术的重要性。P2问题是个二分类问题,两个类分别定义在由多项式和三角函数分割开的多个决策区域上,这些函数定义如下:
各牧草品种EE含量年际变化不显著(P>0.05),月变化极显著(P<0.01)。2014年和2015年2年平均以星星草EE含量最低为1.10%,其次为垂穗披碱草(1.42%)、青海草地早熟禾(1.48%)、同德老芒麦(1.51%)、青海中华羊茅(1.52%),7月牧草EE含量最高,8月次之,9月牧草EE含量最低。随着生长时间的延长,牧草EE含量逐渐降低(图 5)。
(3)
如图1(a)所示,类别1由五个区域组成,类别2由三个区域组成,两个类别对应的区域面积近似相等。生成一个包含900个样本的原始数据集,其中类别1包含452个样本,类别2包含448个样本。将原始数据集随机划分为等大的两部分,分别记为训练集和测试集。在训练集中添加15%类别噪声数据,添加噪声后的数据集如图1(b)所示。
图1 P2问题
西方文艺复兴的出现。荷兰学者伊拉斯谟(Erasmus)在给朋友的一封信中提到,欧洲将迎来一个历史上的“黄金时刻”,法国人称为“文艺复兴”,“这个复兴就是指突然而又不可逆转地使欧洲人与世界上其他人区分开来的力量。”[5]283从学术到艺术,新思想竞相迸发,文艺复兴表现出一个惊人的方面,即重修文物的行为产生了发明和开放式求知这样的非传统文化。新思想从佛罗伦萨一路传播至葡萄牙、波兰以及英国。文艺复兴的出现给西方,尤其是欧洲国家带来了文化领域的繁荣,而这种繁荣迫使15世纪的欧洲经历了两次结局不同的轴心思想的影响。与其说是新冒险的发现,倒不如说是西方的治理文明是试图扩张政治的影响力。
图2 未剪枝决策树分类边界和错误率
图3 REPTree的分类边界和错误率
2.3 AdaBoost集成
总体上,AdaBoost集成主要分为3步:1)初始化样本集权重;2)自适应训练多个弱分类器;3)将多个弱分类器集成为强分类器。整个建模过程如图4所示。
图4 AdaBoost示意图
在机器学习领域,根据本艇、诱饵和鱼雷的相对态势,预测诱饵的干扰效果即鱼雷能否发现本艇,是一个典型的二分类问题。本艇、诱饵和鱼雷的相对态势可以归纳为本艇到鱼雷的距离D ts 、本艇相对诱饵的舷角φ ds 、诱饵相对本艇的舷角φ sd 、鱼雷到诱饵的距离D dt 和鱼雷相对诱饵的舷角φ dt 这5个特征参数,构成5维特征向量x ,表示一个样本。y ∈{-1,1}表示样本x 的真实类标签,其中,-1代表诱饵发挥了诱骗效果,鱼雷没有发现本艇;1代表诱饵未发挥诱骗效果,鱼雷发现本艇。
AdaBoost集成的基分类器个数取决于迭代次数T,因此有必要研究迭代次数对AdaBoost分类性能的影响。基于离线仿真数据集进行5折交叉校验,研究训练误差和测试误差随迭代次数T的变化。具体操作是,将原始数据集随机分为等大的5份,轮流将其中4份作为训练集,剩下1份作为测试集,每轮得到一组训练误差和测试误差,取5次预测结果的均值作为模型预测效果的估值。实验中将REPTree设置为剪枝、不限层数,其余参数采用Weka默认值。实验结果如图5所示。
1)按照上文的方法初始化训练数据的权重分布,此时
D 1=(w 1,1,w 1,1,…,w 1,N0 ,w 1,N0+1 ,…,w 1,N )=
(w 0,w 0,…,w 0,w 1,…,w 1)
基于添加噪声后的训练集,通过有放回采样生成4个等大小但不相同的子训练集;利用这些子训练集,训练出4个未剪枝的决策树分类器和4个REPTree分类器,并基于测试集分别评估它们的泛化分类错误率。8个决策树的决策边界以及分类错误率如图2、图3所示。可见无论是否剪枝,基于不同训练子集生成的决策树的分类边界都有明显差异,证明了决策树分类算法的不稳定性。对比图2和图3可以发现,未剪枝决策树的分类错误率都高于对应的REPTree的分类错误率,说明通过剪枝的确能提升决策树的泛化能力。另外,当训练集存在噪声时,训练所得的未剪枝决策树的决策边界会出现多个“孤岛”,相比之下REPTree的决策边界与真实边界的偏差较小,对噪声表现出更强的鲁棒性。综上所述,本文选取剪枝REPTree作为基分类器。
习近平在十九大报告中指出,“要以培养担当民族复兴大任的时代新人为着眼点”[1]42。对于“时代新人”,学术理论界进行了广泛讨论和解读。这说明,“时代新人”,作为一个全新概念,体现着党和国家对中国特色社会主义进入新时代的人才培养目标的最新定位。同时,有些学者对这一新提法也存在着误读。为了更好地把握“时代新人”的精神实质,本文试图从以下方面对“时代新人”的培养与使命进行探讨。
(4)
式中,w t,i 为第t 次迭代时第i 个样本的权重;w 0≈2.56e -5、w 1≈6.21e -6。
2)进行迭代t =1,2,…,T
① 利用权重分布为D t 的样本集训练得弱分类器h t ,并计算h t 的再代入分类错误率e t :
③ 更新训练样本集的权重分布D t+1 :
(5)
式中,h t (x i )为h t 在样本x i 的预测类标签;y t 为样本x i 的真实类标签。
② 计算h t 在最终集成分类器中所占权重a t :
(6)
(7)
式中,Z t 为归一化常数。
3)将T 个弱分类器按照权重a t 集成为一个强分类器:
(8)
式中,sign(·)为符号函数。
(昙无)谶所出诸经,至元嘉中方传建业。道场慧观法师,志欲重寻《涅槃后分》,乃启宋太祖资给,遣沙门道普,将书吏十人西行寻经。至长广郡,舶破伤足,因疾而卒。普临终叹曰:“《涅槃后分》与宋地无缘矣。”普本高昌人,经游西域,遍历诸国,供养尊影,顶戴佛钵,四塔道树,足迹形像,无不瞻觌。善梵书,备诸国语,游履异域,别有大传④〔梁〕释慧皎:《高僧传》卷2《昙无谶传》,中华书局,1992年,第80-81页。。
3 实验
基于离线仿真数据进行诱饵干扰效果实时预测有两种思路,一种是直接存储数据,通过查询确定结果;另一种是存储从数据挖掘出的数学模型,利用模型进行预测。第一种思路,受限于存储空间和泛化能力,很难得到实际应用,本文所采用的是第二种思路。本文实验主要包括三方面内容:首先,研究迭代次数AdaBoost分类性能的影响;然后,通过与常用机器学习算法对比验证AdaBoost的有效性;最后,在保证训练误差为0的前提下,使模型尽可能精简,确定AdaBoost的参数,构建最终的预测模型。实验在IntelliJ IDEA平台上利用Java调用Weka API混合编程实现。
中小企业 (Small and Medium Enterprises),又称中小型企业,与同行业的大企业相比,具有人员数量、资产规模、经营范围都比较小的特点。资金可以由单独个人或者少数几个人提供。因其雇用人数与营业额都比较小,所以大多数中小企业的经营由业主直接管理,很少受到外界干涉。在国家大众创业、万众创新的时代下,中小企业在国民经济中所发挥的作用越来越明显。中小企业技术创新能力的提升是我国供给侧改革重要的推动力,是加快经济发展、稳定就业的重要来源。
3.1 迭代次数对AdaBoost分类性能的影响
战乱时期,父亲把工厂迁到武昌区法租界里。1941年太平洋战争爆发,日军立即没收了英法美等租界的全部资产,我父亲的企业落在汪伪政权手中,家中生活来源断绝。父亲经常与老乡躲在一边听收音机短波,盼望把日本鬼子赶出中国,但他没能看到这一天。生活的苦难摧残父亲的健康,他的肺病日渐严重。
为了提高施工质量,项目部根据坝体填筑施工特点,加大了人员管理力度,配备了满足施工要求的作业人员,以保证坝体填筑施工任务顺利进行。加强了对施工队伍的管理,形成两班倒机制,以加强安全生产管理和组织管理工作,保质保量完成坝体填筑施工任务。
图5 迭代次数T对分类正确率Pc的影响
由图5可见,随着迭代次数即基分类器个数的增加,AdaBoost集成模型在训练集和测试集上的分类正确率,总体上都呈现出先迅速上升后趋于稳定的变化趋势。当基分类器个数达到10个时,集成模型在训练集上的分类正确率达到100%,随后一直保持100%不变;集成模型在测试集上的分类正确率也不再有明显变化,上下稍有波动趋于稳定。综合考虑集成模型在测试集和训练集上的分类性能,本文取AdaBoost得迭代次数为10,即AdaBoost由10个REPTree集成得到。
党建工作在热力公司中具有引导激励作用,热力公司的健康发展离不开党建工作。首先,党建工作为热力公司指引鲜明的政治路线,帮助企业明确具有时代特征的政治方针。其次,随着全球经济一体化发展,热力公司不断根据市场需求进行深化改革,对党建工作的要求不断提高,良好的党建工作是热力公司创新与发展的前提。最后,基层党务工作者的先锋模范作用是热力公司发展的需要,良好的党建工作能够提升职工投身热力事业的热情。
3.2 AdaBoost有效性验证
将AdaBoost与典型的分类算法k 最近邻(k Nearest Neighbor,kNN)、支持向量机(Support Vector Machine,SVM),典型集成算法Bagging以及单个REPTree进行对比实验,实验中的k 取3,Bagging与AdaBoost均以10个剪枝REPTree作为基分类器,其余参数采用weka中的默认设置。进行10折交叉校验实验,利用测试正确率衡量算法的泛化能力,结果如图6所示。可见,SVM的泛化能力明显不及另外4种算法,因此重点观察另外4种算法的实验结果,如图7所示。
图6 5种算法的对比实验结果
图7 4种算法的对比实验结果
由图6和图7可见,就5种算法的泛化能力而言,总体上AdaBoost>Bagging>REPTree>kNN>SVM,另外5种算法10折交叉校验的平均分类正确率99.879%(AdaBoost)>99.836%(Bagging)>99.799%(REPTree)>99.680%(kNN)>96.473%(SVM)进一步验证了AdaBoost的泛化能力最强。
真实模拟了工程地形条件,建立了整体有限元整体模型和局部子模型,如图3所示,整体模型有21 586个单元,子模型有13 176个单元。采用有厚度薄层单元模拟防渗墙与上下游侧覆盖层、防渗墙与周边基岩以及廊道与两岸平洞接缝等接触[14-15]。子模型模拟的坝基防渗体系的细部构造如图4所示。
3.3 预测模型最终参数确定
在上文中确定了AdaBoost的基分类器个数为10,同时要求REPTree采取剪枝策略,但对各REPTree的层数并没有限制。REPTree的层数是影响AdaBoost集成预测效率的重要因素,同时层数过多也会造成过拟合影响集成模型的泛化能力,因此在保证分类正确率的前提下应尽可能减少REPTree的层数。基于离线仿真数据集进行5折交叉校验,研究训练误差和测试误差随REPTree最大深度D的变化,实验结果如图8所示。
图8 REPTree最大深度D对分类正确率Pc的影响
由图8可见,当基分类器的最大深度达到10时,集成模型在训练集上的分类正确率趋于100%,并保持稳定;集成模型在测试集上的分类正确率也趋于稳定。因此本文取REPTree最大深度为10。
将绿色环保设计理念应用到建筑室内装饰装修设计当中,能够满足居民的个性化室内装饰装修需求,打造良好的室内装饰装修风格。想要不断减少有害物的排放量,营造一个更加健康的建筑室内环境氛围,设计人员要主动运用绿色环保设计理念进行设计。可以安装LED灯,节省大量的电力能源,减少有毒物质的出现,保证建筑室内装修装饰更为环保绿色。设计人员要树立良好的绿色环保设计目标,了解绿色环保设二级内涵,科学利用自然光,有效满足建筑室内照明需求,保证节能灯具得到更好利用[3]。
综上所述,本文AdaBoost模型的最终参数为:以最大深度为10的剪枝REPTree作为基分类器,基分类器个数为10。基于上述参数,在离线仿真数据全集上训练得到最终的AdaBoost模型,用于潜射诱饵鱼雷干扰效果的预测。
4 结束语
本文采用AdaBoost集成学习将潜射诱饵鱼雷干扰效果预测问题转化为典型的二分类问题,以本艇、诱饵和鱼雷的相对态势作为分类特征,通过离线仿真生成训练数据集,以REPTree作为基分类器,构建了集成预测模型。通过与Bagging、REPTree、Knn、SVM这4种机器学习算法对比,验证了AdaBoost算法的有效性。研究了迭代次数和决策树的最大深度对AdaBoost分类性能的影响,实验结果表明迭代次数和决策树最大深度都取10可以兼顾效率和泛化能力。本文的决策问题虽然只是潜艇作战指挥决策的冰山一角,但集成学习在该问题上的适应性可以推知机器学习等智能算法在潜艇作战智能辅助决策领域的广阔前景。
参考文献:
[1] 李斌, 王顺杰. 潜艇应用自航式声诱饵防御声自导鱼雷仿真研究[J]. 指挥控制与仿真, 2014, 36(3): 98-103.
[2] 王德志, 张孝顺, 刘前进, 等. 基于集成学习的孤岛微电网源——核协同频率控制[J]. 电力系统自动化, 2018, 42(10): 46-52.
[3] Kim B. Imaging Sonar Based Real-time Underwater Object Detection Utilizing AdaBoost Method[C]∥Underwater Technology, IEEE, 2017: 1-5.
[4] 陈法法, 杨晶晶, 肖文荣, 等. Adaboost-SVM集成模型的滚动轴承早期故障诊断[J]. 机械科学与技术, 2018, 37(2): 237-243.
[5] 贾科, 宣振文, 林瑶琦, 等. 基于Adaboost算法的并网光伏发电系统的孤岛检测法[J]. 电工技术学报, 2018, 33(5): 1106-1113.
[6] 杨叶梅, 陈新. 利用惯性传感器和AdaBoost算法的步态识别方法[J/OL]. 计算机应用研究, 2019, 36(5). [2018-03-09].http:∥www.arocmag.com/article/02-2019-05-059.html.
[7] Belouch M, EI S, Idhammad M.A Two-stage Classifier Approach Using RepTree Algorithm for Network Intrudion Detection[J]. 2017, 8(6): 389-394.
[8] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 66-69.
[9] Budgaga W, Malensek M, Pallickara S, et al. Predictive Analytics Using Statistical, Learning, and Ensemble Methods to Support Real-time Exploration of Discrete Event Simulations[J]. Future Generation Computer Systems, 2016, 56(C): 360-374.
[10] 袁梅宇. 数据挖掘与机器学习WEKA应用技术与实践(第2版)[M]. 北京: 清华大学出版社, 2016: 1-4.
[11] Cruz R M, Sabourin R, Cavalcanti G D C. A DEEP Analysis of the META-DES Framework for Dynamic Selection of Ensemble of Classifiers[J]. Computer Science, 2015, 1: 1-48.
[12] 丁文哲, 李新洪, 杨虹. 基于AdaBoost的填充式防护结构超高速撞击损伤研究[[J/OL]]. 北京航空航天大学学报. http:∥doi.org/10.13700/j.bh.1001-5965.2018.0216.
Research on the Interference Effect Prediction of Anti-torpedo Decoys Based on AdaBoost
FAN Xue-man, ZHANG Hui
(Navy Submarine Academy, Qingdao 266199, China)
Abstract : Submarines usually launch baits and evade maneuver to intercept a torpedo. It is of great significance to predict the interference effect of decoys real time and accurately for the further defense decision-making of the submarines. At present, prediction methods based on experience cannot guarantee the accuracy, at the same time, prediction methods based on online simulation cannot meet the real-time requirements. In this regard, the machine learning method is used to transform the problem into binary classification problem. The relative situation of the submarine, acoustic decoy and torpedo is used as the classification features, and the REPTree (Reduced Error Pruning Tree) is used as basic classification algorithm, to construct a decoy’s interference effect prediction model based on AdaBoost (Adaptive Boosting). The experimental results show that the established AdaBoost prediction model has good robustness and accuracy.
Key words : operation assistant decision; decision tree; ensemble learning; AdaBoost
中图分类号: TN181
文献标志码: A
DOI: 10.3969/j.issn.1673-3819.2019.03.011
文章编号: 1673-3819(2019)03-0052-05
收稿日期: 2018-09-25
修回日期: 2018-10-29
作者简介:
范学满(1989-),男,山东青岛人,博士,实习研究员,研究方向为机器学习、智能决策。
始鉴于河南黄河沿岸的堡夫不谙熟堤防的修筑,雍正帝便抽调千名江南河兵调至河南,对黄河沿岸的堤坝险要地段进行修筑与管理。江南河兵调至河南协助河汛,因此对他们多有优待,但是他们懈怠工作,态度散漫,目无法纪,以致于朝廷虽有调兵协助防务,但是并没有收到实际效果。
张 会(1971-),女,博士,副教授。
(责任编辑:许韦韦)