基于逆强化学习的空战态势评估函数优化方法论文

基于逆强化学习的空战态势评估函数优化方法^*

李银通¹，韩统¹，孙楚²，魏政磊¹

（1.空军工程大学航空工程学院，西安 710038；2.解放军94019 部队，新疆和田 848099）

摘要：为提高无人作战飞机（UCAV）自主决策效能，提出基于逆强化学习的空战态势评估函数优化方法。以现有的正例与反例两类空战数据为样本训练一个RBF 网络，采用逆强化学习得到不同态势下的态势值，实现了对现有空战数据的知识提取；利用Sigmoid 函数的压缩作用，降低了整体态势值，加快了UCAV 学习的收敛速度；采用自适应粒子群算法求解优化了态势评估函数中的权重参数，提升了对复杂空战态势的适应能力；仿真结果表明该方法能够优化态势评估函数，提高机动决策的收敛速度，在UCAV 自主决策中具有一定现实意义。

关键词：态势评估，自主决策，逆强化学习，自适应粒子群算法

0 引言

空战态势评估指基于感知的环境信息，评估当前所处态势并预测态势发展^［1］，是现代战斗机辅助决策系统的核心，也是UCAV 空战决策的重要组成部分^［2］，对飞行器的作战使用及性能发挥有重要影响。

空战态势评估本质是建立从感知空战态势信息到态势值的复杂非线性映射关系。空战态势评估中，由UCAV 及所携带武器自身性能所决定的客观判断条件易于实现，如武器发射条件、飞行高度、飞行速度等是否满足；但高度、速度、角度、距离态势的权重分配，以及态势评估函数中参数的选取等非客观判断条件不易实现，一般做法是根据对实际空战情况的理解分析建立模型。目前，空战态势评估的常用方法主要有参量法与非参量法^［1］。文献［3］提出基于动态威力场的空战态势评估方法，以战斗机的各项性能指标构建势场模型，解决了非参量法对动态环境处理能力不足的问题；文献［4］是典型的参量法，通过Bayes 方法分析目标特征的概率分布，以我机平均风险最小或完成任务概率最大为决策准则进行态势评估；文献［5］改进传统的评价指标，利用粗糙集理论建立了多指标综合评价模型。文献［3-5］均要求对实际空战过程有深入理解，并进行精确分析，例如贝叶斯方法中先验概率的选取、基于指标评估方法中的优势函数构造等。以上3 种方法过于依赖设计者个人对实际空战情况的片面理解，参数选取缺乏说服力，虽在特定的条件下能够取得较好的决策效果，却难以适应实际中复杂多变的空战态势。

本文提出的基于空战样本的态势评估较好地解决了上述问题：逆强化学习可以实现对大量空战样本数据的知识提取，从而逼近从参数信息到态势值的复杂映射关系，回避了态势评估函数中非客观判断条件的复杂设计，解决了传统态势评估函数设计中受人为因素影响过大的弊端。

本例以逆强化学习（Inverse Reinforcement Learning）为基础分析空战样本数据，进而得到态势评估函数，再通过强化学习（Reinforcement Learning）以改进策略，将其应用于UCAV 空战态势评估中，可充分发掘空战数据中的态势信息，再通过粒子群算法以及Sigmoid 函数处理态势信息，以实现对态势评估函数参数的优化。整体结构如图1 所示。

2.2 近期疗效术后6周，观察组患者临床总有效率为79.2%，对照组为62.5%，两组比较，差异无统计学意义（P＞0.05）。见表2。

图1 态势评估函数设计结构

1 基本模型

1.1 基本态势评估函数

采用逆强化学习方法提取态势评估函数时，若将态势参数信息到态势值的映射关系作为黑箱系统考虑，计算复杂，无法充分利用已有的先验知识，同时结果的可解释性较差。但是，若将已知的信息进行公式化表示，公式化表示过程中只保留难以确定的参数作为未知量，便将对整体态势函数的优化问题简化为对部分参数的优化问题，简化了计算过程。

依据文献［6-10］中对空战态势评估的研究成果，将态势评估函数分为角度优势函数、速度优势函数、高度优势函数、距离优势函数以及效能优势函数。对由飞机系统性能确定的固有判断条件，直接给出确定结果。

设v_rm为本机最佳空战速度，v_r，v_b分别为本机、敌机的速度，设计速度优势函数为：

新型丝杠螺母由高性能工程塑料 iglidur J200 制成。在 igus 测试实验室中，这款新材料制成的螺母在硬质阳极氧化铝丝杠上运行的使用寿命比同样工况下由标准螺母材料制成的螺母长三倍。配合铝制丝杠使用时，这款新型工程塑料制成的螺母可以降低噪音、减少震动，而且重量更轻。它在火车和飞机的门系统以及物流搬运和自动化领域的应用中非常常见。圆柱形和法兰式丝杠螺母常备库存，适用于大螺距螺纹丝杠和自锁梯形螺纹丝杠。

设雷达最大搜索方位角为φ_R，导弹最大离轴发射角为φ_M，不可逃逸区圆锥角为φ_K。设计角度优势函数为：

1.1.2 速度优势函数

2.政府综合财务报告编制流程。根据《政府综合财务报告试编办法》总则，编制的政府财务报表，有相应的流程要遵守，首先要以下列报表为基础，根据发生的经济事务与相关项目信息；其次依照权责发生制原则进行抵销、调整、合并。具体处理方法如下：①无关内部交易原报表项目，根据有关报表项目汇总项目金额直接录入；②有关内部交易原报表项目，抵销合并，汇总列入项目金额；③调整反映财务报表编制权责发生制为会计基础应反映却没反映的内容，后列入有关项目。温州市试编工作立足上述报表数据，结合相关财务资料，根据经济事项实质，通过剔除、抵销、调整、合并完成试编报告。

在本次研究中，我院就按照中西医结合护理的方式对观察组患者展开护理，结合患者具体情况，分风邪外犯、肝火上炎、痰热郁结、血瘀耳窍、气血亏虚证型，指导患者生活起居，饮食宜忌，情志调理，康复指导等方面，有效提升了临床对该类患者治疗效果，充分证实该护理模式的有效性，值得推行。

1.1.1 角度优势函数

设样本瞬时态势值序列的集合为：

当v_rm≤1.5v_b时

其中，。

1.1.3 高度优势函数

设h_rm为本机最佳空战高度，h_r，h_b分别为本机、敌机飞行高度，设计高度优势函数为：

1.1.4 距离优势函数

与单桩基础相比，多桩基础的嵌岩施工难度相对较小，且目前已有一些应用，如高桩承台基础嵌岩、导管架基础嵌岩等。多桩基础嵌岩的工艺如图4所示。首先，将钢护筒打至强风化岩层的层底位置；其次，在钢护筒内下钻机，缩孔打至设计底标高处；再次，将钻机取出并下放钢筋笼，钢筋笼的高度应由设计计算得出；最后，在桩内进行灌浆，并将钢护筒拔出。

设雷达最大搜索距离为d_R，导弹最大攻击距离为d_M，导弹最大不可逃逸距离为d_Kmax，导弹最小不可逃逸距离为d_Kmin。设计距离优势函数为：

1.1.5 效能优势函数

空战效能由飞行器及携带武器的性能决定，不需进行估计与优化，令T_E表示空战效能优势。

当我机导弹满足发射条件时r_c=10，当敌机满足导弹发射条件时r_c=-10，否则r_c=0；当满足条件：h＞20 000 m 或h＜200 m 或v＞300 m/s 或v＜50 m/s时，r_e=-10；其余条件下r_e=0。

1.2 利用Sigmoid 函数优化态势评估函数

为提升态势评估函数对复杂空战环境的适应能力，本例并非直接将各个态势值的和作为总体态势评估函数，而是利用带权重ω_r，β_r 的Sigmoid 函数对态势评估函数进行优化，均衡了r_A，r_V，r_H，r_D之间的差异，使各个态势值保持在一定的范围，避免因单个态势值差异过大而影响整体评估效果。带权重ω_r，β_r 的Sigmoid 函数为：

将r_A，r_V，r_H，r_D 作为Sigmoid 函数的自变量输入，可得到参数可调的态势评估函数分别为：

由于城市化，特别是城市发展的郊区化，大城市近郊区的现状耕地已经不多，而且零散分布于居民点和独立工厂之间。要根据城市空间发展布局，将规划建设区之间的耕地作为基本农田保护下来，以斑块农田安插在城市发展的各个方向，有效控制城市“摊大饼”式的蔓延。

其中，ω_ri，β_ri，i=1，2，3，4 为待优化参数。式（8）～式（11）中分子为原态势值，其限制了Sigmoid 函数对整体态势值的压缩作用，避免了态势值在接近0 时导致态势的累加效应不明显，降低了其对不同态势的区分度。综上，整体态势评估函数可表示为：

解出最优ω_ri，β_ri，即实现对态势评估函数优化。

2 空战态势评估函数提取与优化

逆强化学习以输出的效用值V（x_t）作为输入状态x_t的评价指标，所以必须提取从x_t到V（x_t）的映射关系。本文应用的重点在于计算效用值V（x_t），考虑到RBF 神经网络非线性逼近能力强，结构简单的特点，故选用它来进行效用值函数的逼近。

综上，态势评估函数的优化问题可表述为：对函数T，修正其中的ω_ri，β_ri，使其对S₁与S₀的输出值满足

逆强化学习所用样本为空战中状态序列，输入RBF 神经网络后输出估计效用值，并依据误差不断修正网络参数，直到满足条件。采用训练完成的网络计算所有样本的效用值序列，依据时序差分学习的值函数更新规则

式中，γ 为折扣率，设定为γ=0.9，在各个状态的效用值序列已知时，即可求出所有状态对应的态势值r_t。最后计算态势评估函数中的未知参数，使其对状态的评估值与态势值r 的误差在允许范围内，即完成了对态势评估函数的优化。

对式（13），在逆强化学习中r_t 未知，导致无法更新效用值序列，因此，无法在单一样本下训练该RBF 神经网络。本文设置两类样本：正例样本集与反例样本集。训练完成的RBF 网络可以实现：对正例样本集的估计效用值大于对反例样本集的估计效用值。

2.1 训练样本与评价指标

空战样本数据为特定的决策与机动动作序列，若空战中决策进行n 步，则样本轨迹S 可表示为：

其中，x_i表示状态，a_i表示在状态x_i下采取的机动决策动作。

正例样本集：击落敌机的决策轨迹，记为S₁；反例样本集：被敌机击落的决策轨迹，记为S₀。

其中，s_i与s_i'分别表示一次空战的决策轨迹。由于逆强化学习输入仅为状态序列x，所以忽略样本集中决策轨迹动作，仅记录状态：

对于决策轨迹状态集S₁与S₀，记RBF 神经网络对其效用值的估计为：

其中，表示一次空战决策轨迹中估计效用值的均值。整个决策集的估计效用值均值记为：

因此，可以将RBF 神经网络对两种训练集估计效用值之差的倒数作为评价指标。设最小可接受效用均值差异为ΔV_min，令，则训练完成的RBF 神经网络应满足：对样本集S₁与S₀逼近其效用值，使其对集合V_s1与V_s0的输出指标满足

2.2 RBF 神经网络的值函数逼近

本文逆强化学习方法基于多输入单输出RBF网络，主要完成由状态x 到效用值V（x）的映射关系，基本结构如图2 所示。

图2 多输入单输出RBF 网络结构

输入层到隐层的非线性映射采用高斯函数为基函数，含有q 个隐层节点的RBF 网络可表示为：

其中，x 为输入状态变量，c_i 为第i 个基函数的中心，σ_i为基函数中心的宽度。

MS与MS(BB)的差值来源主要有两点：一是公式中常数的区别；而是量取的对象，MS量取的是仿真为SK长周期地震计的地面位移，而MS(BB)量取的是不仿真的地面速度。前者的差值为系统差值，后者的差值包含系统误差和量取时的误差，难以界定大小。

设RBF 神经网络输出值为y，输出层的线性映射表示为：

其中，w_i表示各个隐层连接节点的权重。

本文仅以输出层的各个连接节点的权重w_i 为例，推导满足式（16）的RBF 神经网络参数更新公式。设RBF 神经网络输出估计效用值V（x_t^），由式（17）、式（18），样本集S₁与S₀的平均效用值可表示为：

通过“平行四边形面积”的学习，学生可以掌握解决生活中实际问题所需的知识和技能，同时也为接下来学习圆的面积和立体图形表面积打下基础。

评价指标。基于梯度下降策略，输出层权重w_i的更新方式可表示为：

设学习率为η_w，对E 求关于w_i的负导数，w_i的更新公式可表示为：

其中，

同理可以得到参数β_i与向量c_i的更新公式为：

其中，η_β与η_c为对应参数的学习率。

大同刀削面是山西美食的代表，但绝不是全部。山西每个地区几乎都有当地以面为主的特色美食佳肴，如大同、吕梁一带的莜面栲栳栳，晋北的高粱面鱼，太原附近的稍梅、擦尖等都是这类面食小吃的代表。

当评价指标E 满足式（16）时，RBF 神经网络训练完成。

判别人类社会文明程度的重要标志之一，就是是否在性别、年龄、种族、地域等方面存在偏见和歧视。公众的态度和反应固然是重要的，而媒体更不应忘记自己应负的责任和道德担当。无论是正规媒体还是自媒体，也无论是传统媒体还是网络平台，都不要为了流量和阅读量，有意臆造一些与实际不符且有歧视倾向的热点和概念，而读者和公众也应该多一些理性、客观的判断和认知。

2.3 态势评估函数的优化与参数求解

依据式（17）～式（27），可对RBF 神经网络进行训练，得到样本的效用值序列，由式（13），可计算每个状态瞬时态势值r_t，表示为：

当v_rm＞1.5v_b时

其中，

将样本中的状态序列输出作为态势评估函数，同样可以得到每个样本的态势评估值。当由态势评估函数得到的态势评估值与通过逆强化学习方法提取的态势值相差较小时，表明态势评估函数的性能较好；反之，如果两者差异过大，则说明态势评估函数误差过大，需要进行参数更新。

5.搭架引苗幼苗茎蔓长10—15厘米搭架引苗，距离幼苗10厘米每窝插一根支架（支架长1.8—2.0米，可用竹杆、灌木棍等材料），对窝达成一“人”字架，为增强支架牢固性，每厢“人”字架顶采用横杆连为一体。

其中，，与分别表示当前态势评估函数T 对S₁与S₀的态势均值。

对于式T=T_A+T_V+T_H+T_D+T_E的参数优化问题，由于缺乏ω_ri，β_ri的先验知识，所以初值设定比较困难。但考虑到该问题维度不高，且目标函数比较简单，故本文采用自适应粒子群算法进行态势评估函数优化问题中的最优参数求解。由于篇幅限制，不再赘述该算法相关原理。

3 仿真实验

3.1 态势评估函数的提取仿真

本文选择了两组典型的空战机动动作：后置跟踪滚转机动与高速Yo-Yo 机动作为样本提取态势评估函数。正例样本为后置滚转机动，反例样本为高速Yo-Yo 机动。图3 与图4 为两组机动中双方的飞行轨迹，红色为我机轨迹，蓝色为敌机轨迹。通过Simulink 仿真实现机动动作，仿真运行40 s，并以0.036 s 为时间间隔记录空战时间内对抗双方的状态变量，作为RBF 神经网络的输入。

逆强化学习的RBF 网络选取输入状态变量为，增加q_r、q_b、V_r的微分项，利于更全面地描述空战态势变化情况；依据输入的状态变量设置11 个输入层节点；隐层设置638 个隐层节点；设置1 个输出层节点，输出对状态效用的估计值V（x_t）。其余参数设置分别为：E_max=0.5，η_w=η_β=η_c=0.90，径向基函数中心、中心宽度与隐层到输出层的权重均初始化为随机数。训练结果如图5～图7 所示。

图3 后置跟踪滚转机动轨迹

图4 高速Yo-Yo 机动轨迹

图5 正例样本总态势值

图6 反例样本总态势值

图7 训练后期两类样本差值

训练初期，由于网络参数的随机性，其对正例反例样本的态势值的估计波动较大；训练后期，两类样本估计态势值之差逐渐稳定，此时RBF 神经网络对正例样本的态势估计值大于反例样本；最终指标在误差范围内，对两类样本的估计态势值差值稳定在4.035 附近，大于（E_max）^-1=2，RBF 神经网络的训练完成。

3.2 态势评估函数性能分析

由上节中得到的态势值序列，采用自适应粒子群算法求解态势评估函数中的最优参数。态势评估函数中的参数设置为：φ_R=65°，φ_M=35°，φ_K=20°，v_rm=200 m/s；h_rm=2 000 m；d_R=60 km；d_M=10 km，d_Kmax=5 km，d_Kmin=1 km。自适应粒子群算法参数设置为：minΔr=0.1，c₁=c₂=2，ω_max=0.9，ω_min=0.6，粒子数取100，迭代步数取150。得到适应度变化曲线如图8 所示。

图8 粒子适应度曲线

各个变量对应最优权重为：ω_r1=0.870 4、ω_r2=0.516 2、ω_r3=0.646 9、ω_r4=0.302 0、β_r1=0.291 7、β_r2=0.120 7、β_r3=0.049 1、β_r4=0.355 7。

他们披头散发，蓬头垢面，日复一日，年复一年，在暗无天日的井洞里，顽强地坚持着。这样的作业空间，这样危险的工作环境，每一个采矿者的生命，随时都会从阳间一步踏过奈何桥，走向死亡。生命之于他们，只是在阳世间的短时间寄存。每一天清晨他们进入矿洞，便是生死两茫茫，晚上，不知道还能不能回到栖息的工棚。

“生态移情”实质上更深刻、系统地表达了一种整体论的移情与认同思想。在这种意义上，“生态移情”能够能动地引导人们去设身处地的爱护动物，自觉地保护生物多样性，从而实现人与自然界其他物种的和谐相处。

结果表明，近距空战最重要的影响因素为角度优势，所占权重最大，其次是速度优势与高度优势，而距离优势的所占权重最小，与近距空战实际相符。

将改进后的态势评估函数用于UCAV 机动决策与改进前进行对比。这里给出不同仿真条件下态势值随训练次数的变化，以观察态势评估函数对策略收敛速度的影响，结果如图9，图10 所示。

图9 态势评估函数随训练次数变化曲线1

图10 态势评估函数随训练次数变化曲线2

从图9，图10 中可以看出：改进后的态势评估函数提升了态势值的收敛速度，两种仿真条件下，改进后态势评估函数均比未改进的提前收敛到最优策略。

对态势评估函数的优化过程中使用Sigmoid 函数的压缩作用，导致整体态势值的降低，对比双方态势值的差异，如图11 所示。

图11 10 次训练中的态势值

改进后的态势评估函数，决策系统在10 次训练中的态势均值为9.889 0，方差为0.174 2；而未改进态势评估函数决策系统的态势均值为13.179 6，方差为0.394 1，方差的降低说明改进后的态势评估函数增强了决策系统的稳定性；总态势值的降低，保证了较好的区分度，并加快了UCAV 学习的收敛速度。

4 结论

本文提出的以RBF 神经网络为基础的逆强化学习方法，解决了强化学习在UCAV 自主决策中的态势评估函数非客观判断条件设计困难的问题；创新性设计了基于Sigmoid 函数参数可调的空战态势评估函数；采用自适应粒子群算法，依据逆强化学习的输出结果对原态势函数中的参数进行优化。通过对比，证明该方法能够提升无人机自主决策系统的策略收敛速度与稳定性，克服了传统奖赏函数设计中主观性过强的缺点，较好地提升了其对不同空战态势的适应能力。

参考文献：

［1］周思羽，吴文海，高丽，等.空战态势评估问题综述［C］//中国系统仿真技术及其应用学术年会，2011.

［2］董彦非，郭基联，张恒喜.空战机动决策方法研究［J］.火力与指挥控制，2002，27（2）：75-78.

［3］李战武，常一哲，杨海燕，等.基于动态威力场的协同空战态势评估方法研究［J］. 系统仿真学报，2015，27（7）：1584-1590.

［4］DAS S，GREY R，GONSALVES P. Situation assessment via Bayesian belief networks［C］// International Conference on Information Fusion.IEEE，2002：664-671.

［5］王礼沅，张恒喜，徐浩军.基于粗糙集的空战效能多指标综合评估模型［J］.航空学报，2008，29（4）：880-885.

［6］NARAYANA R P，SUDESH K K，GIRIJA G. Situation assessment in air combat：A fuzzy-bayesian hybrid approach［C］//Proceedings of the International Conference on Aerospace Science and Technology，Bangalore，2008.

［7］NG A Y，RUSSELL S J.Algorithms for inverse reinforcement learning［C］//International Conference on Machine Learning.2000：663-670.

［8］史建国，高晓光，李相民.基于离散模糊动态贝叶斯网络的空战态势评估及仿真［J］.系统仿真学报，2006，18（5）：1093-1100.

［9］吴文海，周思羽，高丽，等.基于导弹攻击区的超市局空战态势评估改进［J］. 系统工程与电子技术，2011，33（12）：2679-2685.

［10］顾佼佼，刘卫华，姜文志.基于攻击区和杀伤概率的视距内空战态势评估［J］. 系统工程与电子技术，2015，37（6）：1306-1312.

［11］荆献勇，宁成达，侯满义，等.一种新的超视距空战目标威胁评估距离指标模型［J］.火力与指挥控制，2017，42（8）：19-23.

［12］许建锐，李战武，欧建军，等.基于概率影响图的空战能力评估模型［J］.火力与指挥控制，2017，42（11）：86-90.

An Optimization Method of Air Combat Situation Assessment Function Based on Inverse Reinforcement Learning

LI Yin-tong¹，HAN Tong¹，SUN Chu²，WEI Zheng-lei¹
（1.School of Aeronautics Engineering，Air Force Engineering University，Xi’an 710038，China 2.Unit 94019 of PLA，Hetian 848099，China）

Abstract： In orde r to improve the effectiveness of autonomous decision making of Unmanned Combat Aerial Vehicle （UCAV），an optimization method of air combat situation assessment function based on inverse reinforcement learning is proposed. Firstly，a RBF network is trained with the existing positive and negative air combat data. Through inverse reinforcement learning，the situation values under different situations are obtained to extract the knowledge of the existing air combat data. Then the overall situation value is reduced by the compaction of sigmoid function，which speeds up the convergence speed of UCAV learning. Meanwhile Adaptive Particle Swarm Optimization algorithm is presented to optimize the weight parameters of the situation evaluation function，which improves the adaptability to the complex air combat situation. Finally，the simulation results show that this method can optimize the situation evaluation function and improve the convergence speed of maneuver decision making，which has a certain practical significance in UCAV autonomous decision making.

Key words： situation assessment，autonomous decision-making，inverse reinforcement learning，APSO

中图分类号： V279.3

文献标识码： A

DOI： 10.3969/j.issn.1002-0640.2019.08.019

引用格式：李银通，韩统，孙楚，等.基于逆强化学习的空战态势评估函数优化方法［J］.火力与指挥控制，2019，44（8）：101-106.

文章编号： 1002-0640（2019）08-0101-06

收稿日期： 2018-05-22

修回日期： 2018-08-26

*基金项目：航空科学基金（20175196019）；陕西省自然科学基金资助项目（2017JM6078）

作者简介：李银通（1995- ），男，河南周口人，硕士研究生。研究方向：无人飞行器作战系统与技术。

Citation format： LI Y T，HAN T，SUN C，et al.An optimization method of air combat situation assessment function based on inverse reinforcement learning ［J］.Fire Control & Command Control，2019，44（8）：101-106.

标签：态势评估论文; 自主决策论文; 逆强化学习论文; 自适应粒子群算法论文; 空军工程大学航空工程学院论文; 解放军94019部队论文;