基于直觉模糊博弈的无人机空战机动决策
李世豪, 丁 勇, 高振龙
(南京航空航天大学自动化学院, 江苏 南京 211106)
摘 要: 为解决不确定环境下无人机空战的机动决策问题,将博弈论和直觉模糊集结合,首先对无人机的机动可选方案进行直觉模糊多属性评估,得到机动博弈的直觉模糊支付矩阵,并提出满足直觉模糊全序关系下的纳什均衡条件,建立了求解不确定环境下纳什均衡的规划模型。同时,采用个体控制参数和遗传代数自适应的策略改进差分进化算法,并对模型进行求解。仿真验证模型和算法的合理性和有效性,为不确定环境下空战决策问题的求解提供了新思路。
关键词: 机动决策; 直觉模糊; 纳什均衡; 差分进化算法
0 引 言
无人作战飞机(unmanned combat aerial vehicle,UCAV)在空战过程中需要根据复杂的战场态势信息决策出最优的战术方案或机动动作,无人机决策机制的优劣是能否顺利完成空战任务的关键[1-8]。由于空战具有强烈的对抗性和复杂的冲突性,以博弈论为基础的决策方法相比其他方法,如影响图决策[1]、智能算法[2-3]和贝叶斯推理[4]等,因其充分考虑对抗双方之间的相互关系,更能客观地对空战态势进行预测分析[7-9]。
值得注意的是,经典对策理论只讨论了支付值为清晰的博弈[7-8],但在实际环境中,由于机载传感器误差和敌方干扰信号等因素的影响,无人机获取的态势信息往往具有不确定性,且多为模糊信息,若将这些模糊信息硬性地转化为清晰值,这样就会导致信息的扭曲和丢失,再由决策方法得出的策略选择自然就失去了可信性[10-15],因此研究基于模糊信息的无人机空战决策更具有现实意义。文献[16]建立了支付值为区间数的空战博弈模型,但对纳什均衡的求解需要每一步都建立可能度矩阵对区间数进行排序,求解较为繁琐且容易丢失模糊信息。直觉模糊集[13-14](intuitinistie fuzzy sets,IFS)是保加利亚学者Atanassov[13]对传统模糊集[15]的进一步拓展,由于直觉模糊数的二元标量性具有更强的模糊表述能力,被广泛地应用于解决不确定环境下的决策问题[10-12]。文献[10]讨论了支付值为直觉模糊形式的矩阵博弈模型,利用权重将直觉模糊隶属度和非隶属度加权相加转化到实数集上求解纳什均衡,权重的选择需要决策人承担风险,不具客观性。
基于此,本文针对不确定环境下无人机空战机动决策问题,提出一种无人机空战机动直觉模糊博弈模型,其框架如图1所示。该模型根据获取的空战态势信息对敌我双方的机动对策进行多属性评估,从而得到机动博弈的直觉模糊支付矩阵;并在此基础上建立满足直觉模糊全序关系的求解纳什均衡的非线性规划模型。此外,为解决纳什均衡求解的非确定性多项式(non-deterministic polynomial, NP)问题[17-19],采用控制参数和最大迭代次数自适应的策略改进基本的差分进化(differential evolution, DE)算法[20],并对模型求解。最后通过仿真,验证了直觉模糊博弈模型和纳什均衡求解算法解决不确定环境下的无人机机动对抗问题的有效性。
由于夏季气温过高,影响导致进风口气温过高。基于此种情况,我们可以选择在进风口进行制冷处理。可以使用脉外低温巷道降低入风温度、对进风风流采用冷水逆流喷淋降温等技术处理。比如可以向矿山的进风井中进行低温水逆流喷淋(武安-30喷雾器)。当进风量为12m/s,温度为26℃,喷水量为40t/h时,这时候温度可以降低2.2~2.6℃。如果是采用冰块与27℃水混合的冷却水在工作面进行风筒喷雾,这时候能够使工作面的入风温度平均下降5.5~6.5℃,相对湿度由原来的40%增加到50%,耗水量约0.24L/min。这种技术降低了夏季的入风气温,效果很好。
图1 空战机动IFS博弈框图
Fig.1 IFS game block diagram of air combat maneuvering
1 不确定环境下空战机动博弈评估体系
通过直觉模糊多属性决策[13-14]的方法对无人机的机动方案进行评估,建立如图2所示的不确定环境下的空战评估体系。红、蓝方无人机可通过评估体系确立的直觉模糊支付矩阵得到在纳什均衡条件下的最优机动决策。
图2 不确定环境下的空战评估体系
Fig.2 Air combat assessment system under uncertain environment
1.1 机动方案集
假设空战对抗双方分别为红方和蓝方,无人机最终的运动轨迹可以看作是由每一步决策的机动动作的组合[2,4-6,8,21]。美国国家航空航天局(national aeronautics and space administration,NASA)学者设计了7种基本机动动作[8,21]:①保持原定飞行;②最大加速直飞;③最大过载左转;④最大过载右转;⑤最大过载爬升;⑥最大过载俯冲;⑦最大减速飞行,如图3所示。在具体的空战过程中,红蓝双方无人机的机动方案可在上述7个基本动作的基础上作适当的扩充。设红蓝方无人机的可选机动方案集分别为
(1)
式中,α i (i =1,2,…,m )为红方无人机可选机动方案的编号;m 为红方无人机可选机动方案总数;β j (j =1,2,…,n )为蓝方无人机可选机动方案的编号;n 为蓝方无人机可选机动方案总数。
图3 无人机机动方案集示意图
Fig.3 Schematic diagram of unmanned aerial vehicle maneuvering set
1.2 机动决策评估属性
根据文献[22]对空战态势的评估方法,本文选取对机动方案评估的属性集C 为
C ={A ,D ,V ,H }
(2)
式中,A 为角度威胁因子;D 为距离威胁因子;V 为速度威胁因子;H 为高度威胁因子。
局中人P 1的最优策略是使自己的直觉模糊期望收益最大,即max(ρ ,σ );局中人P 2的最优策略是尽量减少自己的损失,即min(η ,γ )。由矩阵对策的最大最小定理[26],若局中人都在对方的纯策略下,选择混合策略使自己的收益最大,则问题归结为求解非线性规划模型。
表1 模糊语言与直觉模糊数对应关系
Table 1 Relationship between fuzzy language and intuitionistic fuzzy numbers
1.3 属性权重的确定
设q 为属性评估数,属性c i (i =1,2,…,q )相对于属性c j (j =1,2,…,q )的重要标度r ij 按照知识经验和实际问题需要取得[25],如表2所示。
表2 属性重要性标度
Table 2 Scale value of attribute importance
属性c j 相对于属性c i 的重要标度r ji 为r ij 的倒数,即r ij =1/r ij ,则可得到标度矩阵为
(3)
计算各项属性的权重为
(4)
式中,ω i (i =1,2,…,q )为属性c i 的权重。
1.4 机动博弈支付矩阵的确立
显然上述的定义的序为全序关系,下面给出满足此序关系下的纳什均衡条件。
(5)
定义 1 [14,24] 设a j =(μ j ,v j )(j =1,2,…,n )为一组直觉模糊数,则直觉模糊加权集结算子可定义为
为了对结合梁的动力性能有更深入的研究,设计了6片钢-混凝土简支结合梁,通过变化模型列车的载重和速度,测试了结合梁模型在移动荷载作用下的动力响应,并根据试验结果对结合梁动力响应的变化规律进行了分析。
IFWA ω =ω 1a 1⊕ω 2a 2⊕…⊕
(6)
式中,ω =(ω 1,ω 2,…,ω n )为a j (j =1,2,…,n )的权重向量,满足条件
2.融合发展与单向嵌入发展的扬弃。维护和实现国家统一必然涉及中央与相关地方之间相对特殊的关系,在经济社会发展过程中自然产生单向性嵌入发展的模式惯性,如对边疆民族地区的“援建”、对港澳台地区的单向投入等。此类单项式政策有较强的针对性并取得了一定效果。但从长远来看,双方互动发展的不足制约了发展的可持续性,也难以在利益的一体性上得到深入和拓展。在这个意义上,融合发展是对单向嵌入发展方式的扬弃。通过积极的双向互动,融合发展打破以往受惠方与施惠方之间简单的二元关系,各方作为共同发展的主体身份被明确。同时,各方成为共同发展的参与者、共同利益的分享者,各方休戚以共的命运共同体意识得以培育。
若为无人机在属性c i 下的直觉模糊评估矩阵,可用式(6)将加权集结为直觉模糊支付矩阵,即
β 1β 2…β n
(7)
其中
2 不确定环境下的机动博弈模型
直觉模糊期望收益值的隶属度、非属度分别表示局中人对策略的接受、拒绝,由于其具有二标度冲突的性质,通常用得分函数法对直觉模糊数进行排序。
定义 2 [26] 设为直觉模糊支付矩阵,局中人P 1、P 2分别以概率x i 和y j 选取纯策略α i ∈S 1和β j ∈S 2,称
(8)
分别为局中人P 1、P 2的混合策略空间,相应的称x =(x 1,x 2,…,x m )T、y =(y 1,y 2,…,y n )T分别为局中人P 1、P 2的混合策略,为直觉模糊二人零和矩阵对策。根据直觉模糊数的运算法则[13-14,24],称
(9)
为直觉模糊期望收益函数。
三是加强基层水利服务体系建设。为解决基层水利服务体系建设相对滞后、管理不规范、经费保障不足等问题,水利部、中央编办、财政部在深入调查研究的基础上,联合印发了《关于进一步健全完善基层水利服务体系的指导意见》,提出了加强基层水利服务体系建设的思路与措施。其中,明确要求多渠道筹措资金,加大基层水利服务体系建设的投入力度,将基层水利服务机构的人员经费和公益性业务经费纳入县级财政预算,为全面提高基层水利服务能力创造了良好条件。
本文所讨论的不确定环境下机动博弈问题,本质上归属于二人零和矩阵博弈[26]的范畴。将空战双方视为参与博弈的局中人,由于空战信息的不确定性和局中人的有限理性等因素的影响,局中人对局势的判断往往具有一定的模糊性和不确定性,用具有两个标度的直觉模糊数表示博弈的支付值,为解决此类问题提供了一条有效途径[10-12]。
定义 3 [24] 设a 1=(μ a1 ,v a1 )、a 2=(μ a2 ,v a2 )为直觉模糊数,δ (a 1)=μ a1 -v a1 和δ (a 2)=μ a2 -v a2 分别为a 1和a 2的得分值,h (a 1)=μ a1 +v a1 和h (a 2)=μ a2 +v a2 分别为a 1和a 2的精确度。
(Ⅰ)若δ (a 1)<δ (a 2),则规定a 1小于a 2,记为a 1pa 2;
(Ⅱ)若δ (a 1)=δ (a 2),则
式中,为当前种群的平均适应度值;CRi 为当前个体的交叉率,CRmax与CRmin分别为CR取值的上下限。式(16)表明,目标个体v i,g 的适应度小于平均适应度时,说明目标个体较优,应取较小的CRi ,试验向量u i,g 的信息较多取自目标向量v i,g ;反之,当差值较大时,试验向量u i,g 信息较多取自变异向量w i,g ,有利于种群的多样性;Δg 算子可保证在算法进化前期有较大的CRi 值,增加种群多样性加快收敛速度,在进化后期有较小的CRi ,有利于寻找最优解。
当若h (a 1)=h (a 2),规定a 1等于a 2,记为a 1=a 2。
若红方无人机选择机动方案α i (i =1,2,…,m ),蓝方选择机动方案β j (j =1,2,…,n ),按表1转化为直觉模糊数a ij =(μ ij ,v ij )对方案进行定量评价,则在属性c i 下红方的直觉模糊评估矩阵可表示为
定义 4 设为直觉模糊期望支付函数,若存在(x *,y *),对∀x ∈X ,∀y ∈Y 都有
(10)
成立,则称混合策略(x *,y *)为满足直觉模糊矩阵博弈的均衡策略。
在空战对抗中,由于信息的不确定性,难以用精确的数值表述红蓝方无人机采取机动方案对对方的威胁程度[10-14,16,23],这里用模糊语言将每个威胁因子划分为7个等级。在实际作战中需要将模糊语言转化为确定数值参与决策过程,直觉模糊数更能全面度量原信息的模糊程度[13-14,23-24],因此将模糊语言转化为直觉模糊数,其对应关系如表1所示。
压轴题往往是两大主线——函数与几何综合题,以函数为载体中渗透了方程、函数思想,转换思想,数形结合,化归思想,分类讨论等思想。以几何综合题以基本图形为主,直角三角形中斜边上的高与中线,全等基本图形,相似基本图形,八字型基本图形,圆中计算,圆中证明以及几何题中从特殊到一般,从一般到特殊,转换等数学思想,通过大题小练等循序渐进的方法突破。
max(ρ ,σ )
(11)
和
min(η ,γ )
(12)
式中,ε k 是混合策略中第k 个分量为1的纯策略。
按照空战价值评估体系建立直觉模糊支付矩阵求解规划模型,可得到无人机在不确定环境下的最优机动策略。由于空战环境多变,约束条件复杂,为满足快速实时性的决策要求,用优化算法求解。
Waters AcquityTM超高效液相色谱(UPLC)系统,包括Waters串联质谱(MS/MS)检测器、Masslynx 4.1工作站(美国Waters公司);LC-4016型低速离心机(安徽中科中佳科学仪器有限公司);TG16-WS型高速离心机(长沙湘仪离心机仪器有限公司);AB135-S型十万分之一电子天平[梅特勒-托利多仪器(上海)有限公司];XW-80A型微型涡旋混合器(上海沪西分析仪器厂有限公司);BCD-225CHC型冰箱(合肥美菱股份有限公司);Milli-Q GradientA10型超纯水系统[密理博(上海)贸易有限公司]。
3 改进差分进化算法求解
差分进化算法是一种具有较强的全局搜索能力的智能优化算法,通过种群内的变异、交叉和选择的操作更新种群,进而找到最优解。差分算法性能的优劣很大程度上取决于控制参数的选择[27-29],本文采取自适应的个体控制参数和最大迭代次数策略改进差分进化算法(improved differential evolution, IDE)以提高算法全局的收敛性和收敛速度,同时保证其精度。
等值线追踪法实现简单,但是需大量后期人工作业进行修订,因此,该方法效率低、劳动强度大,且易受主观因素影响。
3.1 适应度函数
红方无人机的最优策略是使自己的博弈收益在满足约束条件下最大,蓝方无人机则相反,取式(11)和式(12)的目标函数作为适应度函数,由于都为求最值问题,可将两个目标函数结合为一个适应度函数,即
第一次淬火时,淬火感应圈1的长直角边5到齿圈2的倒角端面6的落差为3.5mm,加热时间设定为5.8s,冷却时间设定为10s,冷却时间即喷水时间,也需要控制,时间短易出现屈氏体,甚至是喷水压力也应该有效控制,通常压力控制在0.3~0.45MPa,压力小易导致淬火件金相组织不均匀,易出现屈氏体,降低金相等级。
)+
用料:财神蚝油 100 g,李锦记精选生抽250 g,白砂糖、芝麻油各10 g,鸡粉25 g,白胡椒粉、沙姜粉、花雕酒、李锦记豆瓣酱各50 g,湿淀粉20 g。
山药又名白苕、薯蓣、大薯,是薯蓣属一年生或多年生缠绕藤本植物,以其地下肥大的块茎或圆柱状茎供食用。山药的生长期长、农本投入大、栽培费工,在栽培中要求土壤土层深厚肥沃,江苏省主要在苏北徐淮地区栽种。由于山药的营养丰富,可药食兼用,既是可口的蔬菜、又是滋补的良药,深受国内外广大消费者青睐。
)
(13)
3.2 变异操作
缩放因子F 的作用在于对每个基向量进行缩放,生成新的变异向量,较大的F 可以在较大范围内搜索潜在可能最优的解,反之,较小的F 可以加快收敛速度并提高精度[28-29]。同时,若个体的适应度较优时,希望F 较小减少对较优个体的扰动;个体较差时,希望扩大解的搜索范围,此时应采用较大的F 。本文根据进化时间和最优个体与最差个体差值来确定每个个体的缩放因子,设计为
(14)
式中,Δg =(G -g )/G ,G 为最大迭代次数,g 为当前迭代次数;f best为种群最优的适应度值;f worst为种群最差的适应度值;f i 为当前个体的适应值;F max与F min分别为F 取值的最大值和最小值。式(14)表明,如果该个体与最优个体的适应度相差较大,说明与最优个体在空间中相距较远,F i 取较大的值意味着对个体产生的扰动也较大,即扩大了算法搜索范围,增强了全局搜索能力;如果适应度相差较小,F i 取较小的值,对个体产生的扰动也较小,搜索只在个体附近的小区域进行,增强算法开发能力;在算法进化后期Δg 取值较小,可使搜索在个体附近的局部区域进行,保证了算法的求解精度。
本文采用文献[20]提出的DE/Current-to-best策略得到的变异向量为
w i,g =v i,g +F i ·(v best,g -v i,g )+F i ·(v r1,g -v r2,g )
(15)
属性的重要程度为角度>距离>速度=高度,则根据表2可确定属性标度r 12=1.25,r 13=1.75,r 14=2;r 23=2,r 24=1.75;r 34=1,下标1~4依次代表角度、距离、速度和高度属性,可得到属性标度矩阵为
3.3 交叉操作
交叉率(cross reactivity,CR)决定了变异个体和原个体在各维向量上的交叉概率,对于适应度较差个体的较大的CR可加快改变该个体的结构,同时希望在进化后期能有较小的CR以减少目标个体对试验个体的扰动,保证算法的收敛速度,设计交叉率为
(16)
当h (a 1)<h (a 2),规定a 1小于a 2,记为a 1pa 2;
交叉操作可表示为
(17)
式中,u ij,g 为试验向量u i,g 的第j 个分量;rndr为不大于个体维数T 的随机整数;rand[0,1]为大于0小于1的随机数。
1.促进学生尝试参与策略。学生根据确定的目标和方法,在教师的组织和指导下,积极参与学习的过程。包括学生个体自主探究,小组相互探讨,集体相互交流和师生相互释疑等自主学习方式。学生通过探究、独立思考、自主感获取知识。学生对尝试中遇到的困难,可以请求教师指导,然后进行再尝试练习,直至尝试成功,从而激发了学生学练的主动性和积极性。
3.4 选择操作
选择操作是在新产生的试验向量与原目标向量之间选取更好适应度的成为下一代种群的成员,是一种“贪婪”的选择操作,选择操作可描述为
(18)
式中,v i,g +1为下一代个体向量。
3.5 算法步骤
步骤 1 个体编码。假设红方无人机有m 个机动方案、蓝方无人机有n 个机动方案,算法的搜索空间表示为
v =[x 1,x 2,…,x m ,y 1,y 2,…,y n ]
且满足
步骤 2 种群初始化。随机产生在可行域上种群规模为NP的种群。每个个体表示为
v i (i =1,2,…,NP )
步骤 3 计算个体的适应度值f i,g ,并记录当前种群的最优值f best和最劣值f worst。
步骤 4 自适应最大迭代次数判断。若种群的本次最优适应度值f best和上次迭代最优适应度值的差值小于阈值ε 并连续保持ΔN 次,认为算法达到稳定状态或达到最大迭代次数,结束算法迭代并输出最优值。反之,继续下一步。
步骤 5 变异。对于每个目标向量v i,g ,由式(14)和式(15)产生变异向量w i,g +1。
步骤 6 交叉。对于交叉操作由式(16)和式(17)产生试验向量u i,g +1。
步骤 7 选择。按照贪婪准则式(18)选择下一代个体,使子代个体总是优于或等于父代个体。
步骤 8 迭代次数g 加1,转至步骤4。
4 仿真分析
假设红蓝方无人机进行一对一空战,红方坐标为(450 m,100 m,800 m),速度230 m/s,航向偏转角-60°,俯仰角5°;蓝方无人机坐标(1 250 m,900 m,800 m),速度250 m/s,航向偏转角128°,俯仰角3°,红蓝方无人机的控制参数相同。空战双方在t =t 0,t 0+Δt ,t 0+2Δt ,…进行博弈决策。按照不确定环境下的空战博弈评估体系可得到红方无人机对蓝方无人机在t 0时刻的属性威胁等级如图4所示。
式中,w i,g 为变异向量;F i 为当前个体的缩放因子,由式(14)确定;v i,g 为当前个体,v best,g 为种群最优个体向量;r 1和r 2为两个不相同的整数,且0≤r 1,r 2≤NP ,其中,NP 为种群规模。
再由式(4)计算得到属性权重ω 1=0.338,ω 2=0.314,ω 3=0.174,ω 4=0.174。根据表2将图4转为直觉模糊评估矩阵,并利用直觉模糊加权集结算子IFWAω 得到t 0时刻红蓝双方的机动博弈直觉模糊支付矩阵如表3所示。
角砾岩角砾大小混杂,从2~30mm不等,少量达5cm,多无磨圆;局部具气液运移的“流动构造”,角砾具一定的磨圆,角砾成分靠近岩体部位以花岗闪长斑岩为主,靠近灰岩部位以灰岩为主,胶结物为与斑岩角砾成分相同的岩粉及热液蚀变矿物,部分为岩浆质胶结,胶结物与角砾界限清晰(图4f)。
图4t 0时刻属性威胁等级图
Fig.4 Attribute threat level at t 0moment
表3 t 0 时刻红蓝方无人机直觉模糊支付矩阵
Table 3 Intuitionistic fuzzy payoff matrix of red and blue unmanned aerial vehicle at t 0 moment
4.1 算法的性能比较
为验证本文提出的IDE算法在求解纳什均衡问题上的实时性和有效性,以t 0时刻得到的直觉模糊支付矩阵作为测试函数,将本文提出的IDE算法与DE算法、粒子群优化(particle swarm optimization, PSO)算法进行性能比较。各算法的参数设置为:最大迭代次数G 都为80,种群规模NP都为40,根据文献[19]取PSO算法的学习因子c 1=c 2=1.3,惯性权重w max=0.9、w min=0.35;根据文献[20]设置DE算法的缩放因子F =0.5,交叉率CR=0.5;IDE的算法参数设置为缩放因子取值的上下限分别为:F max=1.2、F min=0.6,交叉率取值的上下限分别为: CRmax=0.9、CRmin=0.4。为了减少随机因素的影响,对3种算法在相同运行环境下进行50次独立实验(IDE算法未考虑自适应最大迭代次数判断)。图5为适应度值的比较结果,图5(a)为各算法在迭代次数g 分别为10、20、40、60和80代时的统计盒图,图5(b)为平均最优适应度曲线图。表4为找到全局最优解(与理论误差小于0.001即认为全局最优)所需时间的统计结果,其中t min为找到最优解的最小时间;t avr为找到最优解的平均时间;g min为找到最优解的最少迭代次数;g avr为找到最优解的平均迭代次数;c 为找到最优解的次数。
表4 各算法时间指标比较
Table 4 Comparison of time index of each algorithms
图5 各算法适应度指标比较结果
Fig.5 Comparison of the fitness index of each algorithm
由图5和表4可以看出,本文提出的IDE算法的性能要优于DE算法和PSO算法,其中PSO算法虽然有较快的收敛速度,但极易陷于局部最优值,在50次实验中只找到了15次最优值;DE算法虽然寻优能力要好于PSO算法但收敛速度相对较慢;而IDE算法在50次中都找到最优值,且找到最优值的平均运行时间和迭代次数都为最少,表现出了较好的鲁棒性和收敛性。
由于对本文纳什均衡的求解是极值未知的问题,由图5可看出算法后期进入稳定状态后适应度值几乎不再改变,因此算法对稳定状态的判断可及时结束算法迭代,减少不必要的资源消耗。为验证算法对稳定状态检测的有效性,对IDE算法(参数设置为最大迭代次数G =80,连续终止次数ΔN =10,阈值ε =1×10-4,其他参数如上所述)运行100次,记录检测到稳定状态输出的最优值f s 和达到最大迭代次数输出的最优值f m 以及检测到稳定状态时算法的运行时间t s 和迭代次数g s 。表5为对IDE算法稳定状态检测有效性的统计结果,其中,f min为100次实验中f s 和f m 差值的最小值;f max为f s 和f m 差值的最大值;f avr为f m 和f m 差值的平均值;g s 为达到稳定状态时的平均迭代次数;t s 为达到稳定状态时的平均迭代次数运行时间;t m 为达到最大迭代次数时的平均运行时间。
(1)低成本。问卷数据显示47.13%的人觉得网约车在价格方面更加实惠。因为打车软件通过利用闲置的出租车或者私家车为广大市民的出行提供了便利,以共享经济的方式用较低的成本,为广大市民提供打车服务。
表5 IDE算法检测稳定状态有效性的统计结果
Table 5 IDE algorithm detects statistical results of steady state validity
由表5可看出,当对算法稳定状态的检测可有效地降低算法因反复迭代对资源的消耗,且对求解的精度影响较小,最多只造成0.003的误差,但平均减少了50次算法迭代,提高了对空战的实时性响应。
综上分析可知,本文提出的IDE算法能较好地兼顾求解空战博弈纳什均衡问题的精确性和快速性,满足无人机空战的性能要求。
4.2 纳什均衡条件的验证
IDE算法求得在t 0时刻的红方无人机的纳什均衡策略x *=[0,0,0,0.132 1,0.867 9,0,0],蓝方无人机的纳什均衡混合策略y *=[0,0,0.779 9,0,0.220 1,0,0,],计算在此局势下的直觉模糊期望收益为直觉模糊期望收益得分值
由博弈理论可知,若无人机对抗双方正确评估当前的局势,则在纳什均衡意义下的策略组合为最优策略,即若一方选择纳什均衡混合策略时另一方无论怎么选择其他非均衡策略的收益都不会变大。为验证本文的直觉模糊博弈模型的有效性,进行随机混合策略验证,总共进行200次独立实验,每次实验独立随机产生1 000组随机混合策略组合([X 1 000×7],[Y 1 000×7]),分别对红蓝方无人机分别单独改变策略记录其最优结果结果如图6所示。
图6 随机混合策略验证结果
Fig.6 Random hybrid strategy verification results
由图6可以看出,蓝方单独改变策略选择随机混合策略得到的直觉模糊收益得分值均大于0.501 3;红方单独改变混合策略选择随机混合策略的直觉模糊收益得分值均小于0.501 3,验证结果表明满足直觉模糊博弈的纳什均衡条件,即
4.3 机动对抗仿真及决策方法对比
为验证本文所提出不确定环境下机动博弈模型的优越性及有效性,让红方无人机采取本文提出的直觉模糊博弈方法,分别与蓝方无人机采取最大最小决策[30]和直觉模糊博弈的方法进行空战机动对抗仿真对比。取Δt =0.5 s,三维仿真结果如图7和图8所示,图7为蓝方无人机采取最大最小决策方法的机动决策轨迹图,图8为蓝方无人机采取直觉模糊博弈方法的机动决策轨迹图,图7和图8中的“*”代表无人机航迹曲线起始位置,蓝色线条代表蓝方无人机航迹曲线,红色线条代表红方无人机航迹曲线。当一方的4个空战属性都为优势或者达到最大仿真时长N Δt 时结束仿真。
图7 蓝方无人机最大最小决策方法对抗的轨迹图
Fig.7 Diagram of blue unmanned aerial vehicle trajectory of max-min decision methods
图8 蓝方无人机直觉模糊博弈方法对抗的轨迹图
Fig.8 Diagram of blue unmanned aerial vehicle trajectory of intuitionistic fuzzy game method
从图7和图8可以看出,当红方采取博弈的方法、蓝方无人机选择最大最小决策的方法时,蓝方无人机在初始状态较为劣势的情况下无法选择有效策略扭转劣势,红方无人机大致采取“左转-右转-直飞”的机动方案始终保持尾后追击的态势。当红、蓝方无人机都采取博弈的方法时,红方无人机通过“左转直飞-右转-左转-右转”等机动方案选择逐步获得空战优势;蓝方无人机采取“左转-直飞-右转”对抗红方无人机的机动,前9 s红蓝方无人机都可采取有效机动策略避免劣势。最终,红方无人机采取大机动右转弯的策略使自己的空战威胁评估属性最大结束本次博弈,同时蓝方无人机也选择相应的机动方案尽量减少自己的损失。可见本文提出的不确定环境下的机动直觉模糊博弈模型是有效的。
5 结 论
本文针对不确定环境下无人机机动博弈决策问题,将直觉模糊概念引入博弈论,建立了带有直觉模糊信息的空战机动博弈模型,并给出了满足直觉模糊全序关系下的纳什均衡解条件,其直觉模糊博弈模型可应用于其他不确定信息的博弈领域研究;结合背景和模型的特点,采用控制参数和最大迭代次数自适应的机制改进差分进化算法,在求解的收敛性和快速性上均有了明显提升,可实时求解空战机动博弈的纳什均衡策略。最后,仿真结果表明算法和模型的有效性和可行性。
参考文献:
[1] KARELAHTI J, KAI V, RAIVIO T, et al. Modeling air combat by a moving horizon influence diagram game[J]. Journal of Guidance Control & Dynamics, 2004, 29(5): 1080-1091.
[2] 左家亮,杨任农,张滢,等.基于强化学习的空战机动智能决策[J].航空学报,2017,38(10):321168-1-321168-14.
ZUO J L, YANG R N, ZHANG Y, et al. Intelligent decision-making in air combat maneuvering based on heuristic reinforcement learning[J]. Acta Aeronautica et Astronautica Sinca, 2017, 38(10): 321168-1-321168-14.
[3] 张涛,于雷,周中良,等.基于混合算法的空战机动决策[J].系统工程与电子技术,2013,35(7):1445-1450.
ZAHNG T, YU L, ZHOU Z L, et al. Decision-making for air combat maneuvering based on hybrid algorithm[J]. Systems Engineering and Electronics,2013,35(7): 1445-1450.
[4] HUANG C, DONG K, HUANG H, et al. Autonomous air combat maneuver decision using Bayesian inference and moving horizon optimization[J]. Journal of Systems Engineering and Electronics, 2018, 29(1): 86-97.
[5] MA Y, MA X, SONG X. A case study on air combat decision using approximated dynamic programming[J]. Mathematical Problems in Engineering, 2014,2014(4):183401-1-193401-10.
[6] WANG Y, HUANG C, TANG C. Research on unmanned combat aerial vehicle robust maneuvering decision under incomplete target information[J]. Advances in Mechanical Engineering, 2016,8(10):1-12.
[7] PARK H, LEE B Y, TAHK M J, et al. Differential game based air combat maneuver generation using scoring function matrix[J]. International Journal of Aeronautical & Space Sciences, 2016, 17(2): 204-213.
[8] AUSTIN F, CARBONE G, HINZ H, et al. Game theory for automated maneuvering during air-to-air combat[J]. Journal of Guidance Control & Dynamics, 1990, 13(6): 1143-1149.
[9] POROPUDAS J, KAI V. Game-theoretic validation and analysis of air combat simulation models[J]. IEEE Trans.on Systems Man and Cybernetics-Part A Systems and Humans, 2010, 40(5): 1057-1070.
[10] LI D F. Decision and game theory in management with intuitionistic fuzzy sets[M]. Berlin: Springer, 2014.
[11] SEIKH M R,NAYAK P K,PAL M.Matrix games with intui-tionistic fuzzy pay-offs[J]. Journal of Information & Optimization Sciences, 2015, 36(1/2):159-181.
[12] VERMA T, KUMAR A. Ambika methods for solving matrix games with Atanassov’s intuitionistic fuzzy payoffs[J]. IEEE Trans.on Fuzzy Systems, 2017, 26(1): 270-283.
[13] 陈侠,刘敏,胡永新.基于不确定信息的无人机攻防博弈[J].兵工学报,2012,33(12):1510-1515.
CHEN X, LIU M, HU Y X. Study on UAV offensive/defensive game strategy based on uncertain information[J]. Acta Armamentarii, 2012, 33(12): 1510-1515.
[14] ATANASSOV K T, RANGASAMY P. Intuitionistic fuzzy sets[J]. Fuzzy Sets & Systems, 1986, 20(1):87-96.
[15] ATANASSOV K T. On intuitionistic fuzzy sets theory[M]. Berlin: Springer, 2012.
[16] ZADEH L A. Fuzzy sets[J]. Information & Control, 1965, 8(3):338-353.
[17] PAVLIDIS N G, PARSOPOULOS K E, VRAHATIS M N. Computing Nash equilibria through computational intelligence methods[J].Journal of Computational & Applied Mathematics, 2005, 175(1):113-136.
[18] RUBINSTEIN A. Settling the complexity of computing approximate two-player nash equilibria[C]∥Proc.of the 57th IEEE Annual Symposium on Foundations of Computer Science, 2016: 258-265.
[19] 王昱,章卫国,傅莉,等.基于精英改选机制的粒子群算法的空战纳什均衡策略逼近[J].控制理论与应用,2015,32(7):857-865.
WANG Y, ZHANG W G, FU L, et al. Nash equilibrium strategies approach for aerial combat based on elite re-election particle swarm[J].Control Theory & Applications,2015,32(7):857-865.
[20] PRICE K V. An introduction to differential evolution[M]. Maidenhead: McGraw-Hill Ltd., 1999.
[21] 钟友武,柳嘉润,杨凌宇,等.自主近距空战中机动动作库及其综合控制系统[J].航空学报,2008,29(S1):114-121.
ZHONG Y W, LIU J R, YANG L Y, et al. Maneuver library and integrated control system for autonomous close-in air combat[J]. Acta Aeronautica et Astronautica Sinica, 2008, 29(S1): 114-121.
[22] 顾佼佼,刘卫华,姜文志.基于攻击区和杀伤概率的视距内空战态势评估[J].系统工程与电子技术,2015,37(6):1306-1312.
GU J J, LIU W H, JIANG W Z. WVR air combat situation assessment mode based on weapon engagement zone and kill probability[J].Systems Engineering and Electronics,2015,37(6):1306-1312.
[23] CHEN T Y. The inclusion-based TOPSIS method with interval-valued intuitionistic fuzzy sets for multiple criteria group decision making[J].Applied Soft Computing,2015,26(1): 57-73.
[24] XU Z S, RONALD R Y. Some geometric aggregation operators based on intuitionistic fuzzy sets[J]. International Journal of General Systems, 2006, 35(4): 417-433.
[25] 李娜娜, 何正友. 主客观权重相结合的电能质量综合评估[J]. 电网技术, 2009, 33(6): 55-61.
LI N N, HE Z Y. Power quality comprehensive evaluation combing subjective weight with objective weight[J]. Power System Technology, 2009, 33(6): 55-61.
[26] L Q D, YONG H C, SOONG B H. An introduction to game theory[M]∥Potential game theory. Switzerland: Springer, 2016: 841-846.
[27] MALLIPEDDI R, LEE M. An evolving surrogate model-based differential evolution algorithm[J]. Applied Soft Computing, 2015, 34(C): 770-787.
[28] FAN Q, YAN X. Self-adaptive differential evolution algorithm with discrete mutation control parameters[J]. Expert Systems with Applications, 2015, 42(3): 1551-1572.
[29] GUO Z, LIU G, LI D, et al. Self-adaptive differential evolution with global neighborhood search[J]. Soft Computing,2017,21(13): 3759-3768.
[30] SUN T Y, TSAI S J, LEE Y N, et al. The study on intelligent advanced fighter air combat decision support system[C]∥Proc.of the IEEE International Conference on Information Reuse and Integration, 2006:39-44.
UAV air combat maneuvering decision based on intuitionistic fuzzy game theory
LI Shihao, DING Yong, GAO Zhenlong
(College of Automation Engineering ,Nanjing University of Aeronautics and Astronautics ,Nanjing 211106 ,China )
Abstract : To solve the problem of unmanned aerial vehicle (UAV) air combat maneuvering decision in uncertain environment, the game theory is combined with intuitionistic fuzzy set. First of all, the optional strategy of UAV is assessed by intuitionistic fuzzy multi-attribute to obtain the intuittionistic fuzzy payoff matrix. Then, Nash equilibrium condition under intuitionistic fuzzy total order relations is proposed, and a planning model for solving Nash equilibrium is established. Meanwhile, differential evolution algorithm, based on individual control parameters and genetic algebra adaptive strategy, is improved to get the optimal solution of the game model. Finally, the simulation validates the rationality and effectiveness of the model and the proposed algorithm, which is a new idea for solving the air combat decision-making problems in uncertain environment.
Keywords : maneuvering decision; intuitionistic fuzzy; Nash equilibrium; differential evolution algorithm
中图分类号: V 279
文献标志码: A
DOI: 10.3969/j.issn.1001-506X.2019.05.19
收稿日期: 2018-04-02;
修回日期: 2018-08-06;网络优先出版日期: 2019-02-18。
网络优先出版地址: http:∥kns.cnki.net/kcms/detail/11.2422.TN.20190218.1343.024.html
基金项目: 总参通指重点基金项目(TZLDLYYB2014002)资助课题
作者简介:
李世豪 (1993-),男,硕士研究生,主要研究方向为智能优化与决策。E-mail:lshlyer@sina.cn
丁 勇 (1967-),女,副教授,硕士,主要研究方向为智能优化与决策。E-mail:dingyong@nuaa.edu.cn
高振龙 (1995-),男,硕士研究生,主要研究方向为智能优化与决策。E-mail:zhenlong-gao@nuaa.edu.cn
标签:机动决策论文; 直觉模糊论文; 纳什均衡论文; 差分进化算法论文; 南京航空航天大学自动化学院论文;