多平台主动与被动传感器协同跟踪的长时调度方法论文

多平台主动与被动传感器协同跟踪的长时调度方法

乔成林1, 单甘霖1, 段修生1,2, 郭峰3

(1.陆军工程大学石家庄校区 电子与光学工程系, 河北 石家庄 050003; 2.石家庄铁道大学 机械工程学院, 河北 石家庄 050043;3.北京航天飞行控制中心, 北京 100094)

摘要 : 为了有效跟踪杂波环境下机动目标、降低系统辐射风险,提出一种多平台主动与被动传感器协同跟踪的长时调度方法。将长时调度问题构建为部分可观马尔可夫决策过程,采用交互式多模型概率数据关联算法更新目标信念状态,利用后验克拉美- 罗下界预测机动目标长时跟踪精度,提出改进的维特比算法以求解最优调度序列。仿真实验结果表明,所提搜索算法能够显著降低搜索空间和存储空间,所提长时调度方法能够有效控制系统辐射代价、克服传感器频繁切换。

关键词 : 传感器长时调度; 部分可观马尔可夫决策过程; 交互式多模型; 概率数据关联; 后验克拉美- 罗下界; 维特比算法

0 引言

网络化战争中,战场中分布大量多种型号的传感器,如何管理这些传感器资源以满足作战任务需求,具有重要的意义。目前,以主动、被动传感器协同跟踪为代表的调度方法正逐渐受到学者的重视,通过合理地调度主动、被动传感器可以满足任务需求、降低系统辐射。文献[1]研究了单平台主动、被动传感器辐射控制方法,当满足精度需求时调度被动传感器,否则调度主动传感器。考虑杂波环境,文献[2]提出一种机载雷达辅助无源传感器的机动目标跟踪方法。进一步,吴巍等[3]研究了多平台主动、被动传感器调度方法,并提出一种时间- 空间辐射控制方法,即时间上优先选择被动传感器,若不能满足任务需求,则在空间上选择威胁度最小的主动传感器,从而降低系统辐射。实际上,不同主动传感器的使用代价是不同的,文献[4]通过量化主动传感器辐射代价,构建跟踪任务需求下传感器调度模型,实现了对目标的协同跟踪。然而,由于未考虑切换代价,系统容易产生频繁切换,不利于实际应用。

此外,依据决策步长,传感器调度方法可分为短时调度和长时调度。短时调度以当前单步收益为决策准则,因此文献[1-4]的调度方法均可认为是短时调度。相对于短时调度方法,长时调度以未来一段时域内的收益为决策准则,其性能往往更优越。文献[5]研究了多被动传感器长时任务规划问题,采用基于蒙特卡洛Rollout采样的Q 值估计方法实现对目标的协同跟踪。文献[6]将空间态势感知中多传感器长时调度问题转化为多Agent马尔可夫决策过程,给出基于随机仿真的随机优化技术,实现了对多个动态目标的协同监测。文献[7]针对声纳传感器长时调度问题,提出一种连续概率状态算法,实现了对多个水下目标的持续跟踪。然而,长时调度方法的计算量随决策步长增加呈指数爆炸增长[8],如何降低搜索空间、提高算法实时性显得尤为重要。

针对上述问题,本文提出一种多平台主动与被动传感器协同跟踪的长时调度方法。首先,构建基于部分可观马尔可夫决策过程(POMDP)的长时调度模型;然后,考虑跟踪任务需求,引入传感器辐射代价和切换代价,建立长时目标优化函数;最后,提出改进的维特比算法(VA),求解最优调度序列。仿真结果验证了所提搜索算法和调度方法的有效性。

1 多平台主动与被动传感器调度模型

在多平台主被动传感器系统中,一方面主动传感器通过向外辐射电磁波获得目标位置信息,但其辐射代价较高;另一方面被动传感器无需辐射电磁波就能获知目标的角度信息,但信息的缺维会导致跟踪精度发散。为此,考虑跟踪任务需求和主被动传感器特性,依据POMDP理论[9],建立基于POMDP的传感器长时调度模型,以满足跟踪任务需求、降低系统辐射代价。

相比而言,我们的不作为,才是对员工最大的犯罪。我不知道那些被我和老杨辞退的员工们如今都怎么样了。但愿,他们都收获了成长。

1.1 平台调度动作及传感器调度动作

假定杂波环境中有N 个传感器平台协同跟踪单个机动目标,每个平台包含1个主动传感器和1个被动传感器。定义k 时刻平台调度动作为其中为1或0表示k +1时刻调度或不调度平台n . 相应地,定义传感器调度动作为当调度平台n 即时,取值空间为{1,2},分别表示k +1时刻调度平台n 上被动或主动传感器;当不调度平台n 即时,取值空间为{0},表示k +1时刻不调度平台n 上任何传感器。考虑到传感器时间和空间配准的困难性,每个时刻只有1个平台1个传感器跟踪目标,则调度动作满足约束

纳入标准:①老年高血压患者;②年龄≧60岁;③所有患者主要表现为鼻腔反复出血或一次性大量出血,出血量>200ml,采用填塞法治疗无效,手术时均在急性出血期;④血常规及凝血时间等指标正常。

(1)

1.2 状态空间及状态转移律

系统状态空间S k 由目标运动状态X k 、平台调度动作a k 、传感器调度动作g k 及目标运动模型m k 组成,则k 时刻:

(2)

式中:m k ={1,…,M },M 为模型个数;[x k ,y k ,z k ]为目标位置,为对应的目标速度。

目标状态按照其状态转移律转移到下一时刻,即

X k+1 =f (X k ,m k ,v k ),

(3)

式中:v k 为零均值高斯过程噪声,其协方差矩阵为Q mk .

进一步,机动目标状态转移律可由目标运动模型m k 获得,则其对应的状态转移律可表示为F mk .

1.3 观测空间及观测律

根据PCRLB理论,则存在

(4)

式中:w k 为零均值高斯观测噪声;r k+1 表示k +1时刻平台与目标的距离;T h为相应传感器的作用范围,当目标处于传感器作用范围内时,传感器能获得目标量测信息,否则不能。

若调度平台上主动传感器(如雷达),则

Z k+1 =h (X k+1 ,a k ,g k ,w k )=[r k+1 ,θ k+1 ,φ k+1 ]Τ+w k

(5)

式中:π j 为列向量;μ k 和c 分别为模型概率和归一化因子。

讲故事时,教师可以将叙述主体多元化,既有教师,也有学生,既听别人的故事,也讲述自己的经历,还可以尝试加入第三方叙述主体,如邀请社区工作人员、食堂大师傅、警察、家长等“客座教师”参与课堂教学,避免一个主体贯穿课堂始终。

相似地,若调度平台上被动传感器(如红外传感器),则

Z k+1 =h (X k+1 ,a k ,g k ,w k )=[θ k+1 ,φ k+1 ]Τ+w k .

(6)

1.4 信念状态

考虑到目标跟踪系统中,状态不能被完全观测,引入目标信念状态b k ,以实现对目标运动状态的持续更新[5],则定义信念状态为

b k =p (X k |X 0,p 0,Z 1,…,Z k ,a 0,…,a k-1 ,g 0,…,g k-1 ),

(7)

式中:X 0p 0为目标初始状态及其分布概率。

西双去浴室洗了个澡,换好衣服,回到床边,罗衫的眼睛仍然瞪得像铜铃。西双说,我回去了。罗衫看着天花板,不说话。西双换上皮鞋,带上防盗门,走下楼梯,到小区花园坐一会儿,静静抽掉两支烟,然后长叹一口气,掏出手机,给罗衫拨一个电话。他问罗衫明天中午有时间吗?罗衫说你良心发现了?西双再叹一口气,说,寡人被你打败了。

1.5 目标优化函数

不同的应用场景,性能衡量指标往往不同。为此,结合战场应用实际,本文引入3种性能指标,即目标跟踪精度、传感器辐射代价和切换代价,分别表征系统的目标跟踪性能、生存性能和稳定性能:

1)目标跟踪性能ρ (b k ,a k ,g k )。为了满足跟踪任务需求,需要协同调度各平台各类型传感器。对于杂波条件下的机动目标,由于当前时刻不能准确地获知未来时刻的量测,较难准确地获知其跟踪精度。为此,引入后验克拉美- 罗下界(PCRLB)指标,以表征其跟踪性能。

生物技术在水产品养殖、加工和保鲜中应用越来越普遍,尤其是随着人们生活水平的提高,普通低值水产品已不能满足人们的需求,充分利用一些低价值水产品来生产高附加值的产品显得日益重要。利用生物技术可以弥补传统水产品养殖、加工及保鲜技术的缺陷,既提高了生产率,降低了成本,又更好地保留了其营养成分,提高了营养价值。

2)传感器辐射代价E (a k ,g k )。考虑到主被动传感器辐射电磁波的差异性,主动传感器的辐射代价要大于被动传感器。结合文献[10],可假设被动传感器的辐射代价为0,此外,由文献[11]可知,不同主动传感器的辐射代价也不同。

3)切换代价γ (a k-1 ,a k ,g k-1 ,g k )。在传感器调度中,为了获得最优调度性能,系统常面临频繁切换问题,从而极大影响了系统稳定性和可操作性。为此,结合实际,引入切换代价[12]。显然,不同平台间的切换代价要远大于同一平台内传感器的切换代价,下文分别简称为平台切换代价和传感器切换代价。

因此,定义短时代价函数为

Φ (a k ,g k )=


(8)

式中:α 表示平衡系数;e n 、c p和c s分别表示传感器辐射代价、平台切换代价和传感器切换代价;δ (x ,y )为指示函数,x =y 时取值为0,否则为1.

相比于短时代价函数,长时代价函数能进一步提高系统性能。考虑跟踪精度需求,构建长时代价函数的目标优化函数,即

(9)

式中:A k:k +H -1={a k ,g k ,…,a k+H -1,g k+H -1},H 为决策时长;ρ d为任务需求对应的精度阈值。

传感器长时调度包含两种模式:开环调度和开环反馈调度,本文调度属于后者,其调度流程如图1所示。任意k 时刻,调度中心根据目标优化函数获得最优调度序列A k:k +H -1,而后选择第1个调度动作(a k ,g k )实现目标信念状态的更新。由于加入反馈环节,开环反馈调度的性能要优于开环调度,但其计算量也更高。

图1 传感器长时调度流程图
Fig .1Flow chart of non -myopic sensor scheduling

2 问题求解

2 .1 基于交互式多模型概率数据关联算法的信念状态更新

为有效估计杂波环境下机动目标状态、更新其信念状态,引入交互式多模型概率数据关联(IMMPDA)算法[13],其执行步骤如下:

1)相互作用。依据先验信息,计算混合概率:

(10)

式中:π ij 表示模型转移概率;表示模型i 的模型概率;为归一化因子。

式中:为平台n 提供的信息增益。

(11)

式中:分别为模型i 的状态估计及其协方差矩阵。

此事闹得沸沸扬扬,人尽皆知,成为那一年街头巷口纷纷传颂的大新闻。众人议论纷纷,并对这件事的结局做了多种猜测,等待故事的进一步发酵。

① 状态预测和观测预测。依据混合后各个模型的状态,计算其状态预测及其对应的而后,根据平台及传感器调度动作a kg k ,计算预测观测及其新息协方差

② 观测确认。由文献[2]中的(18)式,计算预测量测Xk+1|k ,并以该式为中心建立有效的跟踪波门,即

(12)

式中:Z Xk+1 表示实际观测值;l 为最大有效区域对应的模型;ε 为波门参数;|·|为求行列式。

Z Xk+1 满足(12)式,则将其作为候选回波;否则舍弃该观测。

③ 估计模型j 状态。假设共有n k+1 个候选回波,则

(13)

式中:分别为滤波增益和组合新息;表示来自于目标的概率,对于非参数模型

(14)

b k+1 和可依据文献[13]中的(25)式和(26)式计算得到。

3) 更新模型概率。似然函数是n k+1 个新息的联合概率密度函数,即

盾构机在掘进隧道的过程中,需要将采集监测的量按类型分为数字量和模拟量。其中数字量对应某个限位开关的开闭或者千斤顶的伸缩,而模拟量则对应千斤顶压力、电机电压、旋转速度以及注浆压力等具有数值意义的量。同时数据遵循一定的协议格式传输,因此接收到数据之后,同样按照此种协议格式进行解析,通过数据包的起始地址加上偏移量的方法,得出各个测点或者数据量的真实数据,解析过程如图2。

在基层农业技术推广的过程中,有许多基层领导对农业技术推广的重视程度不高,甚至有少数基层领导认为农业技术推广并没有必要性,这使得基层农业技术推广在实施的过程中推广方法和得到的支持较少,严重影响了农业技术推广的效果。在这样的情况下,农户很难及时了解和掌握农业的先进技术,对于提升我国的农业生产效率是非常不利的。由于我国农户的受教育水平普遍偏低,获取农业技术的能力较差,在农业技术推广不到位的情况下,农户是很难自行探索相关技术的,这也是农业技术推广的重要性所在。

(15)

式中:P D表示检测概率;P G表示门概率;n z为观测向量的维数;c nz 为相应超球面体积。

进一步,更新模型概率,即

(16)

式中:θ k+1 和φ k+1 分别表示方位角和俯仰角。

4) 目标信念状态更新。估计目标状态及其协方差矩阵


k+1 )k+1 )T],

(17)

式中:对应的协方差矩阵。

更新k +1时刻目标信念状态,即

b k+1 ~N(X k+1 ;

(18)

2.2 机动目标长时精度预测

考虑到当前时刻无法获知未来时刻目标的量测信息,结合PCRLB理论,依据当前先验信息,计算目标的状态估计下界,并以此作为目标的预测精度,从而合理地调度传感器以满足跟踪精度需求。

目标观测律取决于传感器观测模型,即

E(

(19)

式中:J k 为Fisher信息矩阵。

进一步,目标状态转移先验概率密度函数为

目前,泉州市政府已经查明事件真相,并已经对责任人做出处理。但是,回顾整个事件的处置过程,确有很多值得深思之处。

2)滤波。

(20)

当前中国的高等教育正处于一个历史的拐点当中,尤其是对为数众多的地方高等院校来说,虽然还存在着这样那样的问题,但自从实施《国家中长期教育改革和发展规划纲要(2010—2020年)》以来,特别是自胡锦涛同志在纪念清华大学百年校庆的重要讲话发表以来,党中央、国务院从国家发展的战略高度,充分认识到高等教育在经济社会发展中的重大作用,对以提高质量为核心的高等教育改革进行强势推进,一个高等教育发展的春天将扑面而来。

Fisher信息矩阵递推公式为

(21)

进一步,计算模型j 的混合初始状态及其协方差矩阵:

显然,在k 时刻无法获知目标的运动模型。为此,依据k 时刻的模型概率,以当前最大概率对应的模型作为目标预测模型[15],则

式中:m k+1 表示k +1时刻目标的运动模型。

1.人民积极性的调动。人民群众是社会物质财富和精神财富的创造者,是社会变革的决定力量。毛泽东提出了人民创造历史的观点,他说:“人民,只有人民,才是创造世界历史的动力。”[4]1031改善民生最终要靠“发动群众的创造力和积极性”[4]933。

(22)

因此,机动目标跟踪精度预测流程为

1) 根据k 时刻信念状态b k ,获得目标状态估计k 、协方差P k 及模型概率μ k .

2) 计算k +h (h =1,…,H )时刻目标运动模型,即

3)计算p (X k+h |X k )。再依据(21)式计算k +h 时刻Fisher信息矩阵J k+h .

4)预测k +h 时刻目标跟踪精度,即

2.3 改进VA

考虑(9)式的优化模型,其共有(2N )H 种传感器组合。当N 和H 较大时,其计算量将是巨大的,难以满足实时性要求。动态规划具有广泛的应用范围,尤其适用于节点状态及路径代价已知的优化问题。然而,本文优化模型中各节点的状态及其路径代价取决于传感器序列,不同传感器序列,节点的状态及路径代价是不同的[16]。为此,提出改进的VA以满足本文应用。

假设以传感器节点状态和决策步长分别代替VA的节点状态和路径长度。此时,VA的节点状态不再是一个标量,而是包含了目标跟踪误差和使用代价的向量。相应地,路径代价由前后传感器节点实时计算获得。为了进一步降低算法复杂度,考虑到被动传感器的辐射代价为0,结合贪婪策略,当平台被动传感器能满足要求时优先调度被动传感器。

以N =3为例,改进VA搜索流程图如图2所示,其具体的执行步骤如下:

1) 初始化,根据目标信念状态b k 获得k 时刻目标状态X k 及其协方差P k .

2)当h =1时,由2.2节和(9)式依次计算调度平台n 的跟踪精度预测值及其代价值。若满足要求,则将其状态及代价作为当前平台的状态及代价,并存储该调度序列,记为否则去除该平台节点。

3)当1<h ≤H 时,由k +h -1时刻所有平台状态及代价,依次计算k +h 时刻调度平台n 的跟踪精度预测值及其代价值,共N k+h -1种调度序列(N k+h -1为k +h -1时刻符合要求的平台数),选择并存储符合跟踪精度需求且具有最小代价值的调度序列,记为若h =H ,则转到步骤 4;否则,h =h +1.

4)h =H ,对比所有的选择其中最小的并回溯其路径作为全局最优传感器调度序列

图2 改进VA 搜索流程图
Fig .2Flow chart of improved Viterbi algorithm

利用上述步骤能够快速求解最优传感器调度序列,若不存在最优解,则采用以下原则:

1)若在执行步骤3时h 时刻搜索不成功,即不存在任何满足要求的则回溯到h -1时刻,对比所有的选择最小值并回溯其路径作为h -1步长内全局最优传感器调度序列。

2)若在执行步骤2时搜索不成功,即下一时刻所有传感器均不能满足跟踪精度需求,则选择跟踪误差最小的传感器作为最优调度序列,以快速满足精度需求。

2.4 复杂度分析

本文方法的复杂度主要体现在长时调度序列的获取,结合2.3节可知,其复杂度由节点打开数决定[8]。每个节点均包含精度预测和代价计算,前者复杂度可参考文献[17],而后者仅为数据运算。因此,假设每个节点复杂度和存储空间均为单位1,则对于给定的平台个数N 和决策步长H ,其复杂度为存储空间为(2N )H 。结合文献[16],本文方法的复杂度为

相应的存储空间仅为2N . 考虑到被动传感器的辐射代价为0,本文方法采用贪婪策略进一步降低方法复杂度。

3 仿真实验及结果分析

3.1 仿真参数设置

考虑N =4个平台在杂波环境下协同跟踪一个机动目标,用M =3个模型来描述目标运动,模型1为匀速直线,模型2为左转弯,模型3为右转弯。假设目标初始位置和速度分别为(15 km,4 km,5 km)和(-280 m/s,-260 m/s,0 m/s)。进一步,假设采样间隔τ =1 s,仿真时长为100τ . 在26~50τ 时间内目标以角速度5°向右转,在51~74τ 时间内向左转,其余时间做匀速运动。各模型初始概率为[0.8,0.1,0.1],不同模型之间的切换概率为0.025. 此外,假定杂波服从泊松分布,主动和被动传感器的虚假量测密度分别为3×10-9个/(m·mrad2)和1×10-3个/mrad2,检测概率为1,波门参数为4,门概率为0.999 7.

黄瓜适宜的贮藏温度为10~13℃,适宜的相对湿度为30%,水缸贮藏的黄瓜采收时成熟度可比一般上市的商品瓜稍嫩一些。用新缸贮藏最好,用旧缸时,贮前几天用开水加碱面刷洗干净,夏天放在阴凉处,冬天放在温暖的地方,缸盛净水10~20厘米深,距水面3~5厘米处放木架,架上铺木板,垫一层干净麻袋片,上码黄瓜。采用大缸贮藏,将瓜条平放,缸中心形成一个空间,码至离缸口10~12厘米为止。黄瓜入缸后用牛皮纸或塑料薄膜封严,置凉爽的室内。天冷后要采取保暖措施,避免低于10℃。此法可贮藏30~40天。

各平台分布在Oxy 平面内,均距离坐标原点5 km,相互间隔90°. 平台上主动和被动传感器探测范围分别为60 km和10 km. 主动传感器的斜距离标准差分别为100 m、50 m、50 m和20 m,方位角标准差分别为10 mrad、5 mrad、5 mrad和2 mrad,对应的俯仰角标准差与方位角一致。各平台被动传感器性能一致,其方位角和俯仰角标准差均为5 mrad. 各平台主动传感器辐射代价设为[1,2,2,3]。仿真实验中,所有仿真结果均为500次独立蒙特卡洛仿真取平均值。

3.2 仿真结果分析

3.2.1 不考虑切换代价

胡人听到秀容月明之名,则吓破了胆。胡人某将领晚间宴饮,一名叛逃过去的宁国秀才想作首诗讨好将军,其时天风如绸,明月当空,他头一句是“月明如水”,哪知刚说出“月明”两个字,旁边那喝得晕乎乎的百夫长便惊叫一声“秀容月明来了”,顿时场中大乱,胡人奔走,相互践踏,竟死了七十人,伤了三四百人。

图3为不同精度阈值和决策步长下的累积辐射代价。由图3可知,随着跟踪精度阈值的提高,可以调度更多的被动传感器满足需求,因此其累积辐射代价更小。相同跟踪精度阈值下,随着决策步长的增加,其累积辐射代价更小,即系统能够获得更优的调度序列。此外,累积辐射代价随着决策步长的增加,其下降幅度逐渐变小,而且决策步长越大其计算复杂度越高。因此在实际应用中,需要权衡各个要素,选择合适的决策步长。

图3 不同精度阈值和决策步长下累积辐射代价
Fig.3 Cumulative emission costs under the condition of different accuracy thresholds and decision-making steps

以跟踪精度阈值ρ d=50 m为例,表1给出了不同算法不同决策步长的搜索性能对比。表1中ES为穷举搜索,UCS为标准统一代价搜索,表中UCS算法和改进VA的百分比为其相应的节点打开数与ES算法节点打开数的比值。图4为UCS算法和改进VA的节点打开百分比。由表1和图4可知,UCS算法以代价为顺序进行搜索,有效提高了搜索效率,但其节点打开数依然较大且需要较大的存储空间。相比于UCS算法,本文提出的改进VA能够显著地减少节点打开数、降低存储空间。图5为不同决策步长的累积辐射代价。图5中,最优值对应的曲线是由UCS算法获得(之后不再赘述),随着决策步长增大,系统能够搜索到更优的调度序列,使得其累积辐射代价更低,进而验证了长时调度模型的必要性。此外,由于改进VA采用贪婪策略降低搜索空间,当决策步长H >1时,其只能获得次优解,对应的累积辐射代价要略高于最优值。结合图3可知,随着决策步长增加,累积辐射代价下降幅度变小。因此,考虑到算法复杂度,之后的仿真实验以H =4为例。

表1 算法搜索性能对比

Tab.1 Comparisons of search algorithms

图4 两种搜索算法的节点打开百分比
Fig.4 Percentages of node opening of two search algorithms

图5 不同决策步长的累积辐射代价
Fig.5 Cumulative emission cost versus decision-making step

为了验证本文调度方法的有效性,引入随机调度方法(RSM)、最近邻调度方法(CSM)以及短时调度方法(MSM)进行对比。以ρ d=50 m为例,图6为不同调度方法下的目标均方根误差(RMSE)对比。由图6可见,RSM和CSM不能依据跟踪精度阈值,自适应地调度传感器满足任务需求。而MSM和本文方法能够根据阈值要求,自适应地调度传感器以满足任务需求。此外,由于目标机动,在模型切换阶段,其RMSE不能满足任务需求,符合实际情形。图7为不同时间下的累积辐射代价。由图7可知,在整个时间范围内,RSM和CSM的累积辐射代价总体较高。本文方法(H =4)要优于MSM(H =1)。同时,考虑到本文方法采用改进VA,因此其累积辐射代价要略高于最优值。

图6 不同调度方法的目标RMSE
Fig.6 Target RMSEs of different scheduling methods

图7 不同时间下的累积辐射代价
Fig.7 Cumulative emission cost versus time

图8为本文方法下的平台及传感器调度序列。结合图6可知,初始阶段目标较远且跟踪误差较大,为了满足跟踪精度需求,本文方法频繁调度主动传感器以满足精度需求。随着目标靠近平台,系统频繁地调度被动传感器以降低辐射代价,从而解释了图7中在中间阶段MSM和本文方法累积辐射代价几乎不变的原因。当目标再次远离平台时,系统会再次频繁地调度主动传感器以满足精度需求。因此,通过多平台主被动传感器协同跟踪,能够有效地满足跟踪任务需求、降低辐射代价。

图8 平台及传感器调度序列
Fig.8 Scheduling sequence of platform and sensor

3.2.2 考虑切换代价

由3.2.1节可知,不考虑切换代价时,虽然能够获得较低的辐射代价,但会频繁地发生切换、稳定性差。为此,引入切换代价,以权衡系统辐射代价和切换代价。取平台切换代价c p=1,传感器切换代价c s=0.5. 图9为不同平衡系数下累积辐射代价和累积切换代价的关系。由图9可知:平衡系数较小时,系统更注重稳定性,其累积切换代价较小;当平衡系数较大时,系统更注重生存性能,其累积辐射代价较低。不失一般性,取平衡系数为0.6,以权衡系统累积辐射代价和累积切换代价。

图9 不同平衡系数下的累积辐射代价和平台切换次数
Fig.9 Cumulative emission cost and platform switching time versus weight factor

图10为不同方法下累积代价对比。由图10可知,RSM和CSM的累积总代价较高,本文方法以多步预测进行决策,要优于MSM以单步预测进行决策。同时,由于最优值能够搜索到更优的调度序列,其累积总代价更低。此外,引入切换代价,MSM、本文方法和最优值的切换代价相差无几,均能较好地平衡系统累积辐射代价和切换代价。

图10 不同调度方法的累积代价
Fig.10 Cumulative costs of different scheduling methods

图11为考虑切换代价的平台及传感器调度序列。对比图8可知,当不考虑切换代价时,调度过程中频繁发生切换,其平台切换次数为30.6,同一平台内传感器切换次数为16.0. 当引入切换代价时,其平台切换次数仅为10.7,传感器切换次数为21.8. 引入平台切换代价后,调度过程中平台切换次数明显降低,更易实际实现。同时,由于平台切换代价大于传感器切换代价,为了降低系统辐射代价,根据目标函数优先调度同一平台内的主动或被动传感器。因此,在调度过程中,需要根据任务需求、综合各个因素,选择合适的平衡系数,以满足任务需求及其实际应用。

图11 考虑切换代价的平台及传感器调度序列
Fig.11 Scheduling sequence of platform and sensor with switching cost

4 结论

本文建立了基于POMDP的传感器长时调度模型,引入目标跟踪精度、传感器辐射代价和切换代价,构建了长时代价函数;给出了基于IMMPDA算法的目标信念状态更新方法和基于PCRLB的机动目标长时精度预测方法,提出了改进VA搜索长时调度序列。得出以下结论:

1)所提改进VA以累积辐射代价略上升为代价,显著降低了搜索空间和存储空间。

2)不考虑切换代价时,与已有调度方法相比,所提长时调度方法能够获得更低的累积辐射代价,生存性能更优。

3)考虑切换代价时,所提长时调度方法累积代价更低,克服了传感器频繁切换、稳定性更好。

参考文献

[1] LIU B, JI C L, ZHANG Y Y, et al. Blending sensor scheduling strategy with particle filter to track a smart target[J]. Wireless Sensor Network, 2009, 1(4): 300-305.

[2] 吴卫华, 江晶, 高岚. 机载雷达辅助无源传感器对杂波环境下机动目标跟踪[J]. 控制与决策, 2015, 30(2): 277-282.

WU W H, JIANG J, GAO L. Tracking maneuvering target in clutter with passive sensor aided by airborne radar[J]. Control and Decision, 2015, 30(2): 277-282. (in Chinese)

[3] 吴巍, 王国宏, 双炜, 等. 多机载平台多目标跟踪与辐射控制[J].系统工程与电子技术, 2012, 34(3): 495-501.

WU W, WANG G H, SHUANG W, et al. Multi-airborne-platform multi-target tracking and radiation control technology[J]. Systems Engineering and Electronics, 2012, 34(3): 495-501. (in Chinese)

[4] 乔成林, 单甘霖, 段修生, 等. 面向跟踪任务需求的主动传感器调度方法[J].系统工程与电子技术, 2017, 39(11): 2515-2521.

QIAO C L, SHAN G L, DUAN X S, et al. Scheduling algorithm of active sensors for tracking task requirement[J]. Systems Engineering and Electronics, 2017, 39(11): 2515-2521. (in Chinese)

[5] 万开方, 高晓光, 李波, 等. 基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划[J]. 兵工学报, 2015, 36(4): 731-743.

WANG K F, GAO X G, LI B, et al. Mission planning of passive networked sensors for cooperative anti-stealth detection based on POMDP[J]. Acta Armamentarii, 2015, 36(4): 731-743. (in Chinese)

[6] SUNBERG Z, CHAKRAVORTY S, ERWIN R S. Information space receding horizon control for multisensor tasking problem[J]. IEEE Transactions on Cybernetics, 2016, 46(6): 1325-1336.

[7] ANGLEY D, RISTIC B, SUVOROVA S, et al. Non-myopic sensor scheduling for multistatic sonobuoy fields[J]. IET Radar Sonar and Navigation, 2017, 11(12): 1770-1775.

[8] CHHETRI A S, MORRELL D, PAPANDREOU S A. Nonmyopic sensor scheduling and its efficient implementation for target tracking applications[J]. EURASIP Journal on Advances in Signal Processing, 2006(1): 1-18.

[9] SONG H F, XIAO M Q, XIAO J Y, et al. A POMDP approach for scheduling the usage of airborne electronic countermeasures in air operations[J]. Aerospace Science and Technology, 2016, 48: 86-93.

[10] 杨海燕, 尤政, 王琳. 基于传感器多模式调度的智能目标跟踪算法[J]. 控制理论与应用, 2012, 29(9): 1186-1192.

YANG H Y, YOU Z, WANG L. Smart target tracking algorithm based on multi-mode sensor scheduling [J]. Control Theory & Applications, 2012, 29(9): 1186-1192. (in Chinese)

[11] LI Y, KRAKOW L W, CHONG E K P, et al. Approximate stochastic dynamic programming for sensor scheduling to track multiple targets[J]. Digital Signal Processing, 2009, 19(6): 978-989.

[12] KRISHNAMURTHY V, DJONIN D V. Optimal threshold policies for multivariate POMDPs in radar resource management[J]. IEEE Transactions on Signal Processing, 2009, 57(10): 3954-3969.

[13] HOULES A, BAR-SHALOM Y. Multisensor tracking of a maneuvering target in clutter[J]. IEEE Transactions on Aerospace and Electronic Systems, 1989, 25(2): 176-189.

[14] 张旭, 崔乃刚, 王小刚, 等. 一种鲁棒自适应容积卡尔曼滤波方法及其在相对导航中的应用[J]. 兵工学报, 2018, 39(1): 94-100.

ZHANG X, CUI N G, WANG X G, et al. Robust adaptive cubature Kalman filter and its application in relative navigation[J]. Acta Armamentarii, 2018, 39(1): 94-100. (in Chinese)

[15] KESHAVARZ-MOHAMMADIYAN A, KHALOOZADEH H. Interacting multiple model and sensor selection algorithms for manoeuvring target tracking in wireless sensor networks with multiplicative noise[J]. International Journal of Systems Science, 2017, 48(5): 899-908.

[16] MAHESWARARAJAH S, HALGAMUGE S K, PREMARATNE M. Sensor scheduling for target tracking by suboptimal algorithms[J]. IEEE Transactions on Vehicular Technology, 2009, 58(3): 1467-1479.

[17] 张召友, 郝燕玲, 吴旭. 3种确定性采样非线性滤波算法的复杂度分析[J]. 哈尔滨工业大学学报, 2013, 45(12): 111-115.

ZHANG Z Y, HAO Y L, WU X. Complexity analysis of three deterministic sampling nonlinear filtering algorithms[J]. Journal of Harbin Institute of Technology, 2013, 45(12): 111-115. (in Chinese)

Non -myopic Scheduling Algorithm of Multi -platform Active /passive Sensors for Collaboration Tracking

QIAO Chenglin1, SHAN Ganlin1, DUAN Xiusheng1,2, GUO Feng3

(1.Department of Electronic and Optical Engineering,Shijiazhuang Campus, Army Engineering University, Shijiazhuang 050003, Hebei, China;2.School of Mechanical Engineering, Shijiazhuang Tiedao University, Shijiazhuang 050043, Hebei, China;3.Beijing Aerospace Control Center, Beijing 100094, China)

Abstract : A non-myopic scheduling algorithm of multi-platform active/passive sensors for collaboration tracking is proposed in order to track the maneuvering target in clutter and reduce the system emission risk. The non-myopic scheduling problem is formulated as a partially observable Markov decision process. The target belief state is updated by using the interactive multi-model and the probability data association algorithm, and the posterior Carmér-Rao lower bound is utilized to predict the non-myopic maneuvering target track accuracy. An improved Viterbi algorithm is proposed to search the optimal scheduling sequence. Simulated results show that the proposed search algorithm can be used to reduce the searching space and memory space, control the system emission cost and reduce the excessive sensor switching effectively.

Keywords : non-myopic sensor scheduling; partially observable Markov decision process; interactive multi-model; probability data association; posterior Carmér-Rao lower bound; Viterbi algorithm

中图分类号 :TN959.1+1

文献标志码: A

文章编号: 1000-1093(2019)01-0115-09

DOI :10.3969/j.issn.1000-1093.2019.01.014

收稿日期 :2018-05-15

基金项目 :武器装备预先研究项目(012015012600A2203)

作者简介 : 乔成林(1990—),男,博士研究生。E-mail: qiaochenglin@126.com

通信作者 : 段修生(1970—),男,教授,硕士生导师。E-mail: sjzdxsh@163.com

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

多平台主动与被动传感器协同跟踪的长时调度方法论文
下载Doc文档

猜你喜欢