仓储物流机器人集群避障及协同路径规划方法论文

仓储物流机器人集群避障及协同路径规划方法

陈明智，钱同惠，张仕臻，王嘉前

（江汉大学物理与信息工程学院，湖北武汉 430056）

摘要：基于智能机器人的智能仓储系统为解决因电子商务兴起带来的仓储物流压力提供了有效的方案。而机器人集群的避障及路径规划问题是智能仓储系统能否正常运行以及提升其运行效率的关键所在。该文创新地提出一种在交通规则和预约表约束下的基于改进Q-Learning 算法的仓储物流机器人集群避障及协同路径规划方法。通过改进的Q-Learning算法规划出每个机器人完成任务目标的最短路径并形成预约表，利用交通规则和预约表解决仓储物流机器人集群在运行时发生的碰撞和死锁问题，并根据所设定的协同机制，减少机器人无任务的待机状态，平衡各机器人之间的工作量，最终实现在保证系统安全运行的基础上缩短系统运行时间的目的。通过Matlab 对该文所设计的算法进行仿真，以系统无碰撞完成所有任务的运行总时间即系统中最后一个完成任务的机器人无碰撞运行的总步数为评价指标，验证了该方法的有效性。

关键词：智能仓储；机器人集群；交通规则；预约表；改进Q-Learning 算法；协同路径规划

0 引言

仓储系统在电子商务高速发展的今天面临着巨大挑战，引入机器人集群代替传统人工的智能化仓储系统成为现代物流发展的必然趋势。亚马逊^[1]、海康威视^[2]等企业的相关研究更是带动了智能仓储的快速兴起。

智能仓储系统中的安全隐患和运行障碍，主要来自于仓储物流机器人集群之间的碰撞和死锁问题，优秀的避障方法可以极大地提升系统的可靠性和运行效率。本文利用改进Q-Learning 算法进行路径规划，将交通规则和路径预约表相结合保证机器人之间无碰撞运行，在路径规划中加入协同机制，强化各机器人之间的联系，从而在保证安全运行的基础上构建一个更加灵活、高效的智能仓储系统。

“红船精神”是激励我们大胆探索、创新创业的强大思想武器。首创精神昭示我们，在社会发展的历史进程中，我们不能因循守旧、安于现状，必须勇立潮头、敢为人先，坚持用时代发展要求审视自己，以改革精神创新发展理念，以创新的精神永葆党的生机和活力。面对新挑战、新机遇、新形势和新任务，我们要坚持和发扬“红船精神”，有敢于突破前人的勇气和智慧，自觉克服安于现状、不思进取的思想观念，坚持用创新的理论成果武装头脑，用创新的思想观念谋划工作，紧紧扭住发展不放松，与时俱进，勇于改革创新，不断推进建设中国特色社会主义的伟大事业。勇于改革创新，敢为人先，始终保持共产党人的首创精神，夺取新征程上的更大胜利。

1 问题分析

智能仓储系统由货架、机器人和工作台三部分组成，本文利用文献[3]的仓库模型并加以改善，该模型具有灵活、高效等特点。将结构化的仓库环境用栅格地图表示，形成22×48 的二维栅格，如图1所示。将栅格地图按列，由上到下依次对栅格进行编号，以方便后续研究。

图1 智能仓储系统栅格模型
Fig.1 Grid model of intelligent warehousing system

在智能仓储系统这样快速变换的动态环境中，由于有多个机器人和货架的存在，机器人r_i 在进行物流任务时所规划的路径P_i ，会产生两类碰撞，一类是与货架等静态障碍物的碰撞，另一类是与系统中运行的其他机器人的碰撞。文中，直接将货架所处的栅格位子在机器人路径规划时设为不可达，以此消除机器人与货架的碰撞。机器人之间的碰撞则复杂得多，会发生两机碰撞、三机碰撞、四机碰撞等多种情况，对系统的安全造成严重的威胁。为避免机器人之间的碰撞甚至死锁的问题，本文在智能仓储系统中加入交通规则，规定每条道路都是单行道，并且道路的方向规定为围绕货架的逆时针方向，如图2所示，箭头所指方向即机器人在该道路时运行的方向。机器人根据交通规则，每一步选择上、下、左、右或者原地等待这五个动作中的一个，直至到达任务目标点。

图2 智能仓储系统交通规则设定
Fig.2 Setting of traffic regulation forintelligent storage system

交通规则的设定，有效地限制了机器人之间碰撞甚至死锁的发生，将碰撞类型限定在十字路口碰撞和追尾碰撞之中，如图3所示。本文采用预约表的办法来解决这两种碰撞，预约表的设计将在下文提出。

分析以广佛两市2015年11月以来1万的出租车GPS数据和计价器数据为基础，限于篇幅，本次仅结合需求和用地等规划广佛两市出租车返程点. 通过分析，目前出租车行程起讫点呈现出3个特点：①出行需求集中在两市毗邻地区，并且广州市境内出行需求总量高于佛山市；②局部出行需求呈点状(如广州南站)、带状分布(广佛路、花地大道、龙溪大道)分布；③除毗邻区域外，广佛两市出租车需求集中在客运枢纽和地铁站，如白云国际机场、广州南站、广州站、广州东站、芳村客运站以及浔峰岗地铁站、黄沙地铁站、西朗地铁站等.

一是要建立档案人员培训制度，想方设法为档案人员创造学习条件，鼓励和支持档案人员努力学习档案专业知识，开拓视野，不断提高专业水平和业务素质。二是要加强档案人员与本所其他工作人员的互动和联系，及时指导他们按照归档的要求收集、整理档案资料。三是对档案人员实行岗位责任制，明确其职责范围，并建立业务考核制度，奖罚分明，调动档案人员的工作积极性。

图3 交通规则下的两种碰撞类型
Fig.3 Two types of collisions under traffic regulations

根据本文需求，希望m 个机器人在无碰撞完成所有任务的情况下所走的总路程最短以及系统运行的总时间（系统中最后一个完成任务的机器人运行的步数）最短。因此，可将仓储物流机器人集群协同路径规划表示为一个典型约束条件下的优化问题，其数学模型如下：

式中表示机器人r_i 规划的路径长度，由机器人完成所有分配任务的步数决定；C ₁(P_i )与C ₂(P_i ,P_j )分别代表机器人是否与障碍物或其他机器人碰撞，用式（4）和式（5）表示如下：

本文协同机制设定为，根据当前预约表的情况，将当前预约表中规划路径最长和最短的机器人r_i ，r_j 进行配对，根据查询预约表信息获取r_j 完成所有物流任务时r_i 正在执行的物流任务，将r_i 的后一个物流任务交给r_j 去执行，根据路径规划算法规划任务重新分配后的两个机器人的新的路径，并更新预约表。以此方法进行循环，让当前预约表中路径最短的机器人去代替路径最长的机器人完成它的下一个任务，从而弥补了任务分配的不完善，减少机器人无任务待机状态，提升协同度，最终达到缩短系统运行总时间的目的。

式中，P_i ⋂P_j ≠∅表示机器人r_i 和r_j 规划的路径在时间和空间上有交集。

为了防止算法陷入局部最优，增加全局寻优的能力，本文在动作选择策略上增设贪婪度参数ε ，比如ε =0.9 时，就说明有90%的情况智能机器人会按照表的最大值选择行为，10%的情况使用随机选行为，该策略在实际仿真中有效提高了算法寻优的最优性。

2 算法思路

结语：随着对中国近现代史基本问题研究的学科属性进行分析与思考，对传统的教学经验进行不断的深入与总结，明确中国近现代史基本问题研究学科的属性，加强马克思主义中国化研究，为我国社会主义发展提供依据，促进中国特色社会主义道路的建设。

仓储物流机器人集群在智能仓储系统中的物流任务分析如下：在智能仓储系统中有n 个未完成的订单任务每一个任务对应货架（e 为货架个数）中的一个，将这些订单任务分为m 组文献[4-8]详细介绍了多种任务分配方法，由于本文主要研究机器人集群的路径规划问题，因此在任务分配上直接采用文献[8]的基于遗传算法的多机器人任务分配方法。m 个机器人R =根据任务分配方法得到对应的一组任务，每个机器人根据自己得到订单任务的不同位置依次进行路径规划，通过上、下、左、右或者原地等待这5 个动作，从当前位置一步步移动到任务对应货架，取得货物后移送到指定工作台S ={s ₁,s ₂,… ,s_v }（v 为工作台的数量）进行相应处理，依次循环直至完成所有被分到的任务。

2.1 预约表设计

针对图3所示的两类碰撞问题，系统通过查阅预约表的相关信息，对将会发生碰撞的机器人当前状态进行判定，再根据避让规则安排相关机器人进行避让。十字路口型碰撞，采用分权重的方式进行避让，权重由路径规划算法形成的机器人完成所有任务的路径长度（即机器人运行总步数）决定，路径长度越长则权重越大，在十字路口处就享有优先通过权，如果权重相同则随机选择通过。追尾型碰撞则采取先来后到的原则进行避让，后占用栅格的机器人必须等先占用该栅格的机器人离开后才能占用该栅格。预约表通过路径规划算法形成，记录机器人集群中每个机器人单独运行时的完整路径以及每一步占用栅格的情况，包含了所有机器人完成所有任务的位置、时间信息。机器人可以通过查询预约表来获取当前栅格的占用情况以及机器人权重的大小，从而决定机器人下一步动作的选择。预约表是一个以机器人数量为行数，以系统中所有机器人中运行路径最长的机器人运行的总步数为列数的矩阵，针对预约表中每个机器人规划的路径长度不同的情况，则统一采用“0”补齐，如图4所示。

图4 预约表设计
Fig.4 Design of reservation table

2.2 改进Q-Learning算法协同路径规划

为验证算法有效性，将本文设计的协同路径规划算法（简称算法1）和普通的基于交通规则和预约表的QLearning 算法（简称算法2）在图1提出的智能仓储系统中进行比较。通过硬件配置为Inter^ⓇCore^TM i7-2600 电脑上的Matlab 2017a 对其进行仿真实验。仿真实验分为两部分：

图5 算法结构
Fig.5 Algorithm structure

在Q-Learning 中，奖惩函数是判断智能机器人运行好坏的重要指标，一般的奖励函数只是在机器人到达目标时给予相应瞬时奖励R ₁，本文在此基础上增设向目标点靠近动作的奖励R ₂，其计算公式为：

综上所述，通过一年试验结果可见，增产效果明显，关于土壤有机质含量和土壤肥力待测，未有详实数据说明，建议加大示范推广力度，继续观察其效果和作用，以便为生产提供理论依据，因地制宜开展免耕机械成果推广，为今后的规模化生产奠定基础。

式中，Δd 为机器人当前状态栅格S ₁（坐标为(x_s ₁,y_s ₁)）和前一状态栅格S ₀（坐标为(x_s ₀,y_s ₀)）与终点栅格S （坐标为(x_s ,y_s )）的直线距离的差，其公式为：

为了让机器人尽快走向终点，机器人每走一步都将得到-1 的奖励值。综上，本文的奖惩函数计算公式如下：

相对而言，陆军的BIM发展政策最为完善和系统化。而其中起决定性作用的是美国陆军工程兵部队 (US Army Corps of Engineers，USACE)。陆军工程兵部队为美国国防部下属所有国内和海外军事设施提供工程设计、项目管理、施工管理以及运行维护服务。早在2006年10月，陆军工程兵部队下属工程研究与发展中心 (Engineer Research and Development Center，ERDC) 制定并发布了未来15年的BIM发展路线规划，承诺未来所有军事建筑项目都使用BIM技术，其阶段性的目标和长期战略目标见图2。这意味着BIM在军事建筑领域将全面普及。

式中μ_ri (x ,y )和μ_lj (x ,y )分别为机器人和货架所在栅格的坐标（以栅格右下角的坐标为当前栅格坐标）。

3 模型仿真

目前流行的机器人路径规划算法主要有A^*算法^[9]、D^*算法^[10]以及强化学习 Q-Learning 算法^[11]等。A^*仅适用于可控的已知环境，并且在高度动态的环境容易形成死锁；D^*算法寻找全局最优的能力较差；Q-Learning 算法原理简单，在线适应性强以及未知环境下拥有强大的自主学习能力，在智能控制、机器人等领域受到广泛的运用。本文采用改进的Q-Learning 算法结合设计的协同机制来进行机器人集群的协同路径规划，算法结构如图5所示。

1）对比相同数量机器人执行不同任务数量的情况，机器人数量为 12，任务数量依次为 50，100，150，200，250；

2）比较相同任务数量由不同数量机器人执行情况，任务数量设定为250，机器人数量分别设定为6，12，24。

主操作界面能够正确显示监控视频和运动状态等信息。通过菜单栏的“菜单”项和键盘快捷键，实现用户在外接鼠标和键盘时的操作。

图6为不同路劲规划算法对12 个机器人完成不同数量任务所花费的系统总时间。由图6可知，在机器人数量一定时，随着任务数量的不断提高，系统运行的总时间也不断提高。相较于算法2，算法1 能有效减少系统运行的总时间，这是因为算法1 的协同机制弥补了原先任务分配时的不足，减少了机器人完成任务后的空闲状态，避免资源的浪费，让各机器人之间的工作量更加平衡，随着任务数量的增加，协同机制的效果也就越明显。

图6 机器人执行不同任务数量的系统时间
Fig.6 System time of different tasks performed by robot

图7为不同路径规划算法对不同机器人完成250 个任务所花费的系统总时间。由图可知，在任务数量一定的情况下，机器人的数量越多，系统运行的总时间越少。相较于算法2，算法1 仍然有效地减少了系统总的运行时间。随着机器人的数量增多，系统运行时间下降的趋势逐渐变缓，这是由于机器人越多，每个机器人分到的任务就越少。从宏观上看，各机器人之间完成所分配任务的总工作量差别就逐渐缩小，即机器人之间的工作量越平衡，协同机制产生的效果也就逐渐变小。

图7 不同数量机器人执行任务的系统时间
Fig.7 System time for exceuting tasks of different number of robots

从图6、图7中可以看出，算法1 所花费的系统运行时间都呈线性，显示了算法良好的性能。

4 结语

本文创新地提出一种仓储物流机器人集群避障及协同路径规划方法，完成了如下工作：在智能仓储系统中指定交通规则并设计相应路径预约表，防止机器人之间的碰撞及系统死锁；改进Q-Learning 算法的奖惩函数，增设趋近目标点的奖励，加速算法的收敛；在路径规划中设计了相应的协同机制，增加各机器人之间的联系，减少机器人无任务可做的空闲状态，从而有效降低了系统运行的总时间。

约90%的学生对文化导入的内容感到满意；访谈中部分受访学生提出在文化导入时应更多地对汉英文化进行对比，认为这种方式对学习和记忆最为有效。

参考文献

[1]吴菁芃.亚马逊仓库Kiva 机器人的应用分析与前景展望[J].物流技术与应用，2015，20（10）：159-164.WU Jingpeng.Application analysis and prospect of Kiva robot in Amazon warehouse[J].Logistics ＆ material handing，2015，20（10）：159-164.

[2]海康威视.海康威视“阡陌”机器人在智能仓储中的应用[J].智能机器人，2016（1）：81-84.HIKVISION.Hikvision "Qian Mo" robot in intelligent storage application[J].Intelligent robot，2016（1）：81-84.

[3]蒋家志，刘国.多机器人智能仓储系统中智能调度的研究[J].机电工程技术，2017，46（9）：82-84.JIANG Jiazhi，LIU Guo.Research on intelligent scheduling in multi-robot intelligent warehousing system[J].Mechanical ＆ electrical engineering technology，2017，46（9）：82-84.

[4]王宇.多机器人多任务分配及路径规划研究[D].沈阳：沈阳工业大学，2017.WANG Yu.Research on multi-task assignment and path planning for multi-robots[D].Shenyang：Shenyang University of Technology，2017.

[5]姜栋，徐欣.基于帕累托改进的多机器人动态任务分配算法[J].计算机应用，2017，37（12）：3620-3624.JIANG Dong，XU Xin.Multi-robot dynamic task allocation algorithm based on Pareto improvement[J].Computer applications，2017，37（12）：3620-3624.

[6]HERNANDEZ-PEREZ H，SALAZAR-GONZALEZ J J.The multi-commodity pickup-and-delivery traveling salesman problem[J].Networks，2014，63（1）：46-59.

[7]DORIGO M.Autonomous task allocation for swarm robotic systems using hierarchical strategy[C]// Proceedings of 10th International Conference on Swarm Intelligence.Berlin：Springer-Verlag，2016：287.

[8]窦佳佳.强化学习及其在智能仓储中的应用研究[D].南京：南京大学，2016.DOU Jiajia.Study on reinforcement learning and its application in intelligent warehousing[D].Nanjing：Nanjing University，2016.

[9]GANESHMURTHY M S，SURESH G R.Path planning algorithm for autonomous mobile robot in dynamic environment[C]// Proceedings of 3rd International Conference on Signal Processing，Communication and Networking.Washington：IEEE，2015：1-6.

[10]张贺，胡越黎，王权，等.基于改进D^*算法的移动机器人路径规划[J].工业控制计算机，2016，29（11）：73-74.ZHANG He，HU Yueli，WANG Quan，et al.Path planning of mobile robot based on improved D^* algorithm[J].Industrial control computer，2016，29（11）：73-74.

[11]马磊，张文旭，戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报，2014，49（6）：1032-1044.MA Lei，ZHANG Wenxu，DAI Chaohua.A review of developments in reinforcement learning for multi-robot systems[J].Journal of Southwest Jiaotong University，2014，49（6）：1032-1044.

Obstacle avoidance and cooperative path planning method of warehouse logistics robot cluster

CHEN Mingzhi，QIAN Tonghui，ZHANG Shizhen，WANG Jiaqian
（College of Physics and Information Engineering，Jianghan University，Wuhan 430056，China）

Abstract： The intelligent warehousing system based on intelligent robot provides an effective solution for reduction of the warehousing logistics pressure caused by the rise of e-commerce.The obstacle avoidance and path planning method of robot cluster is the key to the normal operation of intelligent storage system and the improvement of its operation efficiency.An innovative approach based on improved Q-Learning algorithm is proposed for obstacle avoidance and collaborative path planning of warehouse logistics robot cluster under the constraints of traffic regulations and reservation form.The shortest path for each robot to complete its task goal is planned by means of the improved Q-Learning algorithm，and a reservation table is formed.The traffic regulations and reservation table are used to solve the collision and deadlock problems of the warehouse logistics robot cluster while it is running.According to the established cooperative mechanism，the task free standby state of the robot is reduced，the workload of each robot is balanced，and the running time of the system on the basis of ensuring the safe running of the system is finally shortened.The algorithm designed in this paper is simulated by Matlab，the evaluation index is the total running time of the system to complete all tasks without collision，that is，the total number of steps of the last robot to complete tasks without collision，by which the effectiveness of the method is verified.

Keywords： intelligent storage；robot cluster；traffic regulation；reservation table；improved Q-Learning algorithm；cooperative path planning

中图分类号： TN915-34；TP242

文献标识码： A

文章编号： 1004-373X（2019）22-0174-04

DOI： 10.16652/j.issn.1004-373x.2019.22.037

收稿日期： 2019-03-08

修回日期： 2019-04-24

基金项目：湖北省高等学校优秀中青年科技创新团队计划项目：智能交通和物流的优化与决策（T201828）

Project Supported by Science and Technology Innovation Team for Excellent Middle-aged and Young People in Colleges and Universities of Hubei Province：Optimization and Decision-making of Intelligent Transportation and Logistics（T201828）

作者简介：

陈明智（1992—），男，湖北宜昌人，在读硕士研究生，主要研究方向为物联网技术、系统工程。

钱同惠（1961—），江苏苏州人，博士，教授，主要研究方向为物联网、仓储管理、数字信号处理等。

张仕臻（1989—），男，湖北十堰人，实验员，主要研究方向为物联网技术、模式识别。

王嘉前（1992—），男，山西长治人，在读硕士研究生，主要研究方向为控制工程。

标签：智能仓储论文; 机器人集群论文; 交通规则论文; 预约表论文; 改进Q-Learning算法论文; 协同路径规划论文; 江汉大学物理与信息工程学院论文;