论文阅读——基于改进深度强化学习的多无人艇任务规划方法（IF=8.2)

上述方法将复杂问题分解为若干子问题，基于子问题的目标和约束设计奖励函数，然后相应地分解Q函数，不仅允许每个sub-Q函数基于其对应的子问题的奖励函数进行优化，以更准确地评估策略的性能，而且还有助于提高Critic网络的训练效率，从而加速收敛过程。其中，Own_Critic iσ网络用于逼近Qπθiσ函数，Local_Critic σ网络用于逼近Qπθσ函数。其中，<oσ,t，aσ,t，oσ,t+1

yaoyaolin______g

1767人浏览 · 2025-02-17 17:03:46

yaoyaolin______g · 2025-02-17 17:03:46 发布

原文链接：Multi-USV Task Planning Method Based on Improved Deep Reinforcement Learning | IEEE Journals & Magazine | IEEE Xplore

目的

任务分配的目的：为编队中的每艘USV分配一个任务列表，并根据任务列表为每艘USV规划航行路径，保证编队任务执行效率的最大化。

自主避碰的目的：根据USV在其探测范围内遇到的船舶的运动特性，重新规划USV的航行路径，确保无人驾驶船舶的航行安全。

贡献

1) 利用VDN的思想，将任务规划问题分解为两个子问题：a）任务分配和B）自主避碰。为每个子问题定制不同的状态空间、动作空间和奖励函数。然后，利用深度神经网络将每个子问题的状态空间映射到每个USV的动作空间。深度神经网络生成的策略通过相应的奖励函数进行评估。这就成功地将任务分配和路径规划集成到一个全面的任务规划框架中。

2) 设计一个联盟军队学习框架。

首先，改进PPO。

然后，采用VDN将价值函数分解为两部分：一部分用于评价任务分配方案和协同运动轨迹的优劣，记为Qπθσ;另一部分用于评价避碰策略的有效性，记为Qπθiσ。

Qπθiσ函数的更新只需要考虑单个USV的观测信息和动作信息，因此，采用改进的时域差分误差法训练用于逼近Qπθiσ函数的深度神经网络。

Qπθσ函数的更新需要考虑所有USV的观测信息和动作信息的问题，采用后继特征组合和改进的时域差分误差法训练用于逼近Qπθσ函数的深度神经网络。

3) 设计了一个无人艇编队学习框架。

以盟军学习框架为基础，融合了层级机制、区域分工机制和迁移学习方法。这使得盟军中的多USV所获得的知识能够传递到整个编队，从而使得多USV能够快速而准确地学习。

其他方法缺点

集中式任务分配：很大程度上依赖于决策agent，难以解决大规模，多目标和复杂的任务分配问题，而且在决策代理故障或攻击的情况下，编队的任务分配方案可能会受到严重影响。

分布式任务分配：由于智能体之间观测精度的差异以及观测噪声等不确定性的影响，智能体之间的任务分配结果往往会出现冲突，从而导致不必要的资源消耗，大大降低编队内任务执行的整体效率。

经典的数学优化模型：在简化复杂的任务分配模型时，可能会阻碍在复杂的任务分配过程中的多个影响因素之间的潜在关系的充分表达，特别是在涉及实时决策，动态环境和大规模多智能体系统的情况下。此外，也没有考虑动态环境中的agent的路径规划。

挑战

1) 在多USV系统中，个体USV的行为决策会受到其他USV的影响，导致环境的非平稳性。由于MARL算法迭代优化主要依赖于从与环境的交互中获得的数据。环境的非平稳性会影响样本数据的分布，从而导致训练过程中算法的不稳定性。

2) 随着编队内USV的增加，多USV系统的联合观测空间和联合行动空间将呈指数级扩展，面临着探测空间大、训练时间长、收敛困难等挑战。

3) 针对任务规划问题，在复杂的环境和复杂的任务中,设计合适的奖励函数是一个非常具有挑战性的问题。

系统模型

假设多个USV采用动态联盟机制的编队结构，协同采集目标海域智能浮标的水下数据，则假设编队由1个Leader_USV和n个Follower_USV组成。

以距离为原则划分联盟。

在每个盟军内部，成员之间以信息密度为竞争基础，信息密度最高的成员成为相应联盟军的首领。

每个联盟军队的领导者可以直接与Leader_USV通信，而联盟成员通过与各自联盟军队的领导者通信来间接与Leader_USV通信。

对于任务分配问题，要考虑的约束包括环境因素，任务要求，目标状态，以及编队中每个USV的任务执行能力。

任务分配目标是最大限度地提高编队任务的执行效率。通过任务分配方案和协同运动轨迹的性能，评估编队任务执行的效率。

为保证任务分配方案和协同运动轨迹的可行性，任务执行的agent需要在构建过程中充分考虑约束。

约束条件

1. 无冲突任务分配方案的约束: 无冲突任务分配方案是指每个任务最多只能由一个执行者完成。

2. 满足安全(避障）和节能的约束。

3. USV和智能浮标之间的通信距离约束。

4. 对USV任务执行能力的约束: 如果USVi在执行任务期间耗尽其机载燃料，它将失去执行剩余任务的能力，从而导致重大损失。

此外，由于USV具有欠驱动、大惯性和强时滞的特点，规划的路径必须符合USV最小转弯半径的约束。

5. 多USV协作约束: 规划的协作运动轨迹应确保编队中的所有USV同时到达其在装配区域内的对应位置。

自主避障

USVi通过改变速度、航向角和航向角速度来改变其运动，以避免遇到船只，设计奖励项R避免。

盟军学习框架

“集中培训和分布式执行”学习框架。

在该框架中，假设σ盟军中的所有USV具有相同的网络结构，并采用Actor-Critic体系结构。

本文将PPO算法与经验重放法相结合，建立了策略目标函数。

借鉴VDN的思想，将Qiσ,πθσ函数分解为：Qπθσ函数用于评估任务分配方案和规划的协同运动轨迹的有效性，Qπθiσ函数用于评估避碰的有效性。

碰撞风险评估模型TCR表示碰撞风险评估模型，当碰撞风险评估模型检测到会遇船舶对USV的航行安全构成威胁时，f（TCR ≥ 0.5）= 1;否则，f（TCR < 0.5）= 0。

上述方法将复杂问题分解为若干子问题，基于子问题的目标和约束设计奖励函数，然后相应地分解Q函数，不仅允许每个sub-Q函数基于其对应的子问题的奖励函数进行优化，以更准确地评估策略的性能，而且还有助于提高Critic网络的训练效率，从而加速收敛过程。

用临界网络逼近Qiσ,πθσ函数。critic网络由Own_Critic iσ网络和Local_Critic σ网络组成。其中，Own_Critic iσ网络用于逼近Qπθiσ函数，Local_Critic σ网络用于逼近Qπθσ函数。

自主避碰

对于自主避碰问题，USViσ的下一个状态的分布只受其观测和行为的影响。使用奖励函数Riσ 2来控制Q πθiσ函数值的更新方向。Qπθiσ函数的更新过程将在下文中详细描述。

Own_Critic iσ网络由三个具有相同结构的深层神经网络组成，分别为Eval − Criticiσ网络、Target_1 − Criticiσ网络和Target_2 − Criticiσ网络。用于训练Own_Criticiσ网络的损失函数如下所示：

Qφiσ（oiσ，gσ，aiσ，gσ）用于估计当前时间步长上USViσ的Q值，由Eval − Criticiσ网络生成。

Qφ 1 i σ和Qφ 2 i σ分别用于估计下一个时间步长生成的USViσ的Q值，由Target_1 − Criticiσ网络和Target_2 − Criticiσ网络生成。

损失函数选择Target_1 − Criticiσ网络和Target_2 − Criticiσ网络在下一个时间步长的Q值估计值中较小的Q值来计算TD误差，有助于减轻高估问题。

任务分配

对于任务分配问题，USViσ的下一个状态分布不仅与其观测和动作有关，而且与其他USVs的联合观测和联合动作密切相关。

因此，Qπθσ函数更新必须考虑来自联盟军队σ内的所有USV的观测和动作数据，并使用奖励函数nσRiσ1来引导Qπθσ函数值更新的方向。

多USV系统中，所有USV所处的环境动力学特征是共享的，因此基于后继特征的奖励函数分解机制有利于不同任务与环境动力学特征的解耦，找到各任务之间的相关性，为多USV从简单任务学习向复杂任务学习迁移提供了新的途径。基于后继特征的奖励函数分解机制如下所示：

其中，<oσ,t，aσ,t，oσ,t+1>表示在联合观测o σ,t下进行联合行动aσ,t后，将联军中的多USVσ转移到联合观测o σ,t+1的过程。

$\phi$ （oσ,t，aσ,t，oσ,t+1）∈ Rdσ表示传递过程<oσ,t，aσ,t，oσ,t+1>的报酬特征函数，用于描述联军的环境动力学特征σ。

μσ ∈ Rdσ 表示任务权重向量，环境中的不同任务可以通过不同的权重参数来描述。

其中riσ 1,t+1表示奖励函数Riσ 1在时间t + 1的值。 $\psi$ πθσ（oσ,t，aσ,t）表示联合状态-联合动作对（oσ,t，aσ,t）在联合策略πθσ下的后继特征。 $\phi$ σ,t+1表示在时间t + 1处的奖励特征函数的值。

使用Local_Criticσ网络逼近Qπθσ函数。Local_Criticσ网络由三个具有相同网络结构的深度神经网络组成，称为L_Eval − Criminal σ网络，L_Target_1 − Criminal σ网络和L_Target_2 − Criminal σ网络。损失函数如下：

USV编队学习框架

为了解决维度灾难问题，在盟军学习框架的基础上，引入了层级机制、区域划分机制和迁移学习方法，设计了USV编队学习框架，将特定联军中的多个USV获得的知识传递到整个编队。

源域中的最优策略

$\forall k\in \left \{ 1,2,...,d \right \}$ 表源域中的第k个任务;

$\forall k_{\sigma }\in \left \{ 1,2,...,d_{\sigma } \right \}$ 表盟军σ的源域中的第kσ个任务;

USViσ $\forall i_{\sigma }\in \left \{ 1,2,...,n_{\sigma } \right \}$ 表盟军σ中的第iσ艘USV;

对于USViσ在执行第kσ个任务时所采用的策略，如果

$\pi _{\sigma ,k_{\sigma }}^{*,i_{\sigma }}$ 为USViσ在执行第kσ个任务时所采用的最优策略；

$\pi _{\sigma ,k_{\sigma }}^{*}=\left ( \pi _{\sigma ,k_{\sigma }}^{*,1},...,\pi _{\sigma ,k_{\sigma }}^{*,i_{\sigma }},...,\pi _{\sigma ,k_{\sigma }}^{*,n_{\sigma }} \right )$ 为盟军σ的源域中第kσ个任务对应的最优联合策略；

$\pi _{k}^{*}=\left ( \pi _{1 ,k_{1 }}^{*},...,\pi _{\sigma ,k_{\sigma }}^{*},...,\pi _{N ,k_{N }}^{*} \right )$ 为源域中第k个任务对应的最优联合策略。

基于源域中所有盟军学习到的知识，建立初级知识库。将多个USV获取的知识从源域传递到目标域，实现多个USV对复杂任务的快速准确学习。

首先评估与目标域上的源域中的第k个任务相对应的最优联合策略πk的性能。

然后，评估其在目标域中的性能。

该策略并不是目标域的最优联合策略。然而，在目标域中使用该策略作为快速初始化策略可以在训练的早期阶段有效地提高环境中的多USV的探索效率，并在后续训练期间持续优化联合策略 $\pi ^{\bigcirc }$ 。

在Leader_USV中集中训练Global_Critic网络来近似Qπθ函数。

Global_Critic网络由三个具有相同架构的深度神经网络组成：1）G_Eval-Critic网络; 2）G_Target_1-Critic网络; 3）G_Target_2-Critic网络。

G_Target_1-Critic网络和G_Target_2-Critic网络充当G_Eval-Critic网络的副本。在通过训练Global_Critic网络获得Qπθ函数的值之后，该值被传输到底层的每个USV。每个USV将该值与自身的Qπθi函数值线性组合，得到Q值，作为各自Actor网络的输入，引导π θ i的更新方向，从而获得目标域的最优联合策略。

目标域中的最优策略

USVi

目标域

收敛性证明

证明目标域和源域之间的相似性。

仿真

平均累积奖励和累积奖励的标准差可作为DRL方法的绩效评估指标。

平均累积奖励：越大意味着USV编队的较高任务执行效率和更安全的协作运动轨迹。

累积奖励的标准差：越小，表明该方法在多次重复实验中的一致性越好。

实线表示每种方法获得的平均累积报酬随时间步长的趋势，而阴影区域表示每种方法获得的累积报酬的标准差随时间步长的趋势。

当奖励值为负时，生成的策略不完全满足设定的约束条件。因此，每个事件的终止条件被设置为底层内每个USV的有害行为的发生。

其他算法缺点

A3C：其他USV的动作会引起环境的变化，导致环境不稳定，进而降低A3 C算法的有效性。

VDN：一种基于值函数的MARL算法，遇到了高维连续动作空间的挑战。

MADDPG：

1）存在搜索空间大、训练时间长、收敛困难等问题。

2）不能保证在分布式执行阶段策略的性能总是朝着更高的平均累积回报的方向更新。

3）在集中训练阶段，编队内的每个USV都需要根据所有USV的观察和行动来训练自己的批评者网络。然而，这导致算法的时间复杂度增加。这是因为编队内每个USV的目标都是相同的，从而导致所有USV的奖励函数都是相同的。这意味着在这种集中式训练方法中存在大量的冗余计算，这影响了训练过程的效率。

4）MADDPG算法缺乏迁移学习的特性，使得多无人机难以快速准确地学习复杂的任务。

MAPPO优点

MAPPO方法在MADDPG算法的基础上引入了层次化机制、区域划分机制、PPO、VDN和迁移学习。

算法方面

在集中训练阶段，MAPPO方法首先利用VDN方法将多USV任务规划问题分解为2个子问题：1）任务分配和2）自主避碰，有效地降低了状态空间的维数和报酬函数的复杂度。其次，MAPPO方法使用后继特征和改进的时间差分方法训练盟军领导者的批评网络。在此基础上，盟军成员直接使用盟军领导者的Critic网络输出的q值来更新他们的Actor网络。该方法有效地解决了冗余计算的问题。此外，借鉴层次机制和区域划分机制，建立了初级知识库，为迁移学习做好了准备。最后，将盟军多USV学习到的知识传递到编队中，实现了多USV对复杂任务的快速、准确学习。

在分布式执行阶段，MAPPO方法将PPO算法与改进的时域差分法相结合，训练每个USV的Actor网络。这有效地解决了过拟合问题，同时确保了新生成的策略总是导致单调递增的累积奖励。

任务分配方面

MAPPO方法采用集中式和分布式相结合的编队结构，不仅允许基于全局观测信息的任务分配，而且使用迁移学习方法减少了中心节点的计算负担。

另外，即使中心节点崩溃，由于联盟军队的学习框架，联盟军队仍然具有任务执行能力。

总体而言，MAPPO方法尽可能地保证了编队任务的执行效率。

路径规划方面

BMC+VO方法没有考虑潮汐变化对USV航行路径安全性的影响。

此外，BMC+VO方法还难以确保规划路径的效率，这是因为BMC方法假定洋流随时间保持不变。同时，在利用VO方法调整全局路径时，该方法可以根据遭遇船的运动特性提供一组避障措施解，然后从该组避障措施中随机选择一种策略进行USV避障。因此，该方法很难保证通过随机策略提取，能够在最大限度降低USV能耗的同时，成功地使USV避开障碍物。

相比之下，MAPPO方法综合考虑了现实场景中的各种复杂因素，包括潮汐、洋流以及遭遇船只的运动特性，并将这些因素作为约束应用于奖励函数的设计。因此，MAPPO方法能够基于奖励函数引导策略迭代优化方向，对未知、动态的海洋环境表现出良好的动态适应性。

展望

1）研究不完全信息条件下的多无人艇协同任务规划问题是未来研究的一个重要方向。

2）本文只考虑了网络拓扑对多USV协同执行任务的影响，没有考虑通信方式、信道接入方式等因素对多USV协同执行任务的影响。因此，另一个关键的未来研究方向是研究多USV之间的通信网络的性能及其对多USV任务规划的影响。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git