ATRS: Adaptive Trajectory Re-splitting via a Shared Neural Policy for Parallel Optimization

📄 arXiv: 2604.22715v1 📥 PDF

作者: Jiajun Yu, Guodong Liu, Li Wang, Pengxiang Zhou, Wentao Liu, Yin He, Chao Xu, Fei Gao, Yanjun Cao

分类: cs.RO

发布日期: 2026-04-24

备注: 8 pages, submitted to IEEE Robotics and Automation Letters


💡 一句话要点

ATRS:基于共享神经策略的自适应轨迹重分割,用于并行优化。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 轨迹优化 并行ADMM 深度强化学习 自适应重分割 运动规划

📋 核心要点

  1. 现有并行轨迹优化方法依赖固定结构分解问题,易在约束区域停滞,影响全局收敛速度。
  2. ATRS通过共享深度强化学习策略自适应重分割轨迹,加速并行ADMM优化过程。
  3. 实验表明ATRS能显著减少迭代次数和计算时间,并在真实场景中实现快速重规划。

📝 摘要(中文)

本文提出ATRS,一种新颖的框架,将共享深度强化学习策略嵌入到并行ADMM循环中,以解决长时程运动规划中并行轨迹优化问题。现有方法基于预定义的固定结构将问题分解为并行子问题,这种结构刚性导致优化在高度约束区域停滞,少数滞后的子问题延迟全局收敛。ATRS将自适应调整建模为多智能体共享策略马尔可夫决策过程,其中所有轨迹段充当同质智能体并共享统一的神经策略网络。这种参数共享架构赋予系统尺寸不变性,使其能够处理重分割期间动态变化的段数,并推广到任意轨迹长度。此外,该公式固有地支持零样本泛化到未见环境,因为网络仅依赖于数值求解器的内部状态,而不是环境的几何特征。为了确保求解器稳定性,基于置信度的选举机制选择每个步骤中最停滞的段进行重分割。大量仿真表明,ATRS加速了收敛,迭代次数减少高达26.0%,计算时间减少高达19.1%。真实世界的实验进一步证实了其适用于大规模离线全局规划和实时车载重规划,每个周期在35毫秒内完成,且没有sim-to-real的性能下降。

🔬 方法详解

问题定义:论文旨在解决长时程运动规划中,基于ADMM的并行轨迹优化方法因固定分割结构导致的收敛速度慢的问题。现有方法在高度约束区域容易出现优化停滞,少数滞后的子问题会严重影响全局收敛速度。因此,如何动态调整轨迹分割,以适应不同环境和约束条件,是亟待解决的问题。

核心思路:ATRS的核心思路是将轨迹重分割过程建模为一个多智能体强化学习问题,并采用共享策略网络来控制每个轨迹段的分割决策。通过让所有轨迹段共享一个策略网络,可以实现参数共享,从而提高学习效率和泛化能力。此外,ATRS还引入了基于置信度的选举机制,以确保求解器的稳定性,避免过度分割。

技术框架:ATRS框架主要包含以下几个模块:1) 并行ADMM优化器:负责执行轨迹优化,并将每个轨迹段的状态信息传递给强化学习模块。2) 共享策略网络:基于轨迹段的状态信息,预测是否需要进行重分割。3) 基于置信度的选举机制:选择最需要重分割的轨迹段。4) 轨迹重分割模块:根据选举结果,对选定的轨迹段进行重分割,并更新ADMM优化器的子问题。整个流程在一个循环中迭代进行,直到轨迹优化收敛。

关键创新:ATRS最重要的创新点在于将深度强化学习与并行ADMM优化相结合,实现了自适应的轨迹重分割。与传统的基于规则的启发式方法相比,ATRS能够根据环境和约束条件动态调整分割策略,从而提高优化效率和鲁棒性。此外,共享策略网络的设计使得ATRS具有尺寸不变性,能够处理动态变化的段数,并泛化到任意轨迹长度。

关键设计:ATRS的关键设计包括:1) 状态表示:使用ADMM求解器的内部状态作为强化学习的状态表示,避免依赖环境的几何特征,从而实现零样本泛化。2) 奖励函数:设计奖励函数鼓励加速收敛,惩罚过度分割。3) 共享策略网络结构:采用深度神经网络作为共享策略网络,并使用合适的激活函数和优化器进行训练。4) 基于置信度的选举机制:使用置信度来衡量轨迹段的停滞程度,并选择置信度最高的轨迹段进行重分割。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ATRS在仿真实验中,相较于传统方法,迭代次数减少高达26.0%,计算时间减少高达19.1%。真实世界的实验进一步证实了其适用于大规模离线全局规划和实时车载重规划,每个周期在35毫秒内完成,且没有sim-to-real的性能下降。这些结果表明ATRS在加速并行轨迹优化方面具有显著优势。

🎯 应用场景

ATRS可应用于各种需要长时程运动规划的场景,例如无人驾驶、机器人导航、无人机路径规划等。其自适应重分割能力使其能够更好地处理复杂环境和约束条件,提高运动规划的效率和鲁棒性。此外,ATRS的实时重规划能力使其能够应用于动态环境中的在线运动规划,例如在拥挤的交通环境中进行避障。

📄 摘要(原文)

Parallel trajectory optimization via the Alternating Direction Method of Multipliers (ADMM) has emerged as a scalable approach to long-horizon motion planning. However, existing frameworks typically decompose the problem into parallel subproblems based on a predefined fixed structure. Such structural rigidity often causes optimization stagnation in highly constrained regions, where a few lagging subproblems delay global convergence. A natural remedy is to adaptively re-split these stagnating segments online. Yet, deciding when, where, and how to split exceeds the capability of rule-based heuristics. To this end, we propose ATRS, a novel framework that embeds a shared Deep Reinforcement Learning policy into the parallel ADMM loop. We formulate this adaptive adjustment as a Multi-Agent Shared-Policy Markov Decision Process, where all trajectory segments act as homogeneous agents and share a unified neural policy network. This parameter-sharing architecture endows the system with size invariance, enabling it to handle dynamically changing segment counts during re-splitting and generalize to arbitrary trajectory lengths. Furthermore, our formulation inherently supports zero-shot generalization to unseen environments, as our network relies solely on the internal states of the numerical solver rather than on the geometric features of the environment. To ensure solver stability, a Confidence-Based Election mechanism selects only the most stagnating segment for re-splitting at each step. Extensive simulations demonstrate that ATRS accelerates convergence, reducing the number of iterations by up to 26.0% and the computation time by up to 19.1%. Real-world experiments further confirm its applicability to both large-scale offline global planning and real-time onboard replanning within 35 ms per cycle, with no sim-to-real degradation.