Parallel-in-Time Nonlinear Optimal Control via GPU-native Sequential Convex Programming

📄 arXiv: 2603.10711v1 📥 PDF

作者: Yilin Zou, Zhong Zhang, Fanghua Jiang

分类: cs.RO, eess.SY

发布日期: 2026-03-11


💡 一句话要点

提出一种基于GPU原生序列凸规划的并行时域非线性最优控制方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 非线性最优控制 序列凸规划 交替方向乘子法 GPU并行计算 实时轨迹优化

📋 核心要点

  1. 现有基于CPU的序列求解器难以充分利用GPU等大规模并行计算架构,限制了非线性约束自主系统的实时轨迹优化。
  2. 该方法结合序列凸规划和交替方向乘子法,通过时间分割策略将优化问题分解为可在GPU上并行执行的子问题。
  3. 实验表明,该方法在四旋翼飞行和火星着陆任务中,相比CPU基线实现了显著的吞吐量提升和能耗降低,并保持高GPU利用率。

📝 摘要(中文)

本文提出了一种完全基于GPU的轨迹优化框架,用于解决非线性约束自主系统的实时轨迹优化问题。该框架结合了序列凸规划和基于共识的交替方向乘子法。通过时间分割策略,将优化范围分解为独立的、每个节点上的子问题,从而实现大规模并行执行。整个过程在GPU上运行,避免了代价高昂的内存传输和大规模稀疏分解。这种架构自然地扩展到多轨迹优化。在四旋翼飞行器敏捷飞行任务和火星动力下降问题上进行了验证,结果表明,与优化的12核CPU基线相比,吞吐量持续提高了4倍,能耗降低了51%。该框架充分利用了硬件资源,保持超过96%的GPU利用率,实现了超过100 Hz的规划速率。此外,还通过联合优化随机扰动下动态耦合的场景,证明了该求解器对鲁棒模型预测控制的可扩展性,从而实现可扩展且安全的自主性。

🔬 方法详解

问题定义:论文旨在解决非线性约束自主系统的实时轨迹优化问题。现有方法,特别是基于CPU的序列求解器,在处理大规模问题时面临挑战,主要原因是它们依赖于全局稀疏线性代数或动态规划的串行特性,无法充分利用GPU等并行计算架构的优势。这限制了实时性和能源效率。

核心思路:论文的核心思路是将轨迹优化问题分解为多个时间段上的子问题,并在GPU上并行求解这些子问题。通过结合序列凸规划(SCP)和交替方向乘子法(ADMM),实现子问题之间的协调和收敛。这种方法避免了全局稀疏矩阵分解,并允许在GPU上进行大规模并行计算。

技术框架:该框架包含以下主要阶段:1) 时间分割:将整个优化时间范围分割成多个独立的子问题,每个子问题对应一个时间段。2) 序列凸规划:使用SCP将非线性优化问题转化为一系列凸优化问题,每个子问题都可以独立求解。3) 交替方向乘子法:使用ADMM来协调各个子问题的解,确保全局一致性。4) GPU并行计算:所有计算都在GPU上进行,包括SCP求解和ADMM迭代,以充分利用GPU的并行计算能力。

关键创新:最重要的技术创新点在于将时间分割策略与GPU原生计算相结合,实现了非线性最优控制问题的大规模并行求解。与传统的CPU方法相比,该方法避免了代价高昂的内存传输和全局稀疏矩阵分解,从而显著提高了计算效率和能源效率。

关键设计:关键设计包括:1) 时间分割策略:选择合适的时间分割粒度,以平衡并行度和收敛速度。2) 凸近似方法:选择合适的凸近似方法,以保证SCP的收敛性和精度。3) ADMM参数调整:调整ADMM的惩罚参数,以平衡收敛速度和解的质量。4) GPU内存管理:优化GPU内存管理,以减少内存传输和提高计算效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与优化的12核CPU基线相比,该方法在四旋翼飞行器敏捷飞行任务和火星动力下降问题上,吞吐量持续提高了4倍,能耗降低了51%。此外,该框架充分利用了硬件资源,保持超过96%的GPU利用率,实现了超过100 Hz的规划速率。这些结果表明该方法具有很高的实用价值。

🎯 应用场景

该研究成果可广泛应用于需要实时轨迹优化的自主系统,例如无人机敏捷飞行、自动驾驶、机器人运动规划、航天器控制等领域。尤其是在边缘计算平台上,该方法能够提供更高的计算效率和更低的能耗,从而实现更安全、更可靠的自主控制。

📄 摘要(原文)

Real-time trajectory optimization for nonlinear constrained autonomous systems is critical and typically performed by CPU-based sequential solvers. Specifically, reliance on global sparse linear algebra or the serial nature of dynamic programming algorithms restricts the utilization of massively parallel computing architectures like GPUs. To bridge this gap, we introduce a fully GPU-native trajectory optimization framework that combines sequential convex programming with a consensus-based alternating direction method of multipliers. By applying a temporal splitting strategy, our algorithm decouples the optimization horizon into independent, per-node subproblems that execute massively in parallel. The entire process runs fully on the GPU, eliminating costly memory transfers and large-scale sparse factorizations. This architecture naturally scales to multi-trajectory optimization. We validate the solver on a quadrotor agile flight task and a Mars powered descent problem using an on-board edge computing platform. Benchmarks reveal a sustained 4x throughput speedup and a 51% reduction in energy consumption over a heavily optimized 12-core CPU baseline. Crucially, the framework saturates the hardware, maintaining over 96% active GPU utilization to achieve planning rates exceeding 100 Hz. Furthermore, we demonstrate the solver's extensibility to robust Model Predictive Control by jointly optimizing dynamically coupled scenarios under stochastic disturbances, enabling scalable and safe autonomy.