Accelerating trajectory optimization with Sobolev-trained diffusion policies

📄 arXiv: 2604.19011v1 📥 PDF

作者: Théotime Le Hellard, Franki Nguimatsia Tiofack, Quentin Le Lidec, Justin Carpentier

分类: cs.LG, cs.RO

发布日期: 2026-04-21


💡 一句话要点

利用Sobolev训练的扩散策略加速轨迹优化

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 轨迹优化 扩散策略 模仿学习 Sobolev学习 反馈增益

📋 核心要点

  1. 轨迹优化求解器效率受初始轨迹影响大,现有方法每次独立求解,效率较低。
  2. 提出使用Sobolev训练的扩散策略来预热轨迹优化,利用反馈增益信息优化策略学习。
  3. 实验表明,该策略能有效避免累积误差,显著减少求解时间,并降低推理延迟。

📝 摘要(中文)

轨迹优化(TO)求解器利用已知的系统动力学,通过迭代改进来计算局部最优轨迹。然而,每个新问题实例都是独立解决的,因此收敛速度和解的质量取决于初始轨迹。为了提高效率,一种自然的方法是用学习策略生成的初始猜测来预热TO,该策略在求解器先前生成的轨迹上进行训练。基于扩散的策略最近作为富有表现力的模仿学习模型出现,使其成为该角色的有希望的候选者。然而,一个违反直觉的挑战来自TO演示的局部最优性:当策略展开时,小的非最优偏差可能会将其推入训练数据中未表示的情况,从而引发长期累积误差。在这项工作中,我们专注于基于梯度的TO求解器的基于学习的预热,该求解器还提供反馈增益。利用这种特殊性,我们推导出基于轨迹和反馈增益的扩散策略Sobolev学习的一阶损失。通过全面的实验,我们证明了由此产生的策略避免了累积误差,因此可以从非常少的轨迹中学习,以提供初始猜测,从而将求解时间减少2倍到20倍。结合一阶信息可以使用更少的扩散步骤进行预测,从而减少推理延迟。

🔬 方法详解

问题定义:轨迹优化(TO)旨在寻找满足特定约束并优化目标函数的运动轨迹。现有方法通常独立解决每个新的问题实例,导致收敛速度慢,且解的质量高度依赖于初始轨迹。尤其是在复杂环境中,一个糟糕的初始轨迹可能导致求解器陷入局部最优,或者需要大量的迭代才能找到可接受的解。因此,如何高效地生成高质量的初始轨迹是轨迹优化中的一个关键问题。

核心思路:本论文的核心思路是利用模仿学习训练一个扩散策略,使其能够生成高质量的初始轨迹,从而加速轨迹优化过程。特别地,论文利用轨迹优化求解器提供的反馈增益信息,通过Sobolev学习来优化扩散策略,使其能够更好地泛化到未见过的状态,并避免累积误差。这种方法的核心在于将轨迹优化求解器的先验知识融入到策略学习中,从而提高策略的鲁棒性和泛化能力。

技术框架:整体框架包含两个主要阶段:1) 使用轨迹优化求解器生成训练数据,包括轨迹和反馈增益;2) 使用Sobolev学习训练一个扩散策略,该策略以状态为输入,输出初始轨迹。在推理阶段,该策略根据当前状态生成初始轨迹,然后将其作为轨迹优化求解器的输入,进行迭代优化。该框架的关键在于扩散策略的学习过程,它利用了轨迹优化求解器提供的反馈增益信息,从而提高了策略的性能。

关键创新:本论文的关键创新在于将Sobolev学习与扩散策略相结合,并利用轨迹优化求解器提供的反馈增益信息来优化策略学习。传统的模仿学习方法容易受到累积误差的影响,尤其是在轨迹优化这种对精度要求较高的任务中。通过Sobolev学习,该方法能够更好地利用一阶信息,从而提高策略的鲁棒性和泛化能力。此外,利用反馈增益信息可以使策略更好地适应不同的环境和任务,从而提高其通用性。

关键设计:论文的关键设计包括:1) 使用扩散模型作为策略的表示,扩散模型具有强大的表达能力,能够生成复杂的轨迹;2) 使用Sobolev损失函数来优化策略学习,Sobolev损失函数能够利用一阶信息,从而提高策略的鲁棒性;3) 利用轨迹优化求解器提供的反馈增益信息来指导策略学习,反馈增益信息能够使策略更好地适应不同的环境和任务;4) 通过减少扩散步骤来降低推理延迟,从而提高策略的实用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够显著减少轨迹优化求解时间,最高可达20倍。与传统的模仿学习方法相比,该方法能够更好地避免累积误差,从而提高策略的鲁棒性和泛化能力。此外,通过减少扩散步骤,该方法还能够降低推理延迟,从而提高策略的实用性。

🎯 应用场景

该研究成果可广泛应用于机器人运动规划、自动驾驶、游戏AI等领域。通过学习高质量的初始轨迹,可以显著提高轨迹优化算法的效率和鲁棒性,从而实现更快速、更可靠的运动控制。此外,该方法还可以应用于其他需要精确轨迹生成的任务,例如医疗手术机器人、工业自动化等。

📄 摘要(原文)

Trajectory Optimization (TO) solvers exploit known system dynamics to compute locally optimal trajectories through iterative improvements. A downside is that each new problem instance is solved independently; therefore, convergence speed and quality of the solution found depend on the initial trajectory proposed. To improve efficiency, a natural approach is to warm-start TO with initial guesses produced by a learned policy trained on trajectories previously generated by the solver. Diffusion-based policies have recently emerged as expressive imitation learning models, making them promising candidates for this role. Yet, a counterintuitive challenge comes from the local optimality of TO demonstrations: when a policy is rolled out, small non-optimal deviations may push it into situations not represented in the training data, triggering compounding errors over long horizons. In this work, we focus on learning-based warm-starting for gradient-based TO solvers that also provide feedback gains. Exploiting this specificity, we derive a first-order loss for Sobolev learning of diffusion-based policies using both trajectories and feedback gains. Through comprehensive experiments, we demonstrate that the resulting policy avoids compounding errors, and so can learn from very few trajectories to provide initial guesses reducing solving time by $2\times$ to $20 \times$. Incorporating first-order information enables predictions with fewer diffusion steps, reducing inference latency.