Constraint-Informed Learning for Warm Starting Trajectory Optimization
作者: Julia Briden, Changrak Choi, Kyongsik Yun, Richard Linares, Abhishek Cauligi
分类: cs.RO
发布日期: 2023-12-21 (更新: 2024-09-17)
DOI: 10.13140/RG.2.2.35597.92646
💡 一句话要点
提出TOAST:一种基于约束信息的学习方法,用于加速轨迹优化问题的求解。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 轨迹优化 摊销优化 决策聚焦学习 Merit函数 约束满足
📋 核心要点
- 现有轨迹优化方法在资源受限的飞行计算机上运行速度过慢,限制了航天器和机器人的自主能力。
- TOAST利用摊销优化,通过学习问题参数到原始-对偶解的映射来加速轨迹优化,核心是约束信息损失函数。
- 实验表明,TOAST在月球车和火星动力下降问题上,计算速度和约束满足度均优于现有方法。
📝 摘要(中文)
未来的航天器和表面机器人任务需要在复杂和非结构化环境中具备更强的自主能力,而轨迹优化将是这种自主能力的核心。然而,非线性优化求解器对于资源受限的飞行级计算机来说仍然太慢。本文提出了一种基于学习的加速优化技术,即摊销优化,并提出了TOAST:具有Merit函数暖启动的轨迹优化方法。通过离线仿真数据,训练一个神经网络来学习问题参数到完整原始和对偶解的映射。关键在于,我们基于决策聚焦学习的最新成果,提出了一组使用优化问题Merit函数概念的决策聚焦损失函数。我们表明,使用这种约束信息损失训练网络可以更好地编码轨迹优化问题的结构,并联合学习重建原始-对偶解,同时提高约束满足度。通过月球车问题和三自由度火星动力下降引导问题的数值实验,我们证明了TOAST在计算时间和网络预测约束满足度方面优于基准方法。
🔬 方法详解
问题定义:轨迹优化问题旨在寻找满足特定约束条件(如动力学、障碍物避免等)的最优轨迹。传统的非线性优化求解器计算量大,难以在资源受限的航天器或机器人平台上实时运行。现有方法难以在计算效率和约束满足度之间取得平衡。
核心思路:TOAST的核心思想是利用机器学习中的摊销优化方法,通过学习一个神经网络来预测轨迹优化问题的解。该网络将问题参数作为输入,直接输出原始变量和对偶变量的估计值,从而避免了迭代求解优化问题的过程。通过暖启动的方式,可以进一步加速优化过程。
技术框架:TOAST的整体框架包括离线训练和在线推理两个阶段。离线训练阶段,首先生成大量的轨迹优化问题实例,并使用传统优化器求解这些实例,得到训练数据。然后,训练一个神经网络,学习从问题参数到原始-对偶解的映射。在线推理阶段,当遇到新的轨迹优化问题时,将问题参数输入到训练好的神经网络中,得到初始解,并将其作为暖启动点传递给传统的优化器进行微调。
关键创新:TOAST的关键创新在于使用了基于Merit函数的决策聚焦损失函数。传统的监督学习方法通常直接最小化预测解与真实解之间的误差,而忽略了约束条件。TOAST通过Merit函数来衡量解的质量,并将其作为损失函数的一部分,从而引导网络学习满足约束条件的解。这种方法能够更好地编码轨迹优化问题的结构,提高约束满足度。
关键设计:TOAST使用了多层感知机(MLP)作为神经网络的结构。损失函数由两部分组成:一部分是预测解与真实解之间的均方误差,另一部分是基于Merit函数的约束违反项。Merit函数的设计需要仔细考虑,以平衡目标函数和约束条件之间的权重。此外,训练数据的质量和数量也会影响网络的性能。
📊 实验亮点
实验结果表明,TOAST在月球车问题和三自由度火星动力下降引导问题上,相比于基准方法,计算时间显著减少,同时约束满足度也得到了提高。具体而言,TOAST能够以更快的速度生成满足约束条件的轨迹,从而提高了任务的实时性和可靠性。量化结果表明,TOAST在计算时间上优于基线方法,并且在约束违反方面也表现更好。
🎯 应用场景
TOAST可应用于航天器自主导航、机器人运动规划等领域。例如,在月球或火星探测任务中,TOAST可以帮助探测器快速生成满足约束条件的轨迹,从而提高任务的自主性和效率。此外,该方法还可以应用于自动驾驶、无人机等领域,具有广泛的应用前景。
📄 摘要(原文)
Future spacecraft and surface robotic missions require increasingly capable autonomy stacks for exploring challenging and unstructured domains, and trajectory optimization will be a cornerstone of such autonomy stacks. However, the nonlinear optimization solvers required remain too slow for use on relatively resource-constrained flight-grade computers. In this work, we turn towards amortized optimization, a learning-based technique for accelerating optimization run times, and present TOAST: Trajectory Optimization with Merit Function Warm Starts. Offline, using data collected from a simulation, we train a neural network to learn a mapping to the full primal and dual solutions given the problem parameters. Crucially, we build upon recent results from decision-focused learning and present a set of decision-focused loss functions using the notion of merit functions for optimization problems. We show that training networks with such constraint-informed losses can better encode the structure of the trajectory optimization problem and jointly learn to reconstruct the primal-dual solution while yielding improved constraint satisfaction. Through numerical experiments on a Lunar rover problem and a 3-degrees-of-freedom Mars powered descent guidance problem, we demonstrate that TOAST outperforms benchmark approaches in terms of both computation times and network prediction constraint satisfaction.