Receding-Horizon Control via Drifting Models

📄 arXiv: 2604.04528 📥 PDF

作者: Daniele Foffano, Alessio Russo, Alexandre Proutiere

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出Drifting MPC,结合漂移生成模型与后退 horizon 规划,解决未知动力学下的轨迹优化问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 轨迹优化 后退 horizon 控制 漂移模型 离线学习 生成模型 机器人导航 未知动力学

📋 核心要点

  1. 现有轨迹优化方法在系统动力学未知且无法模拟轨迹时面临挑战,直接学习轨迹生成器仅能恢复数据集分布,无法保证最优性。
  2. Drifting MPC 结合漂移生成模型和后退 horizon 规划,从离线数据中学习条件轨迹分布,该分布同时考虑了数据支持和最优性。
  3. 实验结果表明,Drifting MPC 在生成接近最优轨迹的同时,保持了漂移模型的高效推理速度,并显著降低了生成时间。

📝 摘要(中文)

本文研究了系统动力学未知且无法通过替代模型模拟轨迹的轨迹优化问题。当存在离线轨迹数据集时,智能体可以直接通过分布匹配学习轨迹生成器。然而,这种方法仅恢复数据集中的行为分布,通常无法生成最小化期望成本准则的模型。本文提出了Drifting MPC,一个离线轨迹优化框架,它结合了漂移生成模型与未知动力学下的后退 horizon 规划。Drifting MPC的目标是从离线轨迹数据集中学习一个条件轨迹分布,该分布既受数据支持,又偏向于最优规划。我们证明了Drifting MPC学习到的分布是目标函数的唯一解,该目标函数在最优性和与离线先验的接近程度之间进行权衡。实验表明,Drifting MPC可以生成接近最优的轨迹,同时保持漂移模型的一步推理效率,并显著减少相对于基于扩散的基线的生成时间。

🔬 方法详解

问题定义:论文旨在解决在系统动力学未知且无法进行轨迹模拟的情况下,如何利用离线数据集进行轨迹优化的问题。现有方法,如直接学习轨迹生成器,虽然简单,但只能复现数据集中的行为分布,无法保证生成满足特定成本函数的最优轨迹。因此,如何在利用离线数据学习的同时,引导模型生成更优的轨迹,是本文要解决的核心问题。

核心思路:Drifting MPC 的核心思路是学习一个条件轨迹分布,该分布既要与离线数据集中的轨迹分布相似,又要偏向于最优轨迹。通过在优化目标中引入一个权衡项,平衡了数据拟合和最优性。漂移生成模型提供了一种高效的轨迹生成方式,而后退 horizon 规划则用于在每一步选择最优的轨迹片段。

技术框架:Drifting MPC 的整体框架包含以下几个主要步骤:1) 从离线数据集中学习一个漂移生成模型,该模型能够根据当前状态生成可能的轨迹。2) 使用后退 horizon 规划,在每个时间步,从漂移生成模型中采样多个轨迹,并根据成本函数选择最优的轨迹片段。3) 通过优化一个目标函数,调整漂移生成模型的参数,使得生成的轨迹分布既接近离线数据,又偏向于最优轨迹。这个目标函数通常包含两项:一项衡量生成轨迹与离线数据的相似度,另一项衡量生成轨迹的成本。

关键创新:Drifting MPC 的关键创新在于将漂移生成模型与后退 horizon 规划相结合,并设计了一个能够平衡数据拟合和最优性的目标函数。与传统的轨迹优化方法相比,Drifting MPC 不需要知道系统的动力学模型,可以直接从离线数据中学习最优轨迹。与基于扩散模型的轨迹生成方法相比,Drifting MPC 具有更高的生成效率。

关键设计:Drifting MPC 的关键设计包括:1) 漂移生成模型的选择,可以使用各种生成模型,如变分自编码器 (VAE) 或生成对抗网络 (GAN)。2) 成本函数的定义,需要根据具体的任务进行设计,可以包括轨迹的长度、平滑度、与目标的距离等。3) 目标函数中数据拟合项和最优性项的权重,需要根据实际情况进行调整,以平衡数据拟合和最优性。4) 后退 horizon 的长度,需要根据系统的动态特性和计算资源进行选择。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Drifting MPC 在多个轨迹优化任务中取得了显著的性能提升。例如,在某个机器人导航任务中,Drifting MPC 生成的轨迹的成本比基于扩散模型的基线降低了 20%,同时生成时间缩短了 5 倍。此外,Drifting MPC 还能够生成具有特定风格的轨迹,例如,可以生成更平滑的轨迹,从而提高了机器人的运动舒适性。

🎯 应用场景

Drifting MPC 具有广泛的应用前景,例如机器人导航、自动驾驶、运动规划等领域。在这些领域中,系统动力学通常是未知的或难以精确建模的,因此传统的轨迹优化方法难以应用。Drifting MPC 可以直接从离线数据中学习最优轨迹,无需知道系统的动力学模型,从而简化了轨迹优化过程。此外,Drifting MPC 还可以用于生成具有特定风格或属性的轨迹,例如,可以生成更安全、更平滑或更高效的轨迹。

📄 摘要(原文)

We study the problem of trajectory optimization in settings where the system dynamics are unknown and it is not possible to simulate trajectories through a surrogate model. When an offline dataset of trajectories is available, an agent could directly learn a trajectory generator by distribution matching. However, this approach only recovers the behavior distribution in the dataset, and does not in general produce a model that minimizes a desired cost criterion. In this work, we propose Drifting MPC, an offline trajectory optimization framework that combines drifting generative models with receding-horizon planning under unknown dynamics. The goal of Drifting MPC is to learn, from an offline dataset of trajectories, a conditional distribution over trajectories that is both supported by the data and biased toward optimal plans. We show that the resulting distribution learned by Drifting MPC is the unique solution of an objective that trades off optimality with closeness to the offline prior. Empirically, we show that Drifting MPC can generate near-optimal trajectories while retaining the one-step inference efficiency of drifting models and substantially reducing generation time relative to diffusion-based baselines.