MISTY: High-Throughput Motion Planning via Mixer-based Single-step Drifting
作者: Yining Xing, Zehong Ke, Yiqian Tu, Zhiyuan Liu, Wenhao Yu, Jianqiang Wang
分类: cs.RO, cs.AI
发布日期: 2026-04-23
备注: 8 pages, 4 figures, 3 tables. Submitted to IEEE Robotics and Automation Letters (RA-L)
💡 一句话要点
MISTY:基于Mixer的单步漂移动作规划,实现高吞吐量自动驾驶。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 运动规划 自动驾驶 单步推理 MLP-Mixer 潜在空间 轨迹生成 nuPlan
📋 核心要点
- 现有基于扩散模型的运动规划器由于迭代神经函数评估,推理延迟较高,难以满足自动驾驶的实时性需求。
- MISTY通过单步推理生成轨迹,利用Mixer架构降低计算复杂度,并引入潜在空间漂移损失,将复杂分布学习转移到训练阶段。
- 在nuPlan基准测试中,MISTY在Test14-hard数据集上取得了SOTA性能,速度达到99FPS,端到端延迟仅为10.1ms。
📝 摘要(中文)
本文提出了一种高吞吐量的生成式运动规划器MISTY(Mixer-based Inference for Single-step Trajectory-drifting Yield),它通过纯单步推理实现了最先进的闭环性能。MISTY集成了向量化子图编码器以捕获环境上下文,变分自编码器将专家轨迹结构化为紧凑的32维潜在空间,以及超轻量级的MLP-Mixer解码器以消除二次注意力复杂度。重要的是,我们引入了潜在空间漂移损失,将复杂的分布演化完全转移到训练阶段。通过制定显式的吸引力和排斥力,这种机制使模型能够合成新颖的、主动的动作,例如主动超车,而这些动作在原始专家演示中几乎不存在。在nuPlan基准上的广泛评估表明,MISTY在具有挑战性的Test14-hard分割上实现了最先进的结果,在非反应和反应设置中分别获得了80.32和82.21的综合评分。MISTY以超过99 FPS的速度运行,端到端延迟为10.1 ms,与迭代扩散规划器相比,速度提高了近一个数量级,同时实现了显著的鲁棒生成。
🔬 方法详解
问题定义:现有基于扩散模型的运动规划方法,需要多次迭代推理,计算量大,推理速度慢,难以满足自动驾驶系统对实时性的要求。尤其是在复杂场景下,需要生成多模态轨迹,进一步加剧了计算负担。
核心思路:MISTY的核心思路是利用单步推理生成轨迹,避免迭代计算。通过将复杂的轨迹生成过程分解为环境感知、潜在空间编码和轨迹解码三个阶段,并采用轻量级的MLP-Mixer架构,显著降低了计算复杂度,提高了推理速度。此外,引入潜在空间漂移损失,将轨迹分布的学习转移到训练阶段,进一步提升了生成质量。
技术框架:MISTY的整体架构包括三个主要模块:1) 向量化子图编码器:用于提取环境上下文信息,将周围环境编码成向量表示。2) 变分自编码器(VAE):将专家轨迹编码到低维潜在空间,学习轨迹的分布特征。3) MLP-Mixer解码器:将潜在空间的表示解码为轨迹,生成车辆的运动轨迹。整个流程是端到端可训练的。
关键创新:MISTY的关键创新在于:1) 单步推理:通过单步解码直接生成轨迹,避免了迭代计算,显著提高了推理速度。2) 潜在空间漂移损失:通过在潜在空间中引入吸引力和排斥力,引导模型学习更丰富的轨迹分布,生成更主动的驾驶行为,例如主动超车。3) 轻量级MLP-Mixer解码器:相比于传统的注意力机制,MLP-Mixer具有更低的计算复杂度,更适合实时性要求高的场景。
关键设计:MISTY的关键设计包括:1) 32维潜在空间:通过实验选择合适的潜在空间维度,平衡了信息压缩和轨迹重建质量。2) 潜在空间漂移损失的吸引力和排斥力系数:通过调整系数,控制主动驾驶行为的强度。3) MLP-Mixer的层数和隐藏层大小:通过实验选择合适的网络结构,平衡了模型容量和计算复杂度。
🖼️ 关键图片
📊 实验亮点
MISTY在nuPlan基准测试的Test14-hard数据集上取得了显著成果,非反应设置下综合评分达到80.32,反应设置下达到82.21,超越了现有方法。同时,MISTY的推理速度高达99FPS,端到端延迟仅为10.1ms,相比于迭代扩散模型,速度提升了一个数量级,实现了性能和效率的双重提升。
🎯 应用场景
MISTY可应用于自动驾驶车辆的运动规划模块,尤其适用于对实时性要求高的复杂城市道路环境。该方法能够快速生成安全、合理的行驶轨迹,提升自动驾驶系统的安全性、效率和用户体验。此外,MISTY的单步推理框架和潜在空间漂移损失,也为其他需要快速生成多模态数据的领域提供了借鉴,例如机器人操作、游戏AI等。
📄 摘要(原文)
Multi-modal trajectory generation is essential for safe autonomous driving, yet existing diffusion-based planners suffer from high inference latency due to iterative neural function evaluations. This paper presents MISTY (Mixer-based Inference for Single-step Trajectory-drifting Yield), a high-throughput generative motion planner that achieves state-of-the-art closed-loop performance with pure single-step inference. MISTY integrates a vectorized Sub-Graph encoder to capture environment context, a Variational Autoencoder to structure expert trajectories into a compact 32-dimensional latent manifold, and an ultra-lightweight MLP-Mixer decoder to eliminate quadratic attention complexity. Importantly, we introduce a latent-space drifting loss that shifts the complex distribution evolution entirely to the training phase. By formulating explicit attractive and repulsive forces, this mechanism empowers the model to synthesize novel, proactive maneuvers, such as active overtaking, that are virtually absent from the raw expert demonstrations. Extensive evaluations on the nuPlan benchmark demonstrate that MISTY achieves state-of-the-art results on the challenging Test14-hard split, with comprehensive scores of 80.32 and 82.21 in non-reactive and reactive settings, respectively. Operating at over 99 FPS with an end-to-end latency of 10.1 ms, MISTY offers an order-of-magnitude speedup over iterative diffusion planners while while achieving significantly robust generation.