PIE: Perception and Interaction Enhanced End-to-End Motion Planning for Autonomous Driving
作者: Chengran Yuan, Zijian Lu, Zhanqi Zhang, Yimin Zhao, Zefan Huang, Shuo Sun, Jiawei Sun, Jiahui Li, Christina Dao Wen Lee, Dongen Li, Marcelo H. Ang
分类: cs.RO
发布日期: 2025-09-23
💡 一句话要点
PIE:感知与交互增强的端到端自动驾驶运动规划框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 运动规划 端到端学习 多模态融合 Mamba 交互建模 场景理解
📋 核心要点
- 端到端运动规划面临场景理解和有效决策预测的挑战,阻碍了其大规模部署。
- PIE框架通过融合先进感知、推理和意图建模,动态捕捉自车与周围车辆的交互。
- PIE在NAVSIM基准测试中,无需集成和数据增强,超越了现有最优方法。
📝 摘要(中文)
本文提出PIE,一个开创性的框架,它集成了先进的感知、推理和意图建模,以动态捕捉自车与周围车辆之间的交互。PIE包含一个双向Mamba融合模块,解决了相机和激光雷达多模态融合中的数据压缩损失。同时,一个新颖的推理增强解码器集成了Mamba和混合专家模型,以促进符合场景的锚点选择和优化自适应轨迹推断。PIE采用动作-运动交互模块,有效地利用周围车辆的状态预测来改进自车规划。该框架在NAVSIM基准上进行了全面验证。PIE在不使用任何集成和数据增强技术的情况下,实现了88.9的PDM分数和85.6的EPDM分数,超过了现有最先进方法的性能。全面的定量和定性分析表明,PIE能够可靠地生成可行且高质量的自车轨迹。
🔬 方法详解
问题定义:端到端自动驾驶运动规划旨在简化复杂的自动驾驶流程,但现有方法在场景理解和决策预测方面存在不足。尤其是在处理多模态数据融合时,容易出现信息压缩损失,导致对周围环境的感知不准确。此外,如何有效地利用周围车辆的意图和行为预测来优化自车轨迹规划也是一个挑战。
核心思路:PIE的核心思路是通过增强感知、推理和交互建模能力,提升端到端运动规划的性能。具体来说,利用双向Mamba融合模块来更有效地融合相机和激光雷达数据,减少信息损失;通过推理增强解码器来选择更符合场景的锚点,并优化轨迹推断;通过动作-运动交互模块来利用周围车辆的状态预测,从而改进自车规划。
技术框架:PIE框架主要包含以下几个模块:1) 双向Mamba融合模块:用于融合相机和激光雷达数据,提取丰富的场景特征。2) 推理增强解码器:集成了Mamba和混合专家模型,用于场景感知的锚点选择和轨迹推断。3) 动作-运动交互模块:利用周围车辆的状态预测信息,优化自车轨迹规划。整个流程是从多模态感知输入开始,经过特征提取、融合、推理和规划,最终输出自车的运动轨迹。
关键创新:PIE的关键创新在于以下几个方面:1) 提出了双向Mamba融合模块,有效解决了多模态数据融合中的信息压缩损失问题。2) 设计了推理增强解码器,通过集成Mamba和混合专家模型,提升了场景感知的锚点选择和轨迹推断能力。3) 引入了动作-运动交互模块,将周围车辆的状态预测纳入自车规划中,实现了更智能的交互式运动规划。
关键设计:双向Mamba融合模块的具体实现细节未知,但其核心思想是利用Mamba架构的长程依赖建模能力,更好地融合不同模态的信息。推理增强解码器中,Mamba可能用于序列建模,混合专家模型用于处理不同场景下的轨迹推断。动作-运动交互模块可能采用注意力机制或其他交互建模方法,来学习周围车辆状态对自车规划的影响。损失函数的设计可能包括轨迹平滑性、碰撞避免、目标达成等多个方面。
🖼️ 关键图片
📊 实验亮点
PIE在NAVSIM基准测试中取得了显著的性能提升,PDM分数达到88.9,EPDM分数达到85.6,超越了现有最先进的方法。值得注意的是,PIE在没有使用任何集成和数据增强技术的情况下,仍然能够取得如此优异的成绩,这充分证明了其框架设计的有效性和创新性。这些实验结果表明,PIE能够生成可行且高质量的自车轨迹,为自动驾驶系统的实际应用奠定了坚实的基础。
🎯 应用场景
PIE框架具有广泛的应用前景,可用于各种自动驾驶场景,包括城市道路、高速公路和停车场等。该框架能够提升自动驾驶系统的安全性、可靠性和舒适性,加速自动驾驶技术的商业化落地。未来,PIE还可以扩展到其他机器人领域,例如无人机、服务机器人等,实现更智能的运动规划和控制。
📄 摘要(原文)
End-to-end motion planning is promising for simplifying complex autonomous driving pipelines. However, challenges such as scene understanding and effective prediction for decision-making continue to present substantial obstacles to its large-scale deployment. In this paper, we present PIE, a pioneering framework that integrates advanced perception, reasoning, and intention modeling to dynamically capture interactions between the ego vehicle and surrounding agents. It incorporates a bidirectional Mamba fusion that addresses data compression losses in multimodal fusion of camera and LiDAR inputs, alongside a novel reasoning-enhanced decoder integrating Mamba and Mixture-of-Experts to facilitate scene-compliant anchor selection and optimize adaptive trajectory inference. PIE adopts an action-motion interaction module to effectively utilize state predictions of surrounding agents to refine ego planning. The proposed framework is thoroughly validated on the NAVSIM benchmark. PIE, without using any ensemble and data augmentation techniques, achieves an 88.9 PDM score and 85.6 EPDM score, surpassing the performance of prior state-of-the-art methods. Comprehensive quantitative and qualitative analyses demonstrate that PIE is capable of reliably generating feasible and high-quality ego trajectories.