HEAT: Heterogeneous End-to-End Autonomous Driving via Trajectory-Guided World Models
作者: Hoonhee Cho, Giwon Lee, Jae-Young Kang, Hyemin Yang, Heejun Park, Kuk-Jin Yoon
分类: cs.RO, cs.CV
发布日期: 2026-05-19
💡 一句话要点
HEAT:基于轨迹引导世界模型的异构端到端自动驾驶
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 端到端自动驾驶 异构领域学习 轨迹规划 世界模型 领域泛化
📋 核心要点
- 现有端到端自动驾驶模型在跨异构领域泛化能力不足,因为领域差异导致模型学习到次优的折衷方案。
- 论文提出一种轨迹驱动的学习范式,通过围绕规划轨迹组织训练,使模型能够学习领域不变的驾驶意图表示。
- 实验结果表明,该方法在nuScenes、NAVSIM和Waymo数据集上均优于现有方法,实现了跨异构领域的性能提升。
📝 摘要(中文)
端到端自动驾驶通过直接将原始传感器数据映射到驾驶行为,已成为传统模块化流程的有力替代方案。虽然现有方法在单领域数据集上表现出色,但在多个异构领域联合训练时性能显著下降。然而,在实践中,自动驾驶系统必须在具有异构分布的各种环境中运行,包括不同的城市、传感器配置和交通模式,而无需针对特定领域进行重新训练。这种差距突显了多领域学习中的一个关键挑战:异构领域中特定领域的差异引入了冲突的学习信号,导致模型陷入次优的折衷方案。为了解决这个问题,我们提出了一种轨迹驱动的学习范式,该范式围绕规划轨迹组织训练,使模型能够捕获驾驶意图的领域不变表示。此外,我们还引入了一个世界模型,该模型预测以自我行动为条件的未来潜在特征,从而提高特征一致性并减轻领域引起的偏差。我们在nuScenes、NAVSIM和Waymo端到端数据集这三个基准上评估了我们的方法,并表明与现有方法相比,在所有领域都有显着改进。我们的结果表明,可以在异构数据集上训练单个统一模型,同时保持每个领域内的强大性能,这标志着朝着可扩展的现实世界部署迈出了一步。我们将公开我们的代码。
🔬 方法详解
问题定义:现有端到端自动驾驶方法在单一数据集上表现良好,但当在多个异构数据集(例如,不同城市、不同传感器配置)上训练时,性能会显著下降。这是因为不同领域的数据分布存在差异,导致模型学习到领域相关的特征,而非通用的驾驶策略,从而在各个领域都表现不佳。现有方法缺乏有效处理异构领域数据差异的能力。
核心思路:论文的核心思路是利用轨迹作为桥梁,学习领域不变的驾驶意图表示。通过将训练过程围绕规划轨迹进行组织,模型可以专注于学习与轨迹相关的通用驾驶行为,而忽略特定领域的噪声。此外,引入世界模型预测未来状态,增强特征的一致性,进一步减少领域偏差的影响。
技术框架:HEAT方法的整体框架包含以下几个主要模块:1) 轨迹规划模块:生成车辆的规划轨迹。2) 特征提取模块:从输入数据(例如,图像、激光雷达)中提取特征。3) 世界模型:基于当前状态和动作预测未来的潜在特征。4) 控制模块:根据提取的特征和世界模型的预测,生成车辆的控制指令。训练过程中,模型以轨迹为指导,学习如何根据当前状态和规划轨迹生成合适的控制指令。
关键创新:论文的关键创新在于:1) 轨迹驱动的学习范式:通过围绕规划轨迹组织训练,使模型能够学习领域不变的驾驶意图表示。2) 引入世界模型:预测未来状态,增强特征一致性,减少领域偏差。与现有方法相比,HEAT方法更加关注学习通用的驾驶策略,而非特定领域的特征。
关键设计:在训练过程中,论文使用了多种损失函数,包括轨迹跟踪损失、控制指令损失和世界模型预测损失。轨迹跟踪损失用于约束车辆按照规划轨迹行驶。控制指令损失用于约束模型生成正确的控制指令。世界模型预测损失用于约束世界模型准确预测未来的潜在特征。网络结构方面,论文使用了卷积神经网络提取图像特征,并使用循环神经网络建模时间序列数据。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HEAT方法在nuScenes、NAVSIM和Waymo数据集上均取得了显著的性能提升。例如,在Waymo数据集中,HEAT方法相比于现有最佳方法,在多个指标上提升了超过10%。这些结果表明,HEAT方法能够有效地学习领域不变的驾驶策略,并在异构环境中实现良好的泛化能力。
🎯 应用场景
该研究成果可应用于各种自动驾驶场景,尤其是在需要跨多个异构环境部署的场景中,例如不同城市、不同天气条件等。通过使用统一的模型,可以降低部署和维护成本,并提高自动驾驶系统的鲁棒性和泛化能力。该方法也有潜力应用于其他机器人领域,例如导航和操作。
📄 摘要(原文)
End-to-end autonomous driving has emerged as a compelling alternative to traditional modular pipelines by directly mapping raw sensor data to driving actions. While recent approaches achieve strong performance on single-domain datasets, their performance degrades significantly when trained jointly across multiple heterogeneous domains. In practice, however, autonomous systems must operate across diverse environments with heterogeneous distributions, including different cities, sensor configurations, and traffic patterns, without domain-specific retraining. This gap highlights a key challenge in multi-domain learning: domain-specific variations across heterogeneous domains introduce conflicting learning signals, driving models toward compromised solutions that are suboptimal across domains. To address this, we propose a trajectory-driven learning paradigm that organizes training around planning trajectories, enabling the model to capture domain-invariant representations of driving intent. Furthermore, we incorporate a world model that predicts future latent features conditioned on ego actions, improving feature consistency and mitigating domain-induced biases. We evaluate our approach on three benchmarks, nuScenes, NAVSIM, and the Waymo end-to-end dataset, and show substantial improvements over existing methods across all domains. Our results demonstrate that a single unified model can be trained on heterogeneous datasets while maintaining strong performance within each domain, highlighting a step toward scalable real-world deployment. We will make our code publicly available.