Doe-1: Closed-Loop Autonomous Driving with Large World Model
作者: Wenzhao Zheng, Zetian Xia, Yuanhui Huang, Sicheng Zuo, Jie Zhou, Jiwen Lu
分类: cs.CV, cs.AI, cs.LG
发布日期: 2024-12-12
备注: Code is available at: https://github.com/wzzheng/Doe
🔗 代码/项目: GITHUB
💡 一句话要点
提出Doe-1:基于大世界模型的闭环自动驾驶框架,实现统一感知、预测与规划
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 世界模型 闭环控制 多模态Transformer 端到端学习
📋 核心要点
- 现有端到端自动驾驶方法多为开环,存在可扩展性差、缺乏高阶交互和决策效率低等问题。
- Doe-1将自动驾驶建模为token生成问题,利用多模态transformer统一处理感知、预测和规划任务。
- 在nuScenes数据集上的实验表明,Doe-1在视觉问答、动作条件视频生成和运动规划等任务中表现出色。
📝 摘要(中文)
端到端自动驾驶因其从大量数据中学习的潜力而备受关注。然而,现有方法大多是开环的,存在可扩展性弱、缺乏高阶交互和决策效率低等问题。本文探索了一种闭环自动驾驶框架,并提出了一个大型驾驶世界模型(Doe-1),用于统一感知、预测和规划。我们将自动驾驶建模为下一个token生成问题,并使用多模态token来完成不同的任务。具体来说,我们使用自由文本(即场景描述)进行感知,并使用图像token直接在RGB空间中生成未来预测。对于规划,我们采用位置感知的tokenizer来有效地将动作编码为离散token。我们训练一个多模态transformer,以端到端和统一的方式自回归地生成感知、预测和规划token。在广泛使用的nuScenes数据集上的实验证明了Doe-1在各种任务中的有效性,包括视觉问答、动作条件视频生成和运动规划。
🔬 方法详解
问题定义:现有端到端自动驾驶方法通常采用开环控制,导致误差累积,难以适应复杂环境。此外,这些方法在感知、预测和规划上通常是分离的,缺乏统一的建模方式,限制了高阶交互和决策效率。因此,需要一个闭环的、统一的框架来解决这些问题。
核心思路:Doe-1的核心思路是将自动驾驶任务分解为一系列token生成问题,利用大型世界模型学习环境的表示,并根据当前状态和历史信息预测未来状态和动作。通过将感知、预测和规划统一到一个框架中,可以实现更高效的决策和更强的泛化能力。
技术框架:Doe-1采用一个多模态Transformer架构,包含以下主要模块:1) 多模态输入编码器:将来自不同传感器(如摄像头、激光雷达)的数据编码为token序列。2) 世界模型:一个大型Transformer模型,用于学习环境的表示并预测未来状态。3) 动作解码器:将世界模型的输出解码为车辆控制指令。整个框架以端到端的方式进行训练,通过最小化预测误差和规划损失来优化模型参数。
关键创新:Doe-1的关键创新在于将自动驾驶任务建模为下一个token生成问题,并使用多模态Transformer统一处理感知、预测和规划。这种方法允许模型学习环境的复杂动态,并根据当前状态和历史信息做出更明智的决策。此外,Doe-1采用闭环控制,可以有效减少误差累积,提高系统的鲁棒性。
关键设计:Doe-1使用自由文本描述场景进行感知,利用图像token在RGB空间生成未来预测,并采用位置感知的tokenizer将动作编码为离散token。损失函数包括感知损失、预测损失和规划损失,用于优化模型的感知、预测和规划能力。Transformer的层数、注意力头数和隐藏层维度等参数需要根据数据集和计算资源进行调整。
🖼️ 关键图片
📊 实验亮点
Doe-1在nuScenes数据集上进行了广泛的实验,结果表明其在视觉问答、动作条件视频生成和运动规划等任务中表现出色。具体性能数据未知,但论文强调了Doe-1在统一感知、预测和规划方面的有效性,以及其在各种自动驾驶任务中的泛化能力。与现有方法相比,Doe-1具有更高的决策效率和更强的鲁棒性。
🎯 应用场景
Doe-1具有广泛的应用前景,可用于开发更安全、更智能的自动驾驶系统。该框架可以应用于各种场景,包括城市道路、高速公路和越野环境。此外,Doe-1还可以用于开发高级驾驶辅助系统(ADAS),例如自动泊车、车道保持和自适应巡航控制。该研究的成果将推动自动驾驶技术的发展,并为未来的智能交通系统奠定基础。
📄 摘要(原文)
End-to-end autonomous driving has received increasing attention due to its potential to learn from large amounts of data. However, most existing methods are still open-loop and suffer from weak scalability, lack of high-order interactions, and inefficient decision-making. In this paper, we explore a closed-loop framework for autonomous driving and propose a large Driving wOrld modEl (Doe-1) for unified perception, prediction, and planning. We formulate autonomous driving as a next-token generation problem and use multi-modal tokens to accomplish different tasks. Specifically, we use free-form texts (i.e., scene descriptions) for perception and generate future predictions directly in the RGB space with image tokens. For planning, we employ a position-aware tokenizer to effectively encode action into discrete tokens. We train a multi-modal transformer to autoregressively generate perception, prediction, and planning tokens in an end-to-end and unified manner. Experiments on the widely used nuScenes dataset demonstrate the effectiveness of Doe-1 in various tasks including visual question-answering, action-conditioned video generation, and motion planning. Code: https://github.com/wzzheng/Doe.