DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving
作者: Zhenjie Yang, Yilin Chai, Xiaosong Jia, Qifeng Li, Yuqian Shao, Xuekai Zhu, Haisheng Su, Junchi Yan
分类: cs.CV, cs.AI, cs.RO
发布日期: 2025-05-22
备注: Project Page: https://thinklab-sjtu.github.io/DriveMoE/
💡 一句话要点
DriveMoE:基于混合专家模型的端到端自动驾驶视觉-语言-动作模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 端到端自动驾驶 混合专家模型 视觉-语言-动作模型 多视角学习 行为克隆
📋 核心要点
- 端到端自动驾驶需要有效处理多视角传感器数据,并稳健地处理各种复杂驾驶场景,尤其是一些罕见的操作,例如激进的转弯。
- DriveMoE的核心思想是利用混合专家模型(MoE)的参数专业化能力,分别在视觉和动作层面进行场景和技能的解耦。
- 实验结果表明,DriveMoE在Bench2Drive闭环评估中取得了SOTA性能,验证了视觉和动作MoE结合在自动驾驶任务中的有效性。
📝 摘要(中文)
本文提出DriveMoE,一种新颖的基于混合专家模型(MoE)的端到端自动驾驶(E2E-AD)框架,包含场景特化的视觉MoE和技能特化的动作MoE。DriveMoE构建于Drive-$π_0$之上,后者是基于具身智能领域的视觉-语言-动作(VLA)基线模型。具体而言,通过训练一个路由器,DriveMoE向Drive-$π_0$添加视觉MoE,以根据驾驶环境动态选择相关的摄像头。这种设计模仿了人类的驾驶认知,即驾驶员有选择地关注关键的视觉线索,而不是详尽地处理所有视觉信息。此外,通过训练另一个路由器来激活针对不同驾驶行为的专门专家模块,DriveMoE添加了动作MoE。通过显式的行为专业化,DriveMoE能够处理各种场景,而不会像现有模型那样遭受模式平均化。在Bench2Drive闭环评估实验中,DriveMoE实现了最先进的(SOTA)性能,证明了在自动驾驶任务中结合视觉和动作MoE的有效性。作者将发布DriveMoE和Drive-$π_0$的代码和模型。
🔬 方法详解
问题定义:端到端自动驾驶模型需要处理复杂多变的驾驶场景,尤其是在处理罕见驾驶行为时,现有模型容易出现模式平均化的问题,导致性能下降。现有方法难以有效利用多视角信息,并且缺乏对不同驾驶技能的专业化处理。
核心思路:DriveMoE的核心思路是借鉴大型语言模型中MoE的成功经验,通过引入场景特化的视觉MoE和技能特化的动作MoE,实现对不同驾驶场景和行为的解耦。视觉MoE负责动态选择相关摄像头信息,动作MoE负责激活特定驾驶行为的专家模块。
技术框架:DriveMoE建立在Drive-$π_0$ VLA模型之上。整体架构包含三个主要部分:多视角视觉输入、视觉MoE、动作MoE。视觉MoE包含一个路由器网络,用于根据驾驶场景选择合适的摄像头输入;动作MoE也包含一个路由器网络,用于根据当前状态选择合适的动作专家模块。最终,模型输出驾驶行为控制指令。
关键创新:DriveMoE的关键创新在于同时引入了视觉MoE和动作MoE,实现了场景和技能的解耦。视觉MoE模仿人类驾驶员选择性关注关键视觉线索的认知方式,动作MoE则通过专家模块的专业化处理,避免了模式平均化的问题。这种双重MoE结构使得模型能够更好地适应复杂多变的驾驶场景。
关键设计:视觉MoE和动作MoE中的路由器网络均采用可学习的参数,通过训练来学习如何选择合适的专家模块。损失函数包括行为克隆损失以及用于平衡专家模块使用频率的辅助损失。具体网络结构和参数设置细节在论文中未详细说明,有待进一步查阅论文原文。
🖼️ 关键图片
📊 实验亮点
DriveMoE在Bench2Drive闭环评估实验中取得了SOTA性能,证明了其有效性。具体性能数据和对比基线在摘要中未提及,需要查阅论文原文以获取更详细的实验结果。该研究表明,结合视觉和动作MoE能够显著提升端到端自动驾驶模型的性能。
🎯 应用场景
DriveMoE的研究成果可应用于高级驾驶辅助系统(ADAS)和全自动驾驶系统。通过提升模型在复杂和罕见场景下的决策能力,可以提高自动驾驶系统的安全性和可靠性。该方法也为其他机器人和具身智能任务提供了新的思路,例如在复杂环境中进行导航和操作。
📄 摘要(原文)
End-to-end autonomous driving (E2E-AD) demands effective processing of multi-view sensory data and robust handling of diverse and complex driving scenarios, particularly rare maneuvers such as aggressive turns. Recent success of Mixture-of-Experts (MoE) architecture in Large Language Models (LLMs) demonstrates that specialization of parameters enables strong scalability. In this work, we propose DriveMoE, a novel MoE-based E2E-AD framework, with a Scene-Specialized Vision MoE and a Skill-Specialized Action MoE. DriveMoE is built upon our $π_0$ Vision-Language-Action (VLA) baseline (originally from the embodied AI field), called Drive-$π_0$. Specifically, we add Vision MoE to Drive-$π_0$ by training a router to select relevant cameras according to the driving context dynamically. This design mirrors human driving cognition, where drivers selectively attend to crucial visual cues rather than exhaustively processing all visual information. In addition, we add Action MoE by training another router to activate specialized expert modules for different driving behaviors. Through explicit behavioral specialization, DriveMoE is able to handle diverse scenarios without suffering from modes averaging like existing models. In Bench2Drive closed-loop evaluation experiments, DriveMoE achieves state-of-the-art (SOTA) performance, demonstrating the effectiveness of combining vision and action MoE in autonomous driving tasks. We will release our code and models of DriveMoE and Drive-$π_0$.