SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving
作者: Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang
分类: cs.CV
发布日期: 2026-03-09
💡 一句话要点
提出SAMoE-VLA,通过场景自适应MoE提升自动驾驶VLA模型的性能与安全性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 视觉-语言-动作模型 混合专家模型 场景理解 因果推理
📋 核心要点
- 现有VLA模型直接应用token级MoE导致专家特化与场景决策不匹配,造成性能不稳定和安全问题。
- SAMoE-VLA通过BEV特征提取场景上下文,实现场景自适应的专家选择和加权,提升决策质量。
- 引入条件跨模态因果注意力,整合世界状态、语言意图和动作历史,实现时间一致性推理。
📝 摘要(中文)
本文提出了一种场景自适应的混合专家视觉-语言-动作(SAMoE-VLA)框架,旨在提升自动驾驶中VLA模型的性能和安全性。通过分析发现,直接将LLM中token级别的MoE机制应用于VLA模型会导致性能不稳定和安全下降。为了解决这个问题,SAMoE-VLA基于结构化的场景表示而非token嵌入来调节专家选择。该方法从鸟瞰图(BEV)特征中提取交通场景上下文,从而实现场景相关的专家加权和合并。此外,为了支持世界知识、感知、语言和动作之间的时间一致性推理,引入了一种条件跨模态因果注意力机制,将世界状态、语言意图和动作历史整合到统一的因果推理过程中。在nuScenes和LangAuto上的实验表明,SAMoE-VLA以更少的参数实现了最先进的性能。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在自动驾驶任务中,直接沿用大型语言模型(LLM)中token级别的混合专家(MoE)机制,导致专家特化与场景级别的决策需求不匹配。这种不匹配会造成模型性能不稳定,甚至出现安全问题,限制了VLA模型在自动驾驶领域的应用。
核心思路:SAMoE-VLA的核心思路是将MoE的路由信号从token嵌入转移到结构化的场景表示上。具体来说,利用鸟瞰图(BEV)特征来捕捉交通场景的上下文信息,从而实现场景自适应的专家选择和加权。这样可以使不同的专家专注于处理不同的驾驶场景,提高模型的决策质量和安全性。
技术框架:SAMoE-VLA框架主要包含以下几个模块:1) BEV特征提取模块,用于从视觉输入中提取场景的鸟瞰图表示;2) 场景自适应MoE模块,基于BEV特征对专家进行选择和加权;3) 条件跨模态因果注意力模块,用于整合世界状态、语言意图和动作历史,实现时间一致性推理;4) 动作预测模块,基于上述模块的输出预测车辆的动作。
关键创新:SAMoE-VLA的关键创新在于提出了场景自适应的MoE机制。与传统的token级别MoE相比,SAMoE-VLA能够更好地利用场景上下文信息,实现更有效的专家特化和决策。此外,条件跨模态因果注意力机制也为VLA模型的时间一致性推理提供了新的思路。
关键设计:在场景自适应MoE模块中,使用一个小型神经网络将BEV特征映射到专家权重。这些权重用于对不同专家的输出进行加权融合。条件跨模态因果注意力机制采用Transformer结构,通过注意力机制学习不同模态之间的依赖关系。损失函数包括动作预测损失和辅助损失,用于提高模型的训练效果。
🖼️ 关键图片
📊 实验亮点
在nuScenes开放循环规划数据集和LangAuto闭环基准测试中,SAMoE-VLA取得了state-of-the-art的性能,超越了之前的VLA模型和基于世界模型的方案,同时使用了更少的参数。这表明SAMoE-VLA在自动驾驶任务中具有显著的优势。
🎯 应用场景
SAMoE-VLA模型可应用于各种自动驾驶场景,例如城市道路、高速公路和停车场等。该模型能够提升自动驾驶系统的安全性、可靠性和智能化水平,并有望加速自动驾驶技术的商业化落地。此外,该研究思路也可以推广到其他需要场景理解和决策的机器人应用中。
📄 摘要(原文)
Recent advances in Vision-Language-Action (VLA) models have shown promising capabilities in autonomous driving by leveraging the understanding and reasoning strengths of Large Language Models(LLMs).However, our empirical analysis reveals that directly applying existing token-level MoE mechanisms--which are inherited from LLM architectures--to VLA models results in unstable performance and safety degradation in autonomous driving, highlighting a misalignment between token-based expert specialization and scene-level decision-making.To address this, we propose SAMoE-VLA, a scene-adaptive Vision-Language-Action framework that conditions expert selection on structured scene representations instead of token embeddings. Our key idea is to derive the MoE routing signal from bird's-eye-view (BEV) features that encapsulates traffic scene context, enabling scenario-dependent expert weighting and merging tailored to distinct driving conditions. Furthermore, to support temporally consistent reasoning across world-knowledge, perception, language, and action, we introduce a Conditional Cross-Modal Causal Attention mechanism that integrates world state, linguistic intent, and action history into a unified causal reasoning process. Extensive experiments on the nuScenes open loop planning dataset and LangAuto closed-loop benchmark demonstrate that SAMoE-VLA achieves state-of-the-art performance, outperforming prior VLA-based and world-model-based approaches with fewer parameters.Our code will be released soon.