SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

作者: Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang

分类: cs.CV

发布日期: 2026-03-09

💡 一句话要点

提出SAMoE-VLA，通过场景自适应MoE提升自动驾驶VLA模型的性能与安全性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉-语言-动作模型 混合专家模型 场景理解 因果推理

📋 核心要点

现有VLA模型直接应用token级MoE导致专家特化与场景决策不匹配，造成性能不稳定和安全问题。
SAMoE-VLA通过BEV特征提取场景上下文，实现场景自适应的专家选择和加权，提升决策质量。
引入条件跨模态因果注意力，整合世界状态、语言意图和动作历史，实现时间一致性推理。

📝 摘要（中文）

本文提出了一种场景自适应的混合专家视觉-语言-动作（SAMoE-VLA）框架，旨在提升自动驾驶中VLA模型的性能和安全性。通过分析发现，直接将LLM中token级别的MoE机制应用于VLA模型会导致性能不稳定和安全下降。为了解决这个问题，SAMoE-VLA基于结构化的场景表示而非token嵌入来调节专家选择。该方法从鸟瞰图（BEV）特征中提取交通场景上下文，从而实现场景相关的专家加权和合并。此外，为了支持世界知识、感知、语言和动作之间的时间一致性推理，引入了一种条件跨模态因果注意力机制，将世界状态、语言意图和动作历史整合到统一的因果推理过程中。在nuScenes和LangAuto上的实验表明，SAMoE-VLA以更少的参数实现了最先进的性能。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在自动驾驶任务中，直接沿用大型语言模型（LLM）中token级别的混合专家（MoE）机制，导致专家特化与场景级别的决策需求不匹配。这种不匹配会造成模型性能不稳定，甚至出现安全问题，限制了VLA模型在自动驾驶领域的应用。

核心思路：SAMoE-VLA的核心思路是将MoE的路由信号从token嵌入转移到结构化的场景表示上。具体来说，利用鸟瞰图（BEV）特征来捕捉交通场景的上下文信息，从而实现场景自适应的专家选择和加权。这样可以使不同的专家专注于处理不同的驾驶场景，提高模型的决策质量和安全性。

技术框架：SAMoE-VLA框架主要包含以下几个模块：1) BEV特征提取模块，用于从视觉输入中提取场景的鸟瞰图表示；2) 场景自适应MoE模块，基于BEV特征对专家进行选择和加权；3) 条件跨模态因果注意力模块，用于整合世界状态、语言意图和动作历史，实现时间一致性推理；4) 动作预测模块，基于上述模块的输出预测车辆的动作。

关键创新：SAMoE-VLA的关键创新在于提出了场景自适应的MoE机制。与传统的token级别MoE相比，SAMoE-VLA能够更好地利用场景上下文信息，实现更有效的专家特化和决策。此外，条件跨模态因果注意力机制也为VLA模型的时间一致性推理提供了新的思路。

关键设计：在场景自适应MoE模块中，使用一个小型神经网络将BEV特征映射到专家权重。这些权重用于对不同专家的输出进行加权融合。条件跨模态因果注意力机制采用Transformer结构，通过注意力机制学习不同模态之间的依赖关系。损失函数包括动作预测损失和辅助损失，用于提高模型的训练效果。

🖼️ 关键图片

📊 实验亮点

在nuScenes开放循环规划数据集和LangAuto闭环基准测试中，SAMoE-VLA取得了state-of-the-art的性能，超越了之前的VLA模型和基于世界模型的方案，同时使用了更少的参数。这表明SAMoE-VLA在自动驾驶任务中具有显著的优势。

🎯 应用场景

SAMoE-VLA模型可应用于各种自动驾驶场景，例如城市道路、高速公路和停车场等。该模型能够提升自动驾驶系统的安全性、可靠性和智能化水平，并有望加速自动驾驶技术的商业化落地。此外，该研究思路也可以推广到其他需要场景理解和决策的机器人应用中。

📄 摘要（原文）

Recent advances in Vision-Language-Action (VLA) models have shown promising capabilities in autonomous driving by leveraging the understanding and reasoning strengths of Large Language Models(LLMs).However, our empirical analysis reveals that directly applying existing token-level MoE mechanisms--which are inherited from LLM architectures--to VLA models results in unstable performance and safety degradation in autonomous driving, highlighting a misalignment between token-based expert specialization and scene-level decision-making.To address this, we propose SAMoE-VLA, a scene-adaptive Vision-Language-Action framework that conditions expert selection on structured scene representations instead of token embeddings. Our key idea is to derive the MoE routing signal from bird's-eye-view (BEV) features that encapsulates traffic scene context, enabling scenario-dependent expert weighting and merging tailored to distinct driving conditions. Furthermore, to support temporally consistent reasoning across world-knowledge, perception, language, and action, we introduce a Conditional Cross-Modal Causal Attention mechanism that integrates world state, linguistic intent, and action history into a unified causal reasoning process. Extensive experiments on the nuScenes open loop planning dataset and LangAuto closed-loop benchmark demonstrate that SAMoE-VLA achieves state-of-the-art performance, outperforming prior VLA-based and world-model-based approaches with fewer parameters.Our code will be released soon.

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理