Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models
作者: Bryce Grant, Xijia Zhao, Peng Wang
分类: cs.RO
发布日期: 2026-03-19
备注: Accepted to Multimodal Intelligence Workshop @ ICLR
💡 一句话要点
揭示VLA模型工作机制:视觉主导动作生成,语言敏感性依赖任务结构。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 机器人学习 多模态学习 模型可解释性 激活注入 稀疏自编码器 线性探针
📋 核心要点
- VLA模型结合感知、语言和动作控制,但其多模态输入到动作的转化机制尚不明确。
- 通过激活注入等方法,研究视觉、语言通路在动作生成中的作用,揭示模型内部表征。
- 实验表明视觉通路主导动作,语言敏感性依赖任务结构,专家通路编码运动程序。
📝 摘要(中文)
本文深入研究了视觉-语言-动作(VLA)模型如何将多模态输入转化为动作。通过激活注入、稀疏自编码器(SAEs)和线性探针等技术,对六个参数规模从80M到7B的模型在四个基准测试上的394,000+个rollout episodes进行了分析。研究发现,视觉通路在所有架构中主导动作生成:向空提示episode注入基线激活可以恢复几乎相同的行为;跨任务注入将机器人引导至源任务位置(99.8%的X-VLA episodes与源轨迹对齐),揭示了与场景坐标相关的空间约束运动程序,而非抽象任务表示。语言敏感性取决于任务结构,而非模型设计:当视觉上下文唯一指定任务时,语言被忽略;当多个目标共享一个场景时,语言变得至关重要。在所有三个多通路架构中,专家通路编码运动程序,而VLM通路编码目标语义。Per-token SAE处理对于大多数架构上的动作保真度至关重要,而均值池化提高了X-VLA的保真度。对比识别恢复了82+个操作概念,因果消融揭示了28-92%的零效应率敏感性,与表示宽度无关。作者发布了Action Atlas,用于交互式探索所有六个模型的VLA表示。
🔬 方法详解
问题定义:VLA模型作为一种集成视觉、语言和动作控制的架构,其内部如何将多模态输入转化为具体的机器人动作仍然是一个黑盒。现有方法难以深入理解不同模态信息在模型中的作用,以及模型如何学习和利用这些信息来完成任务。现有方法缺乏对VLA模型内部表征的细粒度分析,无法有效解释其行为。
核心思路:本文的核心思路是通过一系列干预和分析技术,例如激活注入、稀疏自编码器(SAEs)和线性探针,来解剖VLA模型的内部工作机制。通过操纵和观察模型内部的激活状态,研究者可以推断不同模态信息(视觉、语言)对动作生成的影响,以及不同模型组件(例如视觉通路、语言通路、专家通路)的功能。
技术框架:本文的研究框架主要包括以下几个步骤: 1. 模型选择:选择六个具有不同架构和参数规模的VLA模型进行研究。 2. 数据收集:在四个不同的机器人操作基准测试上,收集超过394,000个rollout episodes的数据。 3. 激活注入:通过将不同来源的激活注入到模型中,观察模型行为的变化,从而推断不同激活的重要性。 4. 稀疏自编码器(SAEs):使用SAEs来学习模型内部表征的稀疏编码,从而识别重要的特征。 5. 线性探针:训练线性分类器来预测模型内部激活状态所代表的信息。 6. 因果消融:通过移除模型内部的特定组件,观察模型性能的变化,从而评估这些组件的重要性。
关键创新:本文最重要的技术创新在于其系统性的研究方法,结合了多种干预和分析技术,例如激活注入、稀疏自编码器和线性探针,来深入理解VLA模型的内部工作机制。此外,本文还揭示了一些重要的发现,例如视觉通路在动作生成中的主导作用,以及语言敏感性对任务结构的依赖性。
关键设计: * 激活注入:通过将来自不同episode或任务的激活注入到目标episode中,观察模型行为的变化。 * 稀疏自编码器(SAEs):使用L1正则化来鼓励SAEs学习稀疏编码。 * 线性探针:使用逻辑回归来训练线性分类器。 * 因果消融:随机移除模型内部的神经元或特征,观察模型性能的变化。
🖼️ 关键图片
📊 实验亮点
研究发现,视觉通路在所有架构中主导动作生成,注入基线激活可恢复近乎相同的行为。跨任务注入将机器人引导至源任务位置,对齐率高达99.8%。语言敏感性依赖于任务结构,而非模型设计。专家通路编码运动程序,VLM通路编码目标语义,行为位移是专家注入的两倍。对比识别恢复了82+个操作概念,因果消融揭示了28-92%的零效应率。
🎯 应用场景
该研究成果可应用于提升VLA模型的性能和可解释性,例如,通过优化视觉通路来提高动作精度,或通过调整语言通路来增强对复杂指令的理解。此外,该研究还有助于开发更安全可靠的机器人系统,例如,通过理解模型内部的运动程序来避免意外行为。该研究对于开发更智能、更自主的机器人具有重要意义。
📄 摘要(原文)
Vision-Language-Action (VLA) models combine perception, language, and motor control in a single architecture, yet how they translate multimodal inputs into actions remains poorly understood. We apply activation injection, sparse autoencoders (SAEs), and linear probes to six models spanning 80M--7B parameters across 394,000+ rollout episodes on four benchmarks. The visual pathway dominates action generation across all architectures: injecting baseline activations into null-prompt episodes recovers near-identical behavior, while cross-task injection steers robots toward source-task positions (99.8\% of X-VLA episodes align with the source trajectory), exposing spatially bound motor programs tied to scene coordinates rather than abstract task representations. Language sensitivity depends on task structure, not model design: when visual context uniquely specifies the task, language is ignored; when multiple goals share a scene, language becomes essential (X-VLA \texttt{libero_goal}: 94\%$\to$10\% under wrong prompts vs.\ \texttt{libero_object}: 60--100\% regardless). In all three multi-pathway architectures (\pizhalf{}, SmolVLA, GR00T), expert pathways encode motor programs while VLM pathways encode goal semantics ($2\times$ greater behavioral displacement from expert injection), and subspace injection confirms these occupy separable activation subspaces. Per-token SAE processing is essential for action fidelity on most architectures, though mean-pooling improves fidelity on X-VLA. Contrastive identification recovers 82+ manipulation concepts, and causal ablation reveals sensitivity spanning 28--92\% zero-effect rates independent of representation width. We release \textbf{Action Atlas} (https://action-atlas.com) for interactive exploration of VLA representations across all six models.