Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

作者: Bryce Grant, Xijia Zhao, Peng Wang

分类: cs.RO

发布日期: 2026-03-19

备注: Accepted to Multimodal Intelligence Workshop @ ICLR

💡 一句话要点

揭示VLA模型工作机制：视觉主导动作生成，语言敏感性依赖任务结构。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人学习 多模态学习 模型可解释性 激活注入 稀疏自编码器 线性探针

📋 核心要点

VLA模型结合感知、语言和动作控制，但其多模态输入到动作的转化机制尚不明确。
通过激活注入等方法，研究视觉、语言通路在动作生成中的作用，揭示模型内部表征。
实验表明视觉通路主导动作，语言敏感性依赖任务结构，专家通路编码运动程序。

📝 摘要（中文）

本文深入研究了视觉-语言-动作(VLA)模型如何将多模态输入转化为动作。通过激活注入、稀疏自编码器(SAEs)和线性探针等技术，对六个参数规模从80M到7B的模型在四个基准测试上的394,000+个rollout episodes进行了分析。研究发现，视觉通路在所有架构中主导动作生成：向空提示episode注入基线激活可以恢复几乎相同的行为；跨任务注入将机器人引导至源任务位置（99.8%的X-VLA episodes与源轨迹对齐），揭示了与场景坐标相关的空间约束运动程序，而非抽象任务表示。语言敏感性取决于任务结构，而非模型设计：当视觉上下文唯一指定任务时，语言被忽略；当多个目标共享一个场景时，语言变得至关重要。在所有三个多通路架构中，专家通路编码运动程序，而VLM通路编码目标语义。Per-token SAE处理对于大多数架构上的动作保真度至关重要，而均值池化提高了X-VLA的保真度。对比识别恢复了82+个操作概念，因果消融揭示了28-92%的零效应率敏感性，与表示宽度无关。作者发布了Action Atlas，用于交互式探索所有六个模型的VLA表示。

🔬 方法详解

问题定义：VLA模型作为一种集成视觉、语言和动作控制的架构，其内部如何将多模态输入转化为具体的机器人动作仍然是一个黑盒。现有方法难以深入理解不同模态信息在模型中的作用，以及模型如何学习和利用这些信息来完成任务。现有方法缺乏对VLA模型内部表征的细粒度分析，无法有效解释其行为。

核心思路：本文的核心思路是通过一系列干预和分析技术，例如激活注入、稀疏自编码器（SAEs）和线性探针，来解剖VLA模型的内部工作机制。通过操纵和观察模型内部的激活状态，研究者可以推断不同模态信息（视觉、语言）对动作生成的影响，以及不同模型组件（例如视觉通路、语言通路、专家通路）的功能。

技术框架：本文的研究框架主要包括以下几个步骤： 1. 模型选择：选择六个具有不同架构和参数规模的VLA模型进行研究。 2. 数据收集：在四个不同的机器人操作基准测试上，收集超过394,000个rollout episodes的数据。 3. 激活注入：通过将不同来源的激活注入到模型中，观察模型行为的变化，从而推断不同激活的重要性。 4. 稀疏自编码器（SAEs）：使用SAEs来学习模型内部表征的稀疏编码，从而识别重要的特征。 5. 线性探针：训练线性分类器来预测模型内部激活状态所代表的信息。 6. 因果消融：通过移除模型内部的特定组件，观察模型性能的变化，从而评估这些组件的重要性。

关键创新：本文最重要的技术创新在于其系统性的研究方法，结合了多种干预和分析技术，例如激活注入、稀疏自编码器和线性探针，来深入理解VLA模型的内部工作机制。此外，本文还揭示了一些重要的发现，例如视觉通路在动作生成中的主导作用，以及语言敏感性对任务结构的依赖性。

关键设计： * 激活注入：通过将来自不同episode或任务的激活注入到目标episode中，观察模型行为的变化。 * 稀疏自编码器（SAEs）：使用L1正则化来鼓励SAEs学习稀疏编码。 * 线性探针：使用逻辑回归来训练线性分类器。 * 因果消融：随机移除模型内部的神经元或特征，观察模型性能的变化。

🖼️ 关键图片

📊 实验亮点

研究发现，视觉通路在所有架构中主导动作生成，注入基线激活可恢复近乎相同的行为。跨任务注入将机器人引导至源任务位置，对齐率高达99.8%。语言敏感性依赖于任务结构，而非模型设计。专家通路编码运动程序，VLM通路编码目标语义，行为位移是专家注入的两倍。对比识别恢复了82+个操作概念，因果消融揭示了28-92%的零效应率。

🎯 应用场景

该研究成果可应用于提升VLA模型的性能和可解释性，例如，通过优化视觉通路来提高动作精度，或通过调整语言通路来增强对复杂指令的理解。此外，该研究还有助于开发更安全可靠的机器人系统，例如，通过理解模型内部的运动程序来避免意外行为。该研究对于开发更智能、更自主的机器人具有重要意义。

📄 摘要（原文）

Vision-Language-Action (VLA) models combine perception, language, and motor control in a single architecture, yet how they translate multimodal inputs into actions remains poorly understood. We apply activation injection, sparse autoencoders (SAEs), and linear probes to six models spanning 80M--7B parameters across 394,000+ rollout episodes on four benchmarks. The visual pathway dominates action generation across all architectures: injecting baseline activations into null-prompt episodes recovers near-identical behavior, while cross-task injection steers robots toward source-task positions (99.8\% of X-VLA episodes align with the source trajectory), exposing spatially bound motor programs tied to scene coordinates rather than abstract task representations. Language sensitivity depends on task structure, not model design: when visual context uniquely specifies the task, language is ignored; when multiple goals share a scene, language becomes essential (X-VLA \texttt{libero_goal}: 94\%$\to$10\% under wrong prompts vs.\ \texttt{libero_object}: 60--100\% regardless). In all three multi-pathway architectures (\pizhalf{}, SmolVLA, GR00T), expert pathways encode motor programs while VLM pathways encode goal semantics ($2\times$ greater behavioral displacement from expert injection), and subspace injection confirms these occupy separable activation subspaces. Per-token SAE processing is essential for action fidelity on most architectures, though mean-pooling improves fidelity on X-VLA. Contrastive identification recovers 82+ manipulation concepts, and causal ablation reveals sensitivity spanning 28--92\% zero-effect rates independent of representation width. We release \textbf{Action Atlas} (https://action-atlas.com) for interactive exploration of VLA representations across all six models.

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理