Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models

作者: Aiden Swann, Lachlain McGranahan, Hugo Buurmeijer, Monroe Kennedy, Mac Schwager

分类: cs.RO

发布日期: 2026-03-19

备注: 25 pages, 12 figures

💡 一句话要点

稀疏自编码器揭示VLA模型中可解释和可控的特征，提升机器人操作泛化性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉-语言-动作模型 稀疏自编码器 机制可解释性 特征Steering

📋 核心要点

VLA模型泛化性差，微调后在新场景失败。现有方法缺乏对模型内部机制的理解。
利用稀疏自编码器(SAE)提取VLA模型隐藏层激活的稀疏特征，分析其可解释性和泛化性。
发现部分SAE特征对应通用运动原语，通过steering实验验证其对机器人行为的因果影响。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在通用机器人操作领域展现出潜力。然而，它们的泛化能力并不稳定：虽然这些模型在某些设置下表现出色，但经过微调的变体在新的物体、场景和指令上经常失败。我们应用机制可解释性技术来更好地理解VLA模型的内部运作。为了探究内部表示，我们在VLA的隐藏层激活上训练稀疏自编码器(SAE)。SAE学习一个稀疏字典，其特征作为模型计算的紧凑、可解释的基础。我们发现，绝大多数提取的SAE特征对应于来自特定训练演示的记忆序列。然而，一些特征对应于可解释、通用和可控的运动原语和语义属性，为VLA的泛化提供了一个有希望的视角。我们提出了一种指标，根据特征是代表可泛化的可转移原语还是特定于episode的记忆来进行分类。我们通过LIBERO基准上的steering实验验证了这些发现。我们表明，单个SAE特征因果地影响机器人行为。Steering通用特征会诱导与其语义含义一致的行为，并且可以跨任务和场景应用。这项工作提供了第一个机制证据，证明VLA可以学习跨任务和场景的通用特征。我们观察到，在小型机器人数据集上进行监督微调会不成比例地放大记忆。相比之下，在更大、更多样化的数据集（例如，DROID）上进行训练或使用知识隔离可以促进更通用的特征。我们提供了一个开源代码库和用户友好的界面，用于激活收集、SAE训练和特征steering。

🔬 方法详解

问题定义：论文旨在解决视觉-语言-动作(VLA)模型在机器人操作任务中泛化能力不足的问题。现有VLA模型在特定训练数据集上表现良好，但当面对新的物体、场景或指令时，性能显著下降。这种现象表明模型可能过度依赖于记忆训练数据，而未能学习到通用的、可迁移的运动原语和语义表示。

核心思路：论文的核心思路是通过机制可解释性技术，特别是稀疏自编码器(SAE)，来剖析VLA模型的内部表示。SAE能够从VLA模型的隐藏层激活中提取出稀疏的、可解释的特征，这些特征可以作为模型计算的紧凑基础。通过分析这些特征，研究人员可以识别出哪些特征对应于记忆的训练数据，哪些特征对应于通用的运动原语和语义属性。

技术框架：该方法主要包含以下几个阶段：1) 激活收集：从VLA模型在不同任务和场景下的运行过程中收集隐藏层的激活数据。2) SAE训练：使用收集到的激活数据训练稀疏自编码器，学习一个稀疏的特征字典。3) 特征分析：分析SAE提取的特征，包括其可解释性、泛化能力和对机器人行为的影响。4) 特征Steering：通过人为干预SAE特征的激活，观察机器人行为的变化，从而验证特征的因果关系。

关键创新：该论文的关键创新在于将稀疏自编码器应用于VLA模型的机制可解释性分析。通过这种方法，研究人员能够识别出VLA模型中可解释、通用和可控的特征，并验证这些特征对机器人行为的因果影响。此外，论文还提出了一种指标，用于区分代表通用原语的特征和代表特定episode记忆的特征。

关键设计：SAE的训练目标是最小化重构误差，同时鼓励特征的稀疏性。具体来说，损失函数通常包含一个重构损失项（例如，均方误差）和一个稀疏性惩罚项（例如，L1正则化）。稀疏性惩罚项迫使SAE学习一个稀疏的特征字典，其中只有少数几个特征在任何给定的输入激活中是活跃的。此外，论文还设计了特征steering实验，通过人为设置SAE特征的激活值，观察机器人行为的变化，从而验证特征的因果关系。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过steering SAE提取的通用特征，可以诱导与特征语义含义一致的机器人行为，并且这种行为可以跨任务和场景应用。此外，研究还发现，在大型、多样化的数据集上训练VLA模型或使用知识隔离技术可以促进更通用特征的学习，而监督微调可能会放大记忆效应。

🎯 应用场景

该研究成果可应用于提升机器人操作的泛化性和鲁棒性。通过识别和增强VLA模型中的通用运动原语，可以使机器人更好地适应新的环境和任务。此外，该方法还可以用于诊断VLA模型的缺陷，例如过度依赖记忆数据，并指导模型的设计和训练，使其更加注重学习通用的、可迁移的特征。

📄 摘要（原文）

Vision-Language-Action (VLA) models have emerged as a promising approach for general-purpose robot manipulation. However, their generalization is inconsistent: while these models can perform impressively in some settings, fine-tuned variants often fail on novel objects, scenes, and instructions. We apply mechanistic interpretability techniques to better understand the inner workings of VLA models. To probe internal representations, we train Sparse Autoencoders (SAEs) on hidden layer activations of the VLA. SAEs learn a sparse dictionary whose features act as a compact, interpretable basis for the model's computation. We find that the large majority of extracted SAE features correspond to memorized sequences from specific training demonstrations. However, some features correspond to interpretable, general, and steerable motion primitives and semantic properties, offering a promising glimpse toward VLA generalizability. We propose a metric to categorize features according to whether they represent generalizable transferable primitives or episode-specific memorization. We validate these findings through steering experiments on the LIBERO benchmark. We show that individual SAE features causally influence robot behavior. Steering general features induces behaviors consistent with their semantic meaning and can be applied across tasks and scenes. This work provides the first mechanistic evidence that VLAs can learn generalizable features across tasks and scenes. We observe that supervised fine-tuning on small robotics datasets disproportionately amplifies memorization. In contrast, training on larger, more diverse datasets (e.g., DROID) or using knowledge insulation promotes more general features. We provide an open-source codebase and user-friendly interface for activation collection, SAE training, and feature steering. Our project page is located at http://drvla.github.io

Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理