VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing

作者: Haoyuan Shi, Xiancong Ren, Yingji Zhang, Qinfan Zhang, Jiayu Hu, Haozhe Shan, Han Dong, Jinpeng Lu, Yinda Chen, Yi Zhang, Yong Dai, Xiaozhu Ju

分类: cs.AI

发布日期: 2026-05-28

💡 一句话要点

VLA-Trace：通过表征和行为追踪诊断视觉-语言-动作模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 可解释性 表征追踪 因果干预 行为分析 多模态融合 具身智能

📋 核心要点

现有VLA模型缺乏可解释性，难以理解多模态知识如何转化为具身控制。
VLA-Trace框架通过表征追踪、因果干预和行为探针，提供VLA模型内部机制的诊断。
实验表明，不同VLA模型在模态适应、多模态路由和语义遵循方面存在显著差异。

📝 摘要（中文）

本文提出VLA-Trace，一个渐进式的诊断框架，通过统一的证据链分析视觉-语言-动作（VLA）模型，该证据链从表征动态到因果控制归因和行为表现。它结合了跨模态和以检查点漂移为中心的核对齐（CKA）来追踪表征演变，利用注意力剔除干预来识别特定模态的控制路径，并使用rollout级别的行为探针来检查基础、捷径依赖和语义遵循。在$π_{0.5}$和OpenVLA上的实验揭示了三个关键发现。首先，这两个模型在VLA微调期间表现出不同的特定模态的适应动态。其次，它们在动作解码期间依赖于不同的多模态路由策略和层级依赖关系。第三，虽然VLA策略擅长视觉基础的轨迹生成，但它们在细粒度的语义遵循方面仍然有限。这些发现突出了表征保持适应、因果VLA电路和组合语义控制的未来方向。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在将多模态信息转化为具身控制时，其内部机制难以理解，缺乏可解释性。具体来说，我们不清楚模型如何利用视觉和语言信息来规划动作，以及不同模态信息在模型中的作用和相互影响。现有方法难以诊断VLA模型在表征学习、因果控制和行为表现上的问题。

核心思路：VLA-Trace的核心思路是通过追踪模型内部的表征动态、进行因果干预和分析行为表现，来诊断VLA模型。通过分析表征的演变过程，识别关键的控制路径，并评估模型在不同任务上的表现，从而深入理解VLA模型的工作机制。该方法旨在建立一个统一的诊断框架，从多个维度剖析VLA模型。

技术框架：VLA-Trace框架包含三个主要模块：1) 表征追踪：使用跨模态和检查点漂移为中心的核对齐（CKA）来追踪模型在训练过程中的表征演变，分析不同模态信息如何融合。2) 因果控制归因：通过注意力剔除干预，识别特定模态的控制路径，确定哪些模态对动作决策起关键作用。3) 行为表现分析：使用rollout级别的行为探针，评估模型在基础、捷径依赖和语义遵循等方面的表现。这三个模块相互配合，形成一个完整的诊断流程。

关键创新：VLA-Trace的关键创新在于其统一的诊断框架，它将表征追踪、因果干预和行为分析结合起来，提供了一个多维度的VLA模型诊断方法。此外，该方法还创新性地使用了跨模态和检查点漂移为中心的CKA来追踪表征演变，以及注意力剔除干预来识别因果控制路径。这些技术创新使得VLA-Trace能够更深入地理解VLA模型的工作机制。

关键设计：在表征追踪模块，使用了跨模态CKA来比较不同模态之间的表征相似性，以及检查点漂移CKA来分析模型在训练过程中表征的变化。在因果控制归因模块，通过系统地剔除不同模态的注意力，观察模型行为的变化，从而确定哪些模态对动作决策起关键作用。在行为表现分析模块，设计了rollout级别的行为探针，用于评估模型在不同任务上的表现，例如视觉基础的轨迹生成和细粒度的语义遵循。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同的VLA模型在模态适应、多模态路由和语义遵循方面存在显著差异。例如，$π_{0.5}$和OpenVLA在VLA微调期间表现出不同的特定模态的适应动态，并且在动作解码期间依赖于不同的多模态路由策略和层级依赖关系。此外，实验还发现，虽然VLA策略擅长视觉基础的轨迹生成，但它们在细粒度的语义遵循方面仍然有限。

🎯 应用场景

VLA-Trace可用于改进VLA模型的训练和设计，例如通过表征保持适应来提高模型的泛化能力，通过构建因果VLA电路来增强模型的可解释性，以及通过组合语义控制来提升模型在复杂任务中的表现。该研究对机器人、自动驾驶等领域具有重要意义。

📄 摘要（原文）

Understanding how Vision-Language-Action (VLA) models transform multimodal knowledge into embodied control remains an open challenge. We present VLA-Trace, a progressive diagnostic framework that analyzes VLA models through a unified evidence chain from representation dynamics to causal control attribution and behavioral manifestation. It specifically combines cross-modal and checkpoint-drift centered kernel alignment (CKA) to trace representation evolution, attention knockout interventions to identify modality-specific control pathways, and rollout-level behavioral probes to examine grounding, shortcut dependence, and semantic following. Experiments on $π_{0.5}$ and OpenVLA reveal three key findings. First, the two models exhibit distinct modality-specific adaptation dynamics during VLA finetuning. Second, they rely on different multimodal routing strategies and layer-wise dependencies during action decoding. Third, although VLA policies excel at visually grounded trajectory generation, they remain limited in fine-grained semantic following. These findings highlight future directions for representation-preserving adaptation, causal VLA circuits, and compositional semantic control.

VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理