VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing

📄 arXiv: 2605.30117v1 📥 PDF

作者: Haoyuan Shi, Xiancong Ren, Yingji Zhang, Qinfan Zhang, Jiayu Hu, Haozhe Shan, Han Dong, Jinpeng Lu, Yinda Chen, Yi Zhang, Yong Dai, Xiaozhu Ju

分类: cs.AI

发布日期: 2026-05-28


💡 一句话要点

VLA-Trace:通过表征和行为追踪诊断视觉-语言-动作模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 可解释性 表征追踪 因果干预 行为分析 多模态融合 具身智能

📋 核心要点

  1. 现有VLA模型缺乏可解释性,难以理解多模态知识如何转化为具身控制。
  2. VLA-Trace框架通过表征追踪、因果干预和行为探针,提供VLA模型内部机制的诊断。
  3. 实验表明,不同VLA模型在模态适应、多模态路由和语义遵循方面存在显著差异。

📝 摘要(中文)

本文提出VLA-Trace,一个渐进式的诊断框架,通过统一的证据链分析视觉-语言-动作(VLA)模型,该证据链从表征动态到因果控制归因和行为表现。它结合了跨模态和以检查点漂移为中心的核对齐(CKA)来追踪表征演变,利用注意力剔除干预来识别特定模态的控制路径,并使用rollout级别的行为探针来检查基础、捷径依赖和语义遵循。在$π_{0.5}$和OpenVLA上的实验揭示了三个关键发现。首先,这两个模型在VLA微调期间表现出不同的特定模态的适应动态。其次,它们在动作解码期间依赖于不同的多模态路由策略和层级依赖关系。第三,虽然VLA策略擅长视觉基础的轨迹生成,但它们在细粒度的语义遵循方面仍然有限。这些发现突出了表征保持适应、因果VLA电路和组合语义控制的未来方向。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在将多模态信息转化为具身控制时,其内部机制难以理解,缺乏可解释性。具体来说,我们不清楚模型如何利用视觉和语言信息来规划动作,以及不同模态信息在模型中的作用和相互影响。现有方法难以诊断VLA模型在表征学习、因果控制和行为表现上的问题。

核心思路:VLA-Trace的核心思路是通过追踪模型内部的表征动态、进行因果干预和分析行为表现,来诊断VLA模型。通过分析表征的演变过程,识别关键的控制路径,并评估模型在不同任务上的表现,从而深入理解VLA模型的工作机制。该方法旨在建立一个统一的诊断框架,从多个维度剖析VLA模型。

技术框架:VLA-Trace框架包含三个主要模块:1) 表征追踪:使用跨模态和检查点漂移为中心的核对齐(CKA)来追踪模型在训练过程中的表征演变,分析不同模态信息如何融合。2) 因果控制归因:通过注意力剔除干预,识别特定模态的控制路径,确定哪些模态对动作决策起关键作用。3) 行为表现分析:使用rollout级别的行为探针,评估模型在基础、捷径依赖和语义遵循等方面的表现。这三个模块相互配合,形成一个完整的诊断流程。

关键创新:VLA-Trace的关键创新在于其统一的诊断框架,它将表征追踪、因果干预和行为分析结合起来,提供了一个多维度的VLA模型诊断方法。此外,该方法还创新性地使用了跨模态和检查点漂移为中心的CKA来追踪表征演变,以及注意力剔除干预来识别因果控制路径。这些技术创新使得VLA-Trace能够更深入地理解VLA模型的工作机制。

关键设计:在表征追踪模块,使用了跨模态CKA来比较不同模态之间的表征相似性,以及检查点漂移CKA来分析模型在训练过程中表征的变化。在因果控制归因模块,通过系统地剔除不同模态的注意力,观察模型行为的变化,从而确定哪些模态对动作决策起关键作用。在行为表现分析模块,设计了rollout级别的行为探针,用于评估模型在不同任务上的表现,例如视觉基础的轨迹生成和细粒度的语义遵循。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同的VLA模型在模态适应、多模态路由和语义遵循方面存在显著差异。例如,$π_{0.5}$和OpenVLA在VLA微调期间表现出不同的特定模态的适应动态,并且在动作解码期间依赖于不同的多模态路由策略和层级依赖关系。此外,实验还发现,虽然VLA策略擅长视觉基础的轨迹生成,但它们在细粒度的语义遵循方面仍然有限。

🎯 应用场景

VLA-Trace可用于改进VLA模型的训练和设计,例如通过表征保持适应来提高模型的泛化能力,通过构建因果VLA电路来增强模型的可解释性,以及通过组合语义控制来提升模型在复杂任务中的表现。该研究对机器人、自动驾驶等领域具有重要意义。

📄 摘要(原文)

Understanding how Vision-Language-Action (VLA) models transform multimodal knowledge into embodied control remains an open challenge. We present VLA-Trace, a progressive diagnostic framework that analyzes VLA models through a unified evidence chain from representation dynamics to causal control attribution and behavioral manifestation. It specifically combines cross-modal and checkpoint-drift centered kernel alignment (CKA) to trace representation evolution, attention knockout interventions to identify modality-specific control pathways, and rollout-level behavioral probes to examine grounding, shortcut dependence, and semantic following. Experiments on $π_{0.5}$ and OpenVLA reveal three key findings. First, the two models exhibit distinct modality-specific adaptation dynamics during VLA finetuning. Second, they rely on different multimodal routing strategies and layer-wise dependencies during action decoding. Third, although VLA policies excel at visually grounded trajectory generation, they remain limited in fine-grained semantic following. These findings highlight future directions for representation-preserving adaptation, causal VLA circuits, and compositional semantic control.