Embodied Interpretability: Linking Causal Understanding to Generalization in Vision-Language-Action Models

📄 arXiv: 2605.00321v1 📥 PDF

作者: Hanxin Zhang, Mingshuo Xu, Abdulqader Dhafer, Shigang Yue, Hongbiao Dong, Zhou Daniel Hao

分类: cs.RO

发布日期: 2026-05-01

备注: Accepted at the 43rd International Conference on Machine Learning (ICML 2026)


💡 一句话要点

提出干预显著性得分(ISS)和干扰质量比(NMR),诊断VLA模型中的因果错位问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 可解释性 因果推理 视觉-语言-动作模型 分布偏移

📋 核心要点

  1. VLA模型在分布偏移下表现不佳,原因在于模型可能学习了虚假相关性而非真正的因果关系。
  2. 论文提出干预显著性得分(ISS)和干扰质量比(NMR),用于评估视觉区域对动作预测的因果影响。
  3. 实验表明,NMR能预测泛化能力,ISS提供更可靠的解释,有助于诊断具身策略中的因果错位。

📝 摘要(中文)

视觉-语言-动作(VLA)策略在分布偏移下通常会失效,这表明其决策可能依赖于虚假的视觉相关性,而非与任务相关的因果关系。本文将视觉-动作归因问题形式化为一个干预估计问题。相应地,我们引入了干预显著性得分(ISS),这是一种用于估计视觉区域对动作预测的因果影响的干预掩码程序,以及干扰质量比(NMR),这是一种衡量对任务无关特征的归因的标量指标。我们分析了ISS的统计特性,表明它可以进行无偏估计,并描述了动作预测误差为因果影响的有效代理的条件。在各种操作任务中的实验表明,NMR可以预测泛化行为,并且ISS比现有的可解释性方法产生更忠实的解释。这些结果表明,干预归因提供了一种简单的诊断方法,用于识别具身策略中的因果错位。

🔬 方法详解

问题定义:VLA模型在面对分布偏移时泛化能力差,现有方法难以区分模型学习到的视觉特征是与任务相关的因果特征,还是仅仅是虚假的相关性。因此,需要一种方法来评估视觉区域对动作预测的因果影响,并诊断模型中的因果错位问题。

核心思路:论文的核心思路是将视觉-动作归因问题形式化为一个干预估计问题。通过对视觉区域进行干预(例如,掩码),观察动作预测的变化,从而估计该区域对动作的因果影响。同时,引入干扰质量比(NMR)来衡量模型对任务无关特征的依赖程度。

技术框架:论文提出的方法主要包含两个部分:干预显著性得分(ISS)和干扰质量比(NMR)。ISS通过对视觉区域进行干预掩码,并计算动作预测概率的变化,来估计每个视觉区域的因果影响。NMR则通过计算模型对任务无关特征的归因比例,来衡量模型对虚假相关性的依赖程度。整体流程包括:1)对输入图像进行区域划分;2)使用ISS计算每个区域的干预显著性得分;3)使用NMR计算干扰质量比。

关键创新:论文的关键创新在于将因果干预的思想引入到VLA模型的可解释性分析中。与传统的基于梯度或注意力的可解释性方法不同,ISS直接估计视觉区域对动作的因果影响,从而能够更准确地识别模型所依赖的关键特征。NMR则提供了一种量化模型对虚假相关性依赖程度的指标。

关键设计:ISS的具体计算方法是:首先,对输入图像进行区域划分(例如,使用超像素分割)。然后,对每个区域进行掩码,并计算掩码前后动作预测概率的变化。该变化值即为该区域的干预显著性得分。NMR的计算方法是:首先,定义一组任务无关的特征(例如,背景颜色)。然后,使用ISS计算模型对这些特征的归因比例。该比例即为NMR。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NMR能够有效预测VLA模型在分布偏移下的泛化性能。同时,ISS能够提供比现有可解释性方法更忠实的解释,更准确地识别模型所依赖的关键视觉区域。例如,在操作任务中,ISS能够更准确地定位与任务相关的物体,而传统的梯度方法则可能关注背景或其他无关区域。

🎯 应用场景

该研究成果可应用于提升机器人在复杂环境中的泛化能力,例如,通过诊断和纠正模型中的因果错位,使机器人能够更好地适应新的环境和任务。此外,该方法还可以用于评估和改进VLA模型的鲁棒性和安全性,避免模型依赖于虚假相关性而做出错误的决策。

📄 摘要(原文)

Vision-Language-Action (VLA) policies often fail under distribution shift, suggesting that decisions may depend on spurious visual correlations rather than task-relevant causes. We formulate visual-action attribution as an interventional estimation problem. Accordingly, we introduce the Interventional Significance Score (ISS), an interventional masking procedure for estimating the causal influence of visual regions on action predictions, and the Nuisance Mass Ratio (NMR), a scalar measure of attribution to task-irrelevant features. We analyze the statistical properties of ISS and show that it admits unbiased estimation, and we characterize conditions under which action prediction error provides a valid proxy for causal influence. Experiments across diverse manipulation tasks indicate that NMR predicts generalization behavior and that ISS yields more faithful explanations than existing interpretability methods. These results suggest that interventional attribution provides a simple diagnostic approach for identifying causal misalignment in embodied policies.