Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

📄 arXiv: 2603.10340v1 📥 PDF

作者: Sangmim Song, Sarath Kodagoda, Marc Carmichael, Karthick Thiyagarajan

分类: cs.CV, cs.AI, cs.RO, eess.SY

发布日期: 2026-03-11

备注: 7 pages, 4 figures, 3 tables


💡 一句话要点

提出概念门控视觉蒸馏(CGVD)以提升VLA模型在复杂环境下的操作精度。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 视觉蒸馏 机器人操作 复杂环境 语义干扰

📋 核心要点

  1. VLA模型在复杂环境中易受背景语义噪声干扰,导致操作精度下降,出现“精度-推理差距”。
  2. 提出概念门控视觉蒸馏(CGVD),通过解析指令、目标细化和傅里叶图像修复,抑制干扰信息,保留关键几何信息。
  3. 实验表明,CGVD在复杂环境中显著提升VLA模型的操作成功率,例如在密集语义干扰环境中,成功率从43.0%提升到77.5%。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在零样本泛化方面表现出色,但在复杂环境中常遇到“精度-推理差距”问题。这是由于背景引入的特征稀释,高频语义噪声破坏了几何基础,从而影响精确操作。为弥合这一差距,我们提出概念门控视觉蒸馏(CGVD),这是一个无需训练、模型无关的推理框架,用于稳定VLA策略。CGVD通过将指令解析为安全集和干扰集,利用双层目标细化过程——结合交叉验证和空间消歧——来显式惩罚假阳性并隔离真正的操作目标。然后,我们通过基于傅里叶的图像修复处理场景,生成干净的观察结果,主动抑制语义干扰,同时保留关键的空间几何和视觉感知。在高度杂乱的操作任务中进行的大量评估表明,CGVD可以防止性能崩溃。在具有密集语义干扰的环境中,我们的方法显著优于最先进的基线,成功率达到77.5%,而基线为43.0%。通过强制执行严格的属性遵循,CGVD将推理时视觉蒸馏确立为在杂乱环境中实现鲁棒机器人操作的关键先决条件。

🔬 方法详解

问题定义:论文旨在解决VLA模型在视觉杂乱环境中表现不佳的问题。现有的VLA模型容易受到背景中语义噪声的干扰,导致模型无法准确识别和定位目标物体,从而影响操作的精度和成功率。这种现象被称为“精度-推理差距”。

核心思路:论文的核心思路是通过视觉蒸馏,在推理阶段主动抑制场景中的语义干扰,从而提高VLA模型对目标物体的识别和定位精度。具体来说,通过分析指令,区分安全对象和干扰对象,并利用图像处理技术去除或弱化干扰对象,从而得到一个更“干净”的视觉输入。

技术框架:CGVD框架主要包含以下几个阶段:1) 指令解析:将指令解析为安全对象集合和干扰对象集合。2) 目标细化:通过交叉验证和空间消歧,精确确定操作目标,并惩罚假阳性。3) 视觉蒸馏:利用傅里叶变换进行图像修复,去除或弱化干扰对象,同时保留关键的空间几何信息和视觉感知。4) VLA模型推理:将经过视觉蒸馏处理的图像输入VLA模型,进行动作预测。

关键创新:CGVD的关键创新在于其推理时的视觉蒸馏方法。与传统的训练时数据增强或模型正则化方法不同,CGVD直接在推理阶段对视觉输入进行处理,从而避免了重新训练模型的需求,具有更好的灵活性和通用性。此外,CGVD利用傅里叶变换进行图像修复,可以在去除语义干扰的同时,保留关键的空间几何信息,这对于精确操作至关重要。

关键设计:CGVD的关键设计包括:1) 双层目标细化过程,用于精确确定操作目标。2) 基于傅里叶变换的图像修复方法,用于去除语义干扰。3) 模型无关的设计,使得CGVD可以应用于不同的VLA模型。论文中没有明确给出具体的参数设置或损失函数,但强调了交叉验证和空间消歧在目标细化中的作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CGVD在高度杂乱的操作任务中显著提升了VLA模型的性能。在具有密集语义干扰的环境中,CGVD的成功率达到77.5%,而基线模型的成功率仅为43.0%。这表明CGVD能够有效地抑制语义干扰,提高VLA模型的操作精度。

🎯 应用场景

该研究成果可应用于各种需要机器人操作的复杂环境,例如家庭服务机器人、工业自动化、医疗手术机器人等。通过提高机器人在杂乱环境中的操作精度和鲁棒性,可以扩展机器人的应用范围,提升其智能化水平,并最终提高生产效率和服务质量。

📄 摘要(原文)

Vision-Language-Action (VLA) models demonstrate impressive zero-shot generalization but frequently suffer from a "Precision-Reasoning Gap" in cluttered environments. This failure is driven by background-induced feature dilution, where high-frequency semantic noise corrupts the geometric grounding required for precise manipulation. To bridge this gap, we propose Concept-Gated Visual Distillation (CGVD), a training-free, model-agnostic inference framework that stabilizes VLA policies. CGVD operates by parsing instructions into safe and distractor sets, utilizing a two-layer target refinement process--combining cross-validation and spatial disambiguation--to explicitly penalize false positives and isolate genuine manipulation targets. We then process the scene via Fourier-based inpainting, generating a clean observation that actively suppresses semantic distractors while preserving critical spatial geometry and visual proprioception. Extensive evaluations in highly cluttered manipulation tasks demonstrate that CGVD prevents performance collapse. In environments with dense semantic distractors, our method significantly outperforms state-of-the-art baselines, achieving a 77.5% success rate compared to the baseline's 43.0%. By enforcing strict attribute adherence, CGVD establishes inference-time visual distillation as a critical prerequisite for robust robotic manipulation in the clutter.