Stable Language Guidance for Vision-Language-Action Models

📄 arXiv: 2601.04052v1 📥 PDF

作者: Zhihao Zhan, Yuhao Chen, Jiaying Zhou, Qinhan Lv, Hao Liu, Keze Wang, Liang Lin, Guangrun Wang

分类: cs.RO, cs.CL

发布日期: 2026-01-07


💡 一句话要点

提出残差语义引导(RSS)框架,提升VLA模型在语言扰动下的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人控制 语言扰动 鲁棒性 残差语义引导

📋 核心要点

  1. VLA模型易受语言扰动影响,存在视觉先验压制语言信号的“模态崩溃”问题。
  2. 提出残差语义引导(RSS)框架,解耦物理可供性和语义执行,提升模型对语言变化的鲁棒性。
  3. 实验表明,RSS在多种操作基准测试中实现了最先进的鲁棒性,即使在对抗性语言扰动下也能保持性能。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在通用机器人控制方面表现出令人印象深刻的能力;然而,它们对语言扰动非常敏感。我们发现了一个关键的“模态崩溃”现象,即强大的视觉先验压倒了稀疏的语言信号,导致智能体过度拟合特定的指令措辞,而忽略了潜在的语义意图。为了解决这个问题,我们提出了 extbf{残差语义引导(RSS)},这是一个概率框架,它将物理可供性与语义执行分离。RSS引入了两项理论创新:(1) extbf{蒙特卡洛句法积分},通过密集的、LLM驱动的分布扩展来近似真实的语义后验;(2) extbf{残差可供性引导},一种双流解码机制,通过减去视觉可供性先验来显式地隔离语言的因果影响。理论分析表明,RSS有效地最大化了动作和意图之间的互信息,同时抑制了视觉干扰因素。在各种操作基准上的实证结果表明,RSS实现了最先进的鲁棒性,即使在对抗性语言扰动下也能保持性能。

🔬 方法详解

问题定义:VLA模型在机器人控制中表现出色,但对语言指令的微小变化非常敏感,即对语言扰动的鲁棒性差。这是因为视觉信息往往占据主导地位,导致模型过度依赖视觉先验,忽略了语言指令的真实语义,从而产生“模态崩溃”现象。现有方法难以有效分离视觉可供性和语义意图,导致模型泛化能力不足。

核心思路:核心思想是将物理可供性(visual affordance)与语义执行(semantic execution)解耦。通过显式地建模语言的因果影响,并抑制视觉先验的干扰,从而提高模型对语言指令的理解和泛化能力。具体来说,通过“残差”的方式,从整体预测中减去视觉可供性带来的影响,从而突出语言的语义信息。

技术框架:RSS框架包含两个主要组成部分:蒙特卡洛句法积分(Monte Carlo Syntactic Integration)和残差可供性引导(Residual Affordance Steering)。蒙特卡洛句法积分利用大型语言模型(LLM)生成指令的多种变体,从而近似真实的语义后验分布。残差可供性引导采用双流解码机制,一路是基于视觉信息的动作预测,另一路是基于语言信息的动作预测,然后从后者中减去视觉信息的贡献,得到纯粹的语言语义引导。

关键创新:主要创新在于通过概率框架解耦了物理可供性和语义执行,并提出了蒙特卡洛句法积分和残差可供性引导两种技术。蒙特卡洛句法积分利用LLM增强了语言信息的表达,残差可供性引导则显式地隔离了语言的因果影响,从而有效抑制了视觉干扰。这种解耦和隔离的思想是与现有方法最本质的区别。

关键设计:蒙特卡洛句法积分中,LLM生成的指令变体数量是一个关键参数,需要平衡计算成本和语义覆盖范围。残差可供性引导中,如何有效地从语言动作预测中减去视觉可供性的影响,需要仔细设计损失函数和网络结构。具体实现细节(如LLM的选择、网络结构的具体形式、损失函数的具体定义)在论文中可能有所描述,但摘要中未提及。

📊 实验亮点

RSS在多个操作基准测试中取得了state-of-the-art的鲁棒性,即使在对抗性语言扰动下也能保持性能。具体性能数据和对比基线在摘要中未给出,但强调了其在鲁棒性方面的显著提升。实验结果表明,RSS能够有效应对语言指令的细微变化,提高机器人的泛化能力。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化机器人等。通过提高机器人对自然语言指令的理解能力和鲁棒性,可以使机器人更易于使用和控制,从而扩展其应用范围和提升其智能化水平。此外,该方法也可推广到其他视觉-语言任务中,例如图像描述生成、视觉问答等。

📄 摘要(原文)

Vision-Language-Action (VLA) models have demonstrated impressive capabilities in generalized robotic control; however, they remain notoriously brittle to linguistic perturbations. We identify a critical ``modality collapse'' phenomenon where strong visual priors overwhelm sparse linguistic signals, causing agents to overfit to specific instruction phrasings while ignoring the underlying semantic intent. To address this, we propose \textbf{Residual Semantic Steering (RSS)}, a probabilistic framework that disentangles physical affordance from semantic execution. RSS introduces two theoretical innovations: (1) \textbf{Monte Carlo Syntactic Integration}, which approximates the true semantic posterior via dense, LLM-driven distributional expansion, and (2) \textbf{Residual Affordance Steering}, a dual-stream decoding mechanism that explicitly isolates the causal influence of language by subtracting the visual affordance prior. Theoretical analysis suggests that RSS effectively maximizes the mutual information between action and intent while suppressing visual distractors. Empirical results across diverse manipulation benchmarks demonstrate that RSS achieves state-of-the-art robustness, maintaining performance even under adversarial linguistic perturbations.