StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

作者: Yiyang Fu, Chubin Zhang, Shukai Gong, Yufan Deng, Kaiwei Sun, Qiyang Min, Qibin Hou, Yansong Tang, Jianan Wang, Daquan Zhou

分类: cs.CV, cs.RO

发布日期: 2026-05-18

备注: Accepted by ICML 2026. Code: https://github.com/DAGroup-PKU/HumanNet. Project website: https://dagroup-pku.github.io/StableVLA/

💡 一句话要点

StableVLA：无需额外数据，提升视觉-语言-动作模型在真实视觉扰动下的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 鲁棒性 信息瓶颈 视觉扰动 机器人 自适应 轻量级模型

📋 核心要点

现有VLA模型在面对训练集中未见过的真实视觉扰动时，鲁棒性不足，性能显著下降。
提出基于信息论的轻量级IB-Adapter模块，选择性过滤视觉输入噪声，提升模型鲁棒性。
实验表明，IB-Adapter在参数量极小的情况下，能显著提升VLA模型在视觉扰动下的性能，平均提升30%。

📝 摘要（中文）

本文研究了视觉-语言-动作(VLA)模型在遇到训练数据中未出现的真实世界视觉扰动，特别是在不完美的视觉条件下，其鲁棒性问题。研究表明，现有VLA模型在引入训练数据中不存在的视觉扰动时，性能会显著下降。为了解决这个问题，本文提出了一种基于信息论的轻量级适配器模块，称为信息瓶颈适配器(IB-Adapter)，它选择性地过滤来自视觉输入的潜在噪声。无需任何额外数据或增强策略，IB-Adapter始终如一地将基线性能平均提高30%，同时增加的参数少于10M，展示了显著的效率和有效性。此外，即使使用小14倍的骨干网络(0.5B参数)，且没有在Open X-Embodiment数据集上进行预训练，我们的模型StableVLA也能实现与7B规模的先进VLA模型相媲美的鲁棒性。在可忽略的参数开销(<10M)下，我们的方法保持了长时程任务的准确性，并在合成和物理视觉损坏下超越了OpenPi。

🔬 方法详解

问题定义：现有视觉-语言-动作(VLA)模型在训练时难以覆盖所有可能的真实世界视觉扰动，导致模型在实际应用中，尤其是在视觉条件不佳的情况下，鲁棒性较差。现有方法通常依赖大量数据增强或额外数据来提升鲁棒性，但成本较高且效果有限。

核心思路：本文的核心思路是利用信息瓶颈(Information Bottleneck)原理，设计一个轻量级的适配器模块，该模块能够选择性地过滤掉视觉输入中的噪声，保留关键信息，从而提高模型对视觉扰动的鲁棒性。这种方法无需额外的数据或增强策略，仅通过优化模型结构来实现鲁棒性提升。

技术框架：StableVLA模型在现有的VLA模型基础上，引入了IB-Adapter模块。整体流程如下：首先，视觉输入通过视觉编码器提取特征；然后，提取的特征输入到IB-Adapter模块进行噪声过滤和信息提炼；最后，经过处理的视觉特征与语言特征融合，用于执行动作预测。IB-Adapter模块可以插入到VLA模型的不同层级，以实现最佳的性能提升。

关键创新：本文最重要的技术创新在于IB-Adapter模块的设计。与传统的注意力机制不同，IB-Adapter基于信息瓶颈原理，通过学习一个信息瓶颈，显式地限制视觉特征的信息量，从而过滤掉与任务无关的噪声。这种方法能够有效地提高模型对视觉扰动的鲁棒性，同时保持模型的性能。

关键设计：IB-Adapter模块的关键设计包括：1) 使用一个可学习的bottleneck层来限制视觉特征的信息量；2) 使用KL散度作为正则化项，鼓励bottleneck层学习到的特征分布接近一个预定义的先验分布；3) 通过实验选择合适的bottleneck维度和KL散度系数，以平衡模型的鲁棒性和性能。

🖼️ 关键图片

📊 实验亮点

StableVLA在多个视觉扰动基准测试中表现出色，无需额外数据或增强，平均提升基线性能30%。即使使用更小的骨干网络(0.5B参数)且未在Open X-Embodiment上预训练，其鲁棒性也能与7B规模的SOTA模型媲美。在长时程任务和视觉损坏场景下，StableVLA超越了OpenPi，展示了卓越的泛化能力。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶等领域，提升智能体在复杂、多变环境下的适应性和可靠性。例如，在光照不足、遮挡严重或存在噪声干扰的场景下，配备StableVLA的机器人能够更准确地感知环境，并执行相应的动作，从而提高任务完成的成功率。

📄 摘要（原文）

It is infeasible to encompass all possible disturbances within the training dataset. This raises a critical question regarding the robustness of Vision-Language-Action (VLA) models when encountering unseen real-world visual disturbances, particularly under imperfect visual conditions. In this work, we conduct a systematic study based on recent state-of-the-art VLA models and reveal a significant performance drop when visual disturbances absent from the training data are introduced. To mitigate this issue, we propose a lightweight adapter module grounded in information theory, termed the Information Bottleneck Adapter (IB-Adapter), which selectively filters potential noise from visual inputs. Without requiring any extra data or augmentation strategies, IB-Adapter consistently improves over the baseline by an average of 30%, while adding fewer than 10M parameters, demonstrating notable efficiency and effectiveness. Furthermore, even with a 14x smaller backbone (0.5B parameters) and no pre-training on the Open X-Embodiment dataset, our model StableVLA achieves robustness competitive with 7B-scale state-of-the-art VLAs. With negligible parameter overhead (<10M), our approach maintains accuracy on long-horizon tasks and surpasses OpenPi under both synthetic and physical visual corruptions.

StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理