StableVLA: Towards Robust Vision-Language-Action Models without Extra Data
作者: Yiyang Fu, Chubin Zhang, Shukai Gong, Yufan Deng, Kaiwei Sun, Qiyang Min, Qibin Hou, Yansong Tang, Jianan Wang, Daquan Zhou
分类: cs.CV, cs.RO
发布日期: 2026-05-18
备注: Accepted by ICML 2026. Code: https://github.com/DAGroup-PKU/HumanNet. Project website: https://dagroup-pku.github.io/StableVLA/
💡 一句话要点
StableVLA:无需额外数据,提升视觉-语言-动作模型在真实视觉扰动下的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 鲁棒性 信息瓶颈 视觉扰动 机器人 自适应 轻量级模型
📋 核心要点
- 现有VLA模型在面对训练集中未见过的真实视觉扰动时,鲁棒性不足,性能显著下降。
- 提出基于信息论的轻量级IB-Adapter模块,选择性过滤视觉输入噪声,提升模型鲁棒性。
- 实验表明,IB-Adapter在参数量极小的情况下,能显著提升VLA模型在视觉扰动下的性能,平均提升30%。
📝 摘要(中文)
本文研究了视觉-语言-动作(VLA)模型在遇到训练数据中未出现的真实世界视觉扰动,特别是在不完美的视觉条件下,其鲁棒性问题。研究表明,现有VLA模型在引入训练数据中不存在的视觉扰动时,性能会显著下降。为了解决这个问题,本文提出了一种基于信息论的轻量级适配器模块,称为信息瓶颈适配器(IB-Adapter),它选择性地过滤来自视觉输入的潜在噪声。无需任何额外数据或增强策略,IB-Adapter始终如一地将基线性能平均提高30%,同时增加的参数少于10M,展示了显著的效率和有效性。此外,即使使用小14倍的骨干网络(0.5B参数),且没有在Open X-Embodiment数据集上进行预训练,我们的模型StableVLA也能实现与7B规模的先进VLA模型相媲美的鲁棒性。在可忽略的参数开销(<10M)下,我们的方法保持了长时程任务的准确性,并在合成和物理视觉损坏下超越了OpenPi。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在训练时难以覆盖所有可能的真实世界视觉扰动,导致模型在实际应用中,尤其是在视觉条件不佳的情况下,鲁棒性较差。现有方法通常依赖大量数据增强或额外数据来提升鲁棒性,但成本较高且效果有限。
核心思路:本文的核心思路是利用信息瓶颈(Information Bottleneck)原理,设计一个轻量级的适配器模块,该模块能够选择性地过滤掉视觉输入中的噪声,保留关键信息,从而提高模型对视觉扰动的鲁棒性。这种方法无需额外的数据或增强策略,仅通过优化模型结构来实现鲁棒性提升。
技术框架:StableVLA模型在现有的VLA模型基础上,引入了IB-Adapter模块。整体流程如下:首先,视觉输入通过视觉编码器提取特征;然后,提取的特征输入到IB-Adapter模块进行噪声过滤和信息提炼;最后,经过处理的视觉特征与语言特征融合,用于执行动作预测。IB-Adapter模块可以插入到VLA模型的不同层级,以实现最佳的性能提升。
关键创新:本文最重要的技术创新在于IB-Adapter模块的设计。与传统的注意力机制不同,IB-Adapter基于信息瓶颈原理,通过学习一个信息瓶颈,显式地限制视觉特征的信息量,从而过滤掉与任务无关的噪声。这种方法能够有效地提高模型对视觉扰动的鲁棒性,同时保持模型的性能。
关键设计:IB-Adapter模块的关键设计包括:1) 使用一个可学习的bottleneck层来限制视觉特征的信息量;2) 使用KL散度作为正则化项,鼓励bottleneck层学习到的特征分布接近一个预定义的先验分布;3) 通过实验选择合适的bottleneck维度和KL散度系数,以平衡模型的鲁棒性和性能。
🖼️ 关键图片
📊 实验亮点
StableVLA在多个视觉扰动基准测试中表现出色,无需额外数据或增强,平均提升基线性能30%。即使使用更小的骨干网络(0.5B参数)且未在Open X-Embodiment上预训练,其鲁棒性也能与7B规模的SOTA模型媲美。在长时程任务和视觉损坏场景下,StableVLA超越了OpenPi,展示了卓越的泛化能力。
🎯 应用场景
该研究成果可广泛应用于机器人、自动驾驶等领域,提升智能体在复杂、多变环境下的适应性和可靠性。例如,在光照不足、遮挡严重或存在噪声干扰的场景下,配备StableVLA的机器人能够更准确地感知环境,并执行相应的动作,从而提高任务完成的成功率。
📄 摘要(原文)
It is infeasible to encompass all possible disturbances within the training dataset. This raises a critical question regarding the robustness of Vision-Language-Action (VLA) models when encountering unseen real-world visual disturbances, particularly under imperfect visual conditions. In this work, we conduct a systematic study based on recent state-of-the-art VLA models and reveal a significant performance drop when visual disturbances absent from the training data are introduced. To mitigate this issue, we propose a lightweight adapter module grounded in information theory, termed the Information Bottleneck Adapter (IB-Adapter), which selectively filters potential noise from visual inputs. Without requiring any extra data or augmentation strategies, IB-Adapter consistently improves over the baseline by an average of 30%, while adding fewer than 10M parameters, demonstrating notable efficiency and effectiveness. Furthermore, even with a 14x smaller backbone (0.5B parameters) and no pre-training on the Open X-Embodiment dataset, our model StableVLA achieves robustness competitive with 7B-scale state-of-the-art VLAs. With negligible parameter overhead (<10M), our approach maintains accuracy on long-horizon tasks and surpasses OpenPi under both synthetic and physical visual corruptions.