Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models

📄 arXiv: 2604.18107v1 📥 PDF

作者: Zehua Zang, Xi Wang, Fuchun Sun, Xiao Xu, Lixiang Lium, Jiahuan Zhou, Jiangmeng Li

分类: cs.CV

发布日期: 2026-04-20

备注: 12 pages, 7 figures, 5 tables

期刊: CVPR 2026 Poster

🔗 代码/项目: GITHUB


💡 一句话要点

提出PDF:一种基于延迟反馈的测试时扰动学习方法,提升VLA模型在环境变化下的鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 测试时自适应 扰动学习 延迟反馈 序列决策

📋 核心要点

  1. VLA模型在环境微小变化时表现脆弱,主要原因是模型学习过程中对动作与实体间的虚假相关性过度拟合。
  2. PDF通过不确定性数据增强和动作投票来减少虚假相关性,并使用自适应调度器平衡性能和效率。
  3. PDF学习轻量级扰动模块,利用延迟反馈调整动作logits,纠正过度自信问题,并在LIBERO和Atari上验证了有效性。

📝 摘要(中文)

视觉-语言-动作模型(VLA)在序列决策任务中表现出色,但对细微的环境变化(如物体姿态的微小变化)仍然脆弱。这种脆弱性归因于轨迹过拟合,即VLA过度关注动作和实体之间的虚假相关性,从而重现记忆中的动作模式。我们提出了基于延迟反馈的扰动学习(PDF),这是一种无需验证器的测试时自适应框架,可在不微调基础模型的情况下提高决策性能。PDF通过基于不确定性的数据增强和动作投票来缓解虚假相关性,而自适应调度器则分配增强预算以平衡性能和效率。为了进一步提高稳定性,PDF学习了一个轻量级的扰动模块,该模块在延迟反馈的指导下回顾性地调整动作logits,从而纠正过度自信的问题。在LIBERO(成功率+7.4%)和Atari(人类标准化得分+10.3)上的实验表明,PDF在任务成功率方面始终优于vanilla VLA和带有测试时自适应的VLA,为多模态决策代理中可靠的测试时自适应建立了一条切实可行的途径。

🔬 方法详解

问题定义:VLA模型在序列决策任务中表现出色,但对环境的微小变化非常敏感,例如物体姿态的轻微改变。现有方法容易受到轨迹过拟合的影响,即模型过度关注动作和实体之间的虚假相关性,导致泛化能力差。这种过拟合使得模型在训练环境中表现良好,但在真实环境中性能下降。

核心思路:PDF的核心思路是在测试时通过扰动学习来提高模型的鲁棒性,而无需对基础模型进行微调。通过引入基于不确定性的数据增强来探索不同的状态空间,并使用动作投票来减少虚假相关性的影响。此外,利用延迟反馈来纠正模型在早期决策中的错误,从而提高整体性能。

技术框架:PDF框架主要包含三个模块:1) 基于不确定性的数据增强模块,该模块通过对输入图像进行扰动来生成新的样本,从而增加数据的多样性;2) 动作投票模块,该模块通过对多个扰动样本的动作预测进行投票来选择最终的动作,从而减少噪声的影响;3) 基于延迟反馈的扰动模块,该模块利用延迟反馈来调整动作logits,从而纠正模型在早期决策中的错误。自适应调度器用于动态调整数据增强的预算,以平衡性能和效率。

关键创新:PDF的关键创新在于其测试时自适应能力,它不需要对基础模型进行微调,而是通过扰动学习来提高模型的鲁棒性。此外,PDF还引入了基于延迟反馈的扰动模块,该模块可以有效地纠正模型在早期决策中的错误。这种延迟反馈机制使得模型能够从过去的经验中学习,从而提高整体性能。

关键设计:数据增强模块使用基于不确定性的采样方法,选择那些模型预测不确定的样本进行增强。动作投票模块使用加权投票,权重基于每个动作预测的置信度。延迟反馈模块使用一个轻量级的神经网络来学习扰动,该网络的输入是当前状态和延迟反馈,输出是对动作logits的调整。自适应调度器使用一个简单的PID控制器来调整数据增强的预算。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PDF在LIBERO和Atari游戏上进行了评估,结果表明PDF显著提高了VLA模型的性能。在LIBERO上,PDF的成功率提高了7.4%。在Atari游戏上,PDF的人类标准化得分提高了10.3%。这些结果表明,PDF是一种有效的测试时自适应方法,可以显著提高VLA模型在真实环境中的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要视觉理解和序列决策的机器人任务,例如自动驾驶、家庭服务机器人、工业自动化等。通过提高VLA模型在真实环境中的鲁棒性,可以减少人工干预,提高系统的可靠性和安全性。此外,该方法还可以推广到其他多模态决策任务中,具有广泛的应用前景。

📄 摘要(原文)

Vision-Language-Action models (VLAs) achieve remarkable performance in sequential decision-making but remain fragile to subtle environmental shifts, such as small changes in object pose. We attribute this brittleness to trajectory overfitting, where VLAs over-attend to the spurious correlation between actions and entities, then reproduce memorized action patterns. We propose Perturbation learning with Delayed Feedback (PDF), a verifier-free test-time adaptation framework that improves decision performance without fine-tuning the base model. PDF mitigates the spurious correlation through uncertainty-based data augmentation and action voting, while an adaptive scheduler allocates augmentation budgets to balance performance and efficiency. To further improve stability, PDF learns a lightweight perturbation module that retrospectively adjusts action logits guided by delayed feedback, correcting overconfidence issue. Experiments on LIBERO (+7.4\% success rate) and Atari (+10.3 human normalized score) demonstrate consistent gains of PDF in task success over vanilla VLA and VLA with test-time adaptation, establishing a practical path toward reliable test-time adaptation in multimodal decision-making agents. The code is available at \href{https://github.com/zhoujiahuan1991/CVPR2026-PDF}{https://github.com/zhoujiahuan1991/CVPR2026-PDF}.