EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
作者: Zechen Bai, Chen Gao, Mike Zheng Shou
分类: cs.RO, cs.CV
发布日期: 2025-12-16
备注: 15 pages
💡 一句话要点
EVOLVE-VLA:面向视觉-语言-动作模型的环境反馈测试时训练
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 测试时训练 环境反馈 具身智能 机器人操作
📋 核心要点
- 现有VLA模型依赖大量演示数据进行监督微调,泛化能力差,难以适应新环境。
- EVOLVE-VLA通过环境交互进行测试时训练,利用学习到的进度估计器提供反馈,实现持续适应。
- 实验表明,EVOLVE-VLA在长horizon任务、one-shot学习和跨任务泛化方面均有显著提升。
📝 摘要(中文)
为了实现真正自适应的具身智能,智能体不仅需要模仿静态演示进行学习,还需要通过与环境的持续交互来不断改进,这类似于人类通过实践掌握技能。视觉-语言-动作(VLA)模型通过利用大型语言模型推动了机器人操作的发展,但仍然受到监督微调(SFT)的根本限制:每个任务需要数百个演示,刚性地记忆轨迹,并且在部署条件偏离训练时无法适应。我们引入了EVOLVE-VLA,这是一个测试时训练框架,使VLA能够通过环境交互持续适应,而只需极少或零任务特定演示。关键的技术挑战是用自主反馈取代(测试时不可用的)oracle奖励信号。我们通过学习到的进度估计器提供密集反馈来解决这个问题,并且至关重要的是,我们设计我们的框架通过两种机制来“驯服”这种固有的噪声信号:(1)累积进度估计机制,平滑噪声点估计,以及(2)渐进式horizon扩展策略,实现逐步的策略演进。EVOLVE-VLA实现了显著的增益:在长horizon任务上+8.6%,在one-shot学习中+22.0%,并实现了跨任务泛化——在没有任务特定演示训练的情况下,在未见任务上实现了20.8%的成功率(而纯SFT为0%)。定性分析揭示了演示中不存在的新兴能力,包括错误恢复和新颖策略。这项工作代表了朝着真正学习和适应的VLA迈出的关键一步,从静态模仿转向持续的自我改进。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型依赖于监督微调(SFT),需要大量任务特定演示数据,导致泛化能力差,难以适应部署环境中与训练数据不同的情况。这些模型通常记忆轨迹,缺乏从环境交互中学习和改进的能力,限制了其在真实世界中的应用。
核心思路:EVOLVE-VLA的核心思路是在测试时通过与环境的交互进行持续训练,从而使VLA模型能够适应新环境并不断改进。该方法通过学习一个进度估计器来替代oracle奖励信号,为智能体提供密集的反馈,引导其探索和学习。同时,为了应对进度估计器带来的噪声,采用了累积进度估计和平滑以及渐进式horizon扩展策略。
技术框架:EVOLVE-VLA框架主要包含以下几个模块:1)VLA模型:作为基础策略,接收视觉和语言输入,输出动作。2)进度估计器:学习预测当前状态下任务完成的进度,提供密集反馈。3)累积进度估计:通过累积一段时间内的进度估计值来平滑噪声。4)渐进式horizon扩展:逐渐增加训练的horizon长度,使智能体能够学习更长期的策略。5)测试时训练循环:智能体与环境交互,根据进度估计器的反馈更新VLA模型的参数。
关键创新:EVOLVE-VLA最重要的创新在于其测试时训练框架,它允许VLA模型在部署环境中持续学习和适应,而无需额外的任务特定演示数据。通过学习进度估计器来替代oracle奖励信号,解决了测试时奖励信号缺失的问题。累积进度估计和渐进式horizon扩展策略有效地解决了进度估计器噪声带来的挑战。
关键设计:累积进度估计采用滑动窗口平均的方式,平滑一段时间内的进度估计值。渐进式horizon扩展策略从短horizon开始,逐步增加horizon长度,避免了训练初期由于策略不稳定导致的学习困难。进度估计器可以使用各种回归模型,例如神经网络。损失函数通常采用均方误差(MSE)损失,用于最小化预测进度与实际进度之间的差异。
🖼️ 关键图片
📊 实验亮点
EVOLVE-VLA在长horizon任务上取得了8.6%的性能提升,在one-shot学习中提升了22.0%。更重要的是,它实现了跨任务泛化,在未见过的任务上,无需任何任务特定的演示训练,成功率达到了20.8%,而纯SFT方法在该情况下的成功率为0%。这些结果表明,EVOLVE-VLA能够有效地利用环境反馈进行学习,并具备良好的泛化能力。
🎯 应用场景
EVOLVE-VLA具有广泛的应用前景,例如在家庭服务机器人、工业自动化和自动驾驶等领域。它可以使机器人在未知环境中执行复杂任务,并能够根据环境变化进行自我调整和优化,从而提高机器人的自主性和适应性。该研究为开发更智能、更灵活的机器人系统奠定了基础。
📄 摘要(原文)
Achieving truly adaptive embodied intelligence requires agents that learn not just by imitating static demonstrations, but by continuously improving through environmental interaction, which is akin to how humans master skills through practice. Vision-Language-Action (VLA) models have advanced robotic manipulation by leveraging large language models, yet remain fundamentally limited by Supervised Finetuning (SFT): requiring hundreds of demonstrations per task, rigidly memorizing trajectories, and failing to adapt when deployment conditions deviate from training. We introduce EVOLVE-VLA, a test-time training framework enabling VLAs to continuously adapt through environment interaction with minimal or zero task-specific demonstrations. The key technical challenge is replacing oracle reward signals (unavailable at test time) with autonomous feedback. We address this through a learned progress estimator providing dense feedback, and critically, we design our framework to ``tame'' this inherently noisy signal via two mechanisms: (1) an accumulative progress estimation mechanism smoothing noisy point-wise estimates, and (2) a progressive horizon extension strategy enabling gradual policy evolution. EVOLVE-VLA achieves substantial gains: +8.6\% on long-horizon tasks, +22.0\% in 1-shot learning, and enables cross-task generalization -- achieving 20.8\% success on unseen tasks without task-specific demonstrations training (vs. 0\% for pure SFT). Qualitative analysis reveals emergent capabilities absent in demonstrations, including error recovery and novel strategies. This work represents a critical step toward VLAs that truly learn and adapt, moving beyond static imitation toward continuous self-improvements.