EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models
作者: Perry Dong, Kuo-Han Hung, Tian Gao, Dorsa Sadigh, Chelsea Finn
分类: cs.RO, cs.AI
发布日期: 2026-05-25
💡 一句话要点
EXPO-FT:面向视觉-语言-动作模型的高效强化学习微调
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 视觉-语言-动作模型 机器人操作 微调 样本效率
📋 核心要点
- 现有VLA模型在机器人操作任务中泛化性强,但可靠性不足,难以直接部署。
- EXPO-FT通过强化学习微调预训练VLA策略,提升样本效率和稳定性。
- 实验表明,EXPO-FT在多个复杂操作任务中达到完美成功率,且训练时间短。
📝 摘要(中文)
高效且可靠地学习新任务一直是机器人领域的基础挑战。视觉-语言-动作(VLA)模型在各种操作任务中表现出强大的泛化能力,但预训练策略始终无法满足实际部署所需的可靠性。强化学习(RL)微调为弥合这一差距提供了一条有希望的途径,但现有方法要么从头开始训练而没有充分利用预训练先验,要么微调VLA模型而无法达到实际部署所需的样本效率和成功率。我们提出了EXPO-FT,一个用于稳定、高效地对预训练VLA策略进行强化学习微调的系统,从而弥补了这一差距。我们的系统解决了一系列具有挑战性的操作任务,包括连接串灯并插入插头以点亮它,击打台球入袋,以及将花插入酒瓶,每个任务都需要高精度、动态动作以及对各种初始状态的鲁棒性。我们的系统在所有评估任务中都实现了完美的任务性能(30/30次成功),平均仅需19.1分钟的在线机器人数据,优于之前的从头开始的RL和VLA微调方法。我们发布了一个开源代码库,旨在促进VLA模型强化学习微调在机器人领域的更广泛应用。
🔬 方法详解
问题定义:论文旨在解决预训练的视觉-语言-动作(VLA)模型在实际机器人操作任务中可靠性不足的问题。现有方法要么从头开始进行强化学习,忽略了预训练模型的先验知识,要么直接微调VLA模型,但样本效率低,难以在实际场景中应用。
核心思路:论文的核心思路是利用强化学习(RL)对预训练的VLA策略进行高效微调。通过结合预训练模型的知识和在线强化学习的优化能力,EXPO-FT旨在提高样本效率和任务成功率,从而实现更可靠的机器人操作。
技术框架:EXPO-FT系统的整体框架包括以下几个主要阶段:1) 使用预训练的VLA模型初始化策略;2) 使用强化学习算法(具体算法未知,论文未明确说明)在线收集机器人数据;3) 利用收集到的数据对VLA策略进行微调;4) 评估微调后的策略在目标任务上的性能。
关键创新:EXPO-FT的关键创新在于其高效的强化学习微调方法,能够在利用预训练VLA模型先验知识的同时,通过少量在线数据实现任务性能的显著提升。与从头开始的强化学习相比,EXPO-FT能够更快地收敛到最优策略;与直接微调VLA模型相比,EXPO-FT能够更有效地利用在线数据进行策略优化。
关键设计:论文中没有详细说明关键的参数设置、损失函数、网络结构等技术细节。但是,可以推测,损失函数可能包含模仿学习损失(用于保持预训练模型的知识)和强化学习奖励损失(用于优化任务性能)。具体的网络结构可能与预训练VLA模型的结构有关,并在其基础上进行微调。
🖼️ 关键图片
📊 实验亮点
EXPO-FT在多个具有挑战性的机器人操作任务中取得了显著成果,包括连接串灯、击打台球和插花。在所有评估任务中,EXPO-FT均实现了100%的任务成功率(30/30次成功),平均仅需19.1分钟的在线机器人数据。该性能优于之前的从头开始的强化学习方法和VLA微调方法,证明了EXPO-FT的有效性和高效性。
🎯 应用场景
EXPO-FT具有广泛的应用前景,可应用于各种机器人操作任务,例如工业自动化、家庭服务机器人、医疗机器人等。通过高效的强化学习微调,可以使机器人能够快速适应新的任务和环境,提高其智能化水平和服务能力。该研究对于推动机器人技术的实际应用具有重要意义。
📄 摘要(原文)
The ability to efficiently and reliably learn new tasks has been a foundational challenge in robotics. Vision-Language-Action (VLA) models have demonstrated strong generalization across diverse manipulation tasks, yet pretrained policies consistently fall short of the reliability required for real-world deployment. Reinforcement learning (RL) fine-tuning offers a promising path to bridge this gap, but existing approaches either train from scratch without fully leveraging pretrained priors, or fine-tune VLAs without achieving the sample efficiency and success rates that practical deployment demands. We present EXPO-FT, a system for stable, sample-efficient RL finetuning of pretrained VLA policies that closes this gap. Our system solves a suite of challenging manipulation tasks, including routing string lights and inserting the plug to light it up, striking a pool ball into a pocket, and inserting a flower into a wine bottle, each requiring combinations of high precision, dynamic actions, and robustness to varied initial states. Our system achieves perfect task performance (30/30 successes) across all evaluated tasks within an average of 19.1 minutes of online robot data, outperforming both prior RL-from-scratch and VLA finetuning approaches. We release an open-source codebase with the aim of facilitating broader adoption of RL finetuning of VLA models in robotics.