EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models

作者: Perry Dong, Kuo-Han Hung, Tian Gao, Dorsa Sadigh, Chelsea Finn

分类: cs.RO, cs.AI

发布日期: 2026-05-25

💡 一句话要点

EXPO-FT：面向视觉-语言-动作模型的高效强化学习微调

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 视觉-语言-动作模型 机器人操作 微调 样本效率

📋 核心要点

现有VLA模型在机器人操作任务中泛化性强，但可靠性不足，难以直接部署。
EXPO-FT通过强化学习微调预训练VLA策略，提升样本效率和稳定性。
实验表明，EXPO-FT在多个复杂操作任务中达到完美成功率，且训练时间短。

📝 摘要（中文）

高效且可靠地学习新任务一直是机器人领域的基础挑战。视觉-语言-动作（VLA）模型在各种操作任务中表现出强大的泛化能力，但预训练策略始终无法满足实际部署所需的可靠性。强化学习（RL）微调为弥合这一差距提供了一条有希望的途径，但现有方法要么从头开始训练而没有充分利用预训练先验，要么微调VLA模型而无法达到实际部署所需的样本效率和成功率。我们提出了EXPO-FT，一个用于稳定、高效地对预训练VLA策略进行强化学习微调的系统，从而弥补了这一差距。我们的系统解决了一系列具有挑战性的操作任务，包括连接串灯并插入插头以点亮它，击打台球入袋，以及将花插入酒瓶，每个任务都需要高精度、动态动作以及对各种初始状态的鲁棒性。我们的系统在所有评估任务中都实现了完美的任务性能（30/30次成功），平均仅需19.1分钟的在线机器人数据，优于之前的从头开始的RL和VLA微调方法。我们发布了一个开源代码库，旨在促进VLA模型强化学习微调在机器人领域的更广泛应用。

🔬 方法详解

问题定义：论文旨在解决预训练的视觉-语言-动作（VLA）模型在实际机器人操作任务中可靠性不足的问题。现有方法要么从头开始进行强化学习，忽略了预训练模型的先验知识，要么直接微调VLA模型，但样本效率低，难以在实际场景中应用。

核心思路：论文的核心思路是利用强化学习（RL）对预训练的VLA策略进行高效微调。通过结合预训练模型的知识和在线强化学习的优化能力，EXPO-FT旨在提高样本效率和任务成功率，从而实现更可靠的机器人操作。

技术框架：EXPO-FT系统的整体框架包括以下几个主要阶段：1) 使用预训练的VLA模型初始化策略；2) 使用强化学习算法（具体算法未知，论文未明确说明）在线收集机器人数据；3) 利用收集到的数据对VLA策略进行微调；4) 评估微调后的策略在目标任务上的性能。

关键创新：EXPO-FT的关键创新在于其高效的强化学习微调方法，能够在利用预训练VLA模型先验知识的同时，通过少量在线数据实现任务性能的显著提升。与从头开始的强化学习相比，EXPO-FT能够更快地收敛到最优策略；与直接微调VLA模型相比，EXPO-FT能够更有效地利用在线数据进行策略优化。

关键设计：论文中没有详细说明关键的参数设置、损失函数、网络结构等技术细节。但是，可以推测，损失函数可能包含模仿学习损失（用于保持预训练模型的知识）和强化学习奖励损失（用于优化任务性能）。具体的网络结构可能与预训练VLA模型的结构有关，并在其基础上进行微调。

🖼️ 关键图片

📊 实验亮点

EXPO-FT在多个具有挑战性的机器人操作任务中取得了显著成果，包括连接串灯、击打台球和插花。在所有评估任务中，EXPO-FT均实现了100%的任务成功率（30/30次成功），平均仅需19.1分钟的在线机器人数据。该性能优于之前的从头开始的强化学习方法和VLA微调方法，证明了EXPO-FT的有效性和高效性。

🎯 应用场景

EXPO-FT具有广泛的应用前景，可应用于各种机器人操作任务，例如工业自动化、家庭服务机器人、医疗机器人等。通过高效的强化学习微调，可以使机器人能够快速适应新的任务和环境，提高其智能化水平和服务能力。该研究对于推动机器人技术的实际应用具有重要意义。

📄 摘要（原文）

The ability to efficiently and reliably learn new tasks has been a foundational challenge in robotics. Vision-Language-Action (VLA) models have demonstrated strong generalization across diverse manipulation tasks, yet pretrained policies consistently fall short of the reliability required for real-world deployment. Reinforcement learning (RL) fine-tuning offers a promising path to bridge this gap, but existing approaches either train from scratch without fully leveraging pretrained priors, or fine-tune VLAs without achieving the sample efficiency and success rates that practical deployment demands. We present EXPO-FT, a system for stable, sample-efficient RL finetuning of pretrained VLA policies that closes this gap. Our system solves a suite of challenging manipulation tasks, including routing string lights and inserting the plug to light it up, striking a pool ball into a pocket, and inserting a flower into a wine bottle, each requiring combinations of high precision, dynamic actions, and robustness to varied initial states. Our system achieves perfect task performance (30/30 successes) across all evaluated tasks within an average of 19.1 minutes of online robot data, outperforming both prior RL-from-scratch and VLA finetuning approaches. We release an open-source codebase with the aim of facilitating broader adoption of RL finetuning of VLA models in robotics.

EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理