ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

作者: Yuhui Chen, Shuai Tian, Shugao Liu, Yingting Zhou, Haoran Li, Dongbin Zhao

分类: cs.RO, cs.AI

发布日期: 2025-02-08 (更新: 2025-04-14)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出ConRFT，通过强化微调提升VLA模型在复杂操作任务中的鲁棒性。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: VLA模型 强化学习 机器人操作 行为克隆 Q学习 一致性策略 微调 机器人学习

📋 核心要点

VLA模型在复杂操作任务中面临数据有限和不一致的挑战，导致监督微调效果不佳。
ConRFT结合离线行为克隆与Q学习，以及在线一致性策略微调，提升模型鲁棒性和样本效率。
实验表明，ConRFT在真实操作任务中显著提升成功率，并缩短episode长度，验证了其有效性。

📝 摘要（中文）

视觉-语言-动作（VLA）模型在现实机器人操作中展现出巨大潜力。然而，由于演示数据有限且不一致，尤其是在接触丰富的环境中，通过监督学习微调这些模型难以实现稳健的性能。本文提出了一种VLA模型的强化微调方法，名为ConRFT，它由离线和在线微调组成，并采用统一的基于一致性的训练目标，以应对这些挑战。在离线阶段，该方法集成了行为克隆和Q学习，以有效地从少量演示中提取策略并稳定价值估计。在在线阶段，VLA模型通过一致性策略进一步微调，并通过人工干预来确保安全探索和高样本效率。我们在八个不同的真实操作任务中评估了我们的方法。在45-90分钟的在线微调中，它实现了平均96.3%的成功率，优于先前的监督方法，成功率提高了144%，episode长度缩短了1.9倍。这项工作突出了集成强化学习以增强VLA模型在真实机器人应用中的性能的潜力。

🔬 方法详解

问题定义：VLA模型在真实机器人操作任务中，尤其是在接触丰富的环境中，面临着监督学习微调的挑战。主要痛点在于：有限的演示数据，以及演示数据本身的不一致性，导致模型泛化能力不足，难以应对真实世界的多样性和复杂性。现有方法往往依赖大量高质量的标注数据，但在实际应用中获取这些数据成本高昂。

核心思路：ConRFT的核心思路是将强化学习融入VLA模型的微调过程，利用强化学习的探索能力和奖励机制，克服监督学习对大量高质量数据的依赖。通过离线学习从少量演示数据中提取有效策略，并利用在线学习进一步优化策略，同时引入一致性策略，鼓励模型在相似状态下采取相似的动作，从而提高模型的鲁棒性和泛化能力。

技术框架：ConRFT包含离线和在线两个阶段。离线阶段，首先使用行为克隆（Behavior Cloning）从演示数据中学习初始策略，然后利用Q学习（Q-Learning）对策略进行优化，稳定价值估计。在线阶段，利用一致性策略（Consistency Policy）对VLA模型进行进一步微调，同时引入人工干预，确保探索过程的安全性和样本效率。整体流程是：少量人工演示 -> 离线行为克隆 + Q学习 -> 在线一致性策略微调 + 人工干预。

关键创新：ConRFT的关键创新在于将强化学习与一致性策略相结合，用于VLA模型的微调。与传统的监督学习方法相比，ConRFT能够利用少量演示数据进行有效学习，并通过在线强化学习不断优化策略。一致性策略的引入，则进一步提高了模型的鲁棒性和泛化能力，使其能够更好地应对真实世界中的不确定性。

关键设计：ConRFT的关键设计包括：1) 离线阶段的行为克隆和Q学习的结合，用于从少量演示数据中提取有效策略；2) 在线阶段的一致性策略，鼓励模型在相似状态下采取相似的动作；3) 人工干预机制，确保在线探索过程的安全性和样本效率。具体的损失函数包括行为克隆损失、Q学习损失和一致性损失。网络结构方面，ConRFT可以采用各种现有的VLA模型作为基础模型，例如Transporter Networks。

🖼️ 关键图片

📊 实验亮点

ConRFT在八个真实操作任务中取得了显著成果，平均成功率达到96.3%，相较于之前的监督学习方法，成功率提升了144%，episode长度缩短了1.9倍。这些结果表明，ConRFT能够有效提升VLA模型在复杂操作任务中的性能，并具有良好的泛化能力。

🎯 应用场景

ConRFT具有广泛的应用前景，可用于提升机器人操作的智能化水平，例如：工业自动化中的装配、搬运，家庭服务机器人中的物品整理、清洁，以及医疗机器人中的辅助手术等。通过少量演示和在线学习，机器人可以快速适应新的任务和环境，降低部署成本，提高工作效率。

📄 摘要（原文）

Vision-Language-Action (VLA) models have shown substantial potential in real-world robotic manipulation. However, fine-tuning these models through supervised learning struggles to achieve robust performance due to limited, inconsistent demonstrations, especially in contact-rich environments. In this paper, we propose a reinforced fine-tuning approach for VLA models, named ConRFT, which consists of offline and online fine-tuning with a unified consistency-based training objective, to address these challenges. In the offline stage, our method integrates behavior cloning and Q-learning to effectively extract policy from a small set of demonstrations and stabilize value estimating. In the online stage, the VLA model is further fine-tuned via consistency policy, with human interventions to ensure safe exploration and high sample efficiency. We evaluate our approach on eight diverse real-world manipulation tasks. It achieves an average success rate of 96.3% within 45-90 minutes of online fine-tuning, outperforming prior supervised methods with a 144% improvement in success rate and 1.9x shorter episode length. This work highlights the potential of integrating reinforcement learning to enhance the performance of VLA models for real-world robotic applications. Videos and code are available at our project website https://cccedric.github.io/conrft/.

ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理