ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy
作者: Yuhui Chen, Shuai Tian, Shugao Liu, Yingting Zhou, Haoran Li, Dongbin Zhao
分类: cs.RO, cs.AI
发布日期: 2025-02-08 (更新: 2025-04-14)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出ConRFT,通过强化微调提升VLA模型在复杂操作任务中的鲁棒性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: VLA模型 强化学习 机器人操作 行为克隆 Q学习 一致性策略 微调 机器人学习
📋 核心要点
- VLA模型在复杂操作任务中面临数据有限和不一致的挑战,导致监督微调效果不佳。
- ConRFT结合离线行为克隆与Q学习,以及在线一致性策略微调,提升模型鲁棒性和样本效率。
- 实验表明,ConRFT在真实操作任务中显著提升成功率,并缩短episode长度,验证了其有效性。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在现实机器人操作中展现出巨大潜力。然而,由于演示数据有限且不一致,尤其是在接触丰富的环境中,通过监督学习微调这些模型难以实现稳健的性能。本文提出了一种VLA模型的强化微调方法,名为ConRFT,它由离线和在线微调组成,并采用统一的基于一致性的训练目标,以应对这些挑战。在离线阶段,该方法集成了行为克隆和Q学习,以有效地从少量演示中提取策略并稳定价值估计。在在线阶段,VLA模型通过一致性策略进一步微调,并通过人工干预来确保安全探索和高样本效率。我们在八个不同的真实操作任务中评估了我们的方法。在45-90分钟的在线微调中,它实现了平均96.3%的成功率,优于先前的监督方法,成功率提高了144%,episode长度缩短了1.9倍。这项工作突出了集成强化学习以增强VLA模型在真实机器人应用中的性能的潜力。
🔬 方法详解
问题定义:VLA模型在真实机器人操作任务中,尤其是在接触丰富的环境中,面临着监督学习微调的挑战。主要痛点在于:有限的演示数据,以及演示数据本身的不一致性,导致模型泛化能力不足,难以应对真实世界的多样性和复杂性。现有方法往往依赖大量高质量的标注数据,但在实际应用中获取这些数据成本高昂。
核心思路:ConRFT的核心思路是将强化学习融入VLA模型的微调过程,利用强化学习的探索能力和奖励机制,克服监督学习对大量高质量数据的依赖。通过离线学习从少量演示数据中提取有效策略,并利用在线学习进一步优化策略,同时引入一致性策略,鼓励模型在相似状态下采取相似的动作,从而提高模型的鲁棒性和泛化能力。
技术框架:ConRFT包含离线和在线两个阶段。离线阶段,首先使用行为克隆(Behavior Cloning)从演示数据中学习初始策略,然后利用Q学习(Q-Learning)对策略进行优化,稳定价值估计。在线阶段,利用一致性策略(Consistency Policy)对VLA模型进行进一步微调,同时引入人工干预,确保探索过程的安全性和样本效率。整体流程是:少量人工演示 -> 离线行为克隆 + Q学习 -> 在线一致性策略微调 + 人工干预。
关键创新:ConRFT的关键创新在于将强化学习与一致性策略相结合,用于VLA模型的微调。与传统的监督学习方法相比,ConRFT能够利用少量演示数据进行有效学习,并通过在线强化学习不断优化策略。一致性策略的引入,则进一步提高了模型的鲁棒性和泛化能力,使其能够更好地应对真实世界中的不确定性。
关键设计:ConRFT的关键设计包括:1) 离线阶段的行为克隆和Q学习的结合,用于从少量演示数据中提取有效策略;2) 在线阶段的一致性策略,鼓励模型在相似状态下采取相似的动作;3) 人工干预机制,确保在线探索过程的安全性和样本效率。具体的损失函数包括行为克隆损失、Q学习损失和一致性损失。网络结构方面,ConRFT可以采用各种现有的VLA模型作为基础模型,例如Transporter Networks。
🖼️ 关键图片
📊 实验亮点
ConRFT在八个真实操作任务中取得了显著成果,平均成功率达到96.3%,相较于之前的监督学习方法,成功率提升了144%,episode长度缩短了1.9倍。这些结果表明,ConRFT能够有效提升VLA模型在复杂操作任务中的性能,并具有良好的泛化能力。
🎯 应用场景
ConRFT具有广泛的应用前景,可用于提升机器人操作的智能化水平,例如:工业自动化中的装配、搬运,家庭服务机器人中的物品整理、清洁,以及医疗机器人中的辅助手术等。通过少量演示和在线学习,机器人可以快速适应新的任务和环境,降低部署成本,提高工作效率。
📄 摘要(原文)
Vision-Language-Action (VLA) models have shown substantial potential in real-world robotic manipulation. However, fine-tuning these models through supervised learning struggles to achieve robust performance due to limited, inconsistent demonstrations, especially in contact-rich environments. In this paper, we propose a reinforced fine-tuning approach for VLA models, named ConRFT, which consists of offline and online fine-tuning with a unified consistency-based training objective, to address these challenges. In the offline stage, our method integrates behavior cloning and Q-learning to effectively extract policy from a small set of demonstrations and stabilize value estimating. In the online stage, the VLA model is further fine-tuned via consistency policy, with human interventions to ensure safe exploration and high sample efficiency. We evaluate our approach on eight diverse real-world manipulation tasks. It achieves an average success rate of 96.3% within 45-90 minutes of online fine-tuning, outperforming prior supervised methods with a 144% improvement in success rate and 1.9x shorter episode length. This work highlights the potential of integrating reinforcement learning to enhance the performance of VLA models for real-world robotic applications. Videos and code are available at our project website https://cccedric.github.io/conrft/.