IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation

作者: Zhian Su, Weijie Kong, Haonan Dong, Huixu Dong

分类: cs.RO

发布日期: 2026-02-24

💡 一句话要点

提出IG-RFT，用于长时程机器人操作中VLA模型的交互引导强化学习微调

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 强化学习 机器人操作 长时程任务 交互引导 离线强化学习 人机协作

📋 核心要点

VLA模型在长时程机器人任务中面临泛化性挑战，主要原因是真实世界数据分布偏移和高质量演示数据不足。
论文提出IG-RFT框架，通过交互引导的强化学习微调VLA模型，提升探索效率和训练稳定性。
实验表明，IG-RFT在真实世界长时程任务中显著优于SFT和离线RL基线，成功率提升明显。

📝 摘要（中文）

视觉-语言-动作（VLA）模型在通用机器人策略方面展现出巨大潜力，但由于分布偏移和高质量演示数据的稀缺，它们难以泛化到新的真实世界领域中的长时程复杂任务。强化学习（RL）为策略改进提供了一条有希望的途径，但将其应用于真实世界的VLA微调面临着探索效率、训练稳定性和样本成本方面的挑战。为了解决这些问题，我们提出了一种新颖的交互引导强化微调系统IG-RFT，专为基于流的VLA模型设计。首先，为了促进有效的策略优化，我们引入了交互引导优势加权回归（IG-AWR），这是一种RL算法，可根据机器人的交互状态动态调节探索强度。此外，为了解决稀疏或特定于任务的奖励的局限性，我们设计了一种新颖的混合密集奖励函数，该函数集成了轨迹级奖励和子任务级奖励。最后，我们构建了一个三阶段RL系统，包括SFT、离线RL和人机协作RL，用于微调VLA模型。在四个具有挑战性的长时程任务上的大量真实世界实验表明，IG-RFT实现了平均85.0%的成功率，显著优于SFT（18.8%）和标准离线RL基线（40.0%）。消融研究证实了IG-AWR和混合奖励塑造的关键贡献。总之，我们的工作建立并验证了一种用于真实世界机器人操作中VLA模型的新型强化微调系统。

🔬 方法详解

问题定义：现有VLA模型在长时程机器人操作任务中，难以泛化到新的真实世界环境。主要痛点在于数据分布偏移、高质量演示数据稀缺，以及强化学习微调过程中的探索效率低、训练不稳定和样本成本高昂。

核心思路：论文的核心思路是通过强化学习（RL）微调VLA模型，并引入交互引导机制来提升RL的效率和稳定性。具体来说，根据机器人的交互状态动态调节探索强度，并设计混合密集奖励函数来克服稀疏奖励的局限性。

技术框架：IG-RFT框架包含三个主要阶段：1) SFT（Supervised Fine-Tuning）：使用少量高质量演示数据对VLA模型进行监督微调，作为RL的初始化策略。2) 离线RL：利用离线数据集进行策略学习，提高样本利用率。3) 人机协作RL：引入人工干预，进一步优化策略，解决探索难题。框架的核心是IG-AWR算法和混合奖励函数。

关键创新：论文的关键创新在于提出了交互引导优势加权回归（IG-AWR）算法和混合密集奖励函数。IG-AWR根据机器人的交互状态动态调节探索强度，鼓励机器人探索更有价值的状态空间。混合奖励函数结合了轨迹级奖励和子任务级奖励，克服了稀疏奖励带来的训练难题。

关键设计：IG-AWR算法通过一个动态调整的温度参数来控制探索强度，该参数基于机器人与环境的交互状态进行调整。混合奖励函数由轨迹级别的稀疏奖励和子任务级别的密集奖励组成，其中子任务奖励的设计需要根据具体任务进行调整。三阶段训练策略也至关重要，SFT提供良好的初始化，离线RL提高样本效率，人机协作RL解决探索问题。

🖼️ 关键图片

📊 实验亮点

在四个具有挑战性的长时程机器人操作任务上，IG-RFT取得了显著的性能提升。平均成功率达到85.0%，显著优于SFT（18.8%）和标准离线RL基线（40.0%）。消融实验证明了IG-AWR算法和混合奖励函数的有效性，表明它们对整体性能提升至关重要。

🎯 应用场景

该研究成果可应用于各种长时程机器人操作任务，例如装配、抓取、导航等。通过提升VLA模型在真实世界环境中的泛化能力，可以降低机器人部署成本，提高自动化水平，并促进机器人技术在制造业、物流、医疗等领域的广泛应用。

📄 摘要（原文）

Vision-Language-Action (VLA) models have demonstrated significant potential for generalist robotic policies; however, they struggle to generalize to long-horizon complex tasks in novel real-world domains due to distribution shifts and the scarcity of high-quality demonstrations. Although reinforcement learning (RL) offers a promising avenue for policy improvement, applying it to real-world VLA fine-tuning faces challenges regarding exploration efficiency, training stability, and sample cost. To address these issues, we propose IG-RFT, a novel Interaction-Guided Reinforced Fine-Tuning system designed for flow-based VLA models. Firstly, to facilitate effective policy optimization, we introduce Interaction-Guided Advantage Weighted Regression (IG-AWR), an RL algorithm that dynamically modulates exploration intensity based on the robot's interaction status. Furthermore, to address the limitations of sparse or task-specific rewards, we design a novel hybrid dense reward function that integrates the trajectory-level reward and the subtask-level reward. Finally, we construct a three-stage RL system comprising SFT, Offline RL, and Human-in-the-Loop RL for fine-tuning VLA models. Extensive real-world experiments on four challenging long-horizon tasks demonstrate that IG-RFT achieves an average success rate of 85.0%, significantly outperforming SFT (18.8%) and standard Offline RL baselines (40.0%). Ablation studies confirm the critical contributions of IG-AWR and hybrid reward shaping. In summary, our work establishes and validates a novel reinforced fine-tuning system for VLA models in real-world robotic manipulation.

IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理