Interactive Post-Training for Vision-Language-Action Models

作者: Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl

分类: cs.LG, cs.AI, cs.CV, cs.RO

发布日期: 2025-05-22

备注: Project page: https://ariostgx.github.io/ript_vla/

💡 一句话要点

提出RIPT-VLA，通过交互式后训练提升视觉-语言-动作模型的性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 强化学习 交互式后训练 策略优化 动态rollout采样

📋 核心要点

现有VLA模型训练依赖大量专家数据和模仿学习，难以适应新任务和低数据场景。
RIPT-VLA通过强化学习进行交互式后训练，仅需稀疏奖励即可优化VLA模型。
实验表明，RIPT-VLA能显著提升VLA模型性能，且具有良好的泛化性和鲁棒性。

📝 摘要（中文）

本文提出了一种基于强化学习的交互式后训练范式RIPT-VLA，它仅使用稀疏的二元成功奖励来微调预训练的视觉-语言-动作（VLA）模型。现有的VLA训练流程严重依赖离线专家演示数据和监督模仿学习，这限制了它们在低数据情况下适应新任务和环境的能力。RIPT-VLA通过基于动态rollout采样和留一法优势估计的稳定策略优化算法，实现交互式后训练来解决这个问题。

🔬 方法详解

问题定义：现有的视觉-语言-动作（VLA）模型训练方法主要依赖于大量的离线专家演示数据和监督模仿学习。这种方式的缺点在于，模型难以适应新的任务和环境，尤其是在数据量较少的情况下，模型的泛化能力会受到限制。因此，如何使VLA模型在低数据情况下，快速适应新的任务和环境是一个重要的挑战。

核心思路：RIPT-VLA的核心思路是利用强化学习进行交互式后训练。通过与环境进行交互，并根据稀疏的二元成功奖励来优化VLA模型的策略。这种方式可以有效地利用环境反馈，使模型能够更好地适应新的任务和环境，并且只需要少量的训练数据。

技术框架：RIPT-VLA的整体框架包括以下几个主要模块：1) VLA模型：作为策略网络，接收视觉和语言输入，输出动作。2) 强化学习算法：基于动态rollout采样和留一法优势估计的策略优化算法，用于更新VLA模型的参数。3) 环境：提供交互接口，接收VLA模型输出的动作，并返回状态和奖励。4) 奖励函数：提供稀疏的二元成功奖励，用于指导VLA模型的学习。整个流程是，VLA模型根据当前状态输出动作，环境执行动作并返回新的状态和奖励，强化学习算法根据奖励更新VLA模型的参数，重复这个过程直到模型收敛。

关键创新：RIPT-VLA的关键创新在于其交互式后训练范式和基于动态rollout采样和留一法优势估计的策略优化算法。交互式后训练范式使得模型能够直接与环境进行交互，从而更好地适应新的任务和环境。动态rollout采样可以有效地探索环境，提高学习效率。留一法优势估计可以减少方差，提高策略优化的稳定性。

关键设计：RIPT-VLA的关键设计包括：1) 动态rollout采样：根据当前策略的性能动态调整rollout的长度，以平衡探索和利用。2) 留一法优势估计：通过排除当前样本的影响来估计优势函数，从而减少方差。3) 稀疏二元奖励：只提供成功或失败的奖励，避免引入额外的偏差。4) 策略优化算法：采用TRPO或PPO等稳定的策略优化算法，以保证训练的稳定性。

🖼️ 关键图片

📊 实验亮点

RIPT-VLA在多个VLA模型上取得了显著的性能提升。例如，在轻量级的QueST模型上，RIPT-VLA使其性能提升了21.2%。在7B OpenVLA-OFT模型上，RIPT-VLA使其成功率达到了前所未有的97.5%。更重要的是，RIPT-VLA仅需少量数据即可实现显著的性能提升，例如，仅使用一个演示，RIPT-VLA就能使一个原本成功率只有4%的SFT模型在15次迭代后达到97%的成功率。

🎯 应用场景

RIPT-VLA具有广泛的应用前景，例如机器人操作、自动驾驶、游戏AI等领域。它可以帮助VLA模型快速适应新的任务和环境，提高模型的泛化能力和鲁棒性。此外，RIPT-VLA还可以降低VLA模型的训练成本，减少对大量专家数据的依赖。

📄 摘要（原文）

We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based interactive post-training paradigm that fine-tunes pretrained Vision-Language-Action (VLA) models using only sparse binary success rewards. Existing VLA training pipelines rely heavily on offline expert demonstration data and supervised imitation, limiting their ability to adapt to new tasks and environments under low-data regimes. RIPT-VLA addresses this by enabling interactive post-training with a stable policy optimization algorithm based on dynamic rollout sampling and leave-one-out advantage estimation. RIPT-VLA has the following characteristics. First, it applies to various VLA models, resulting in an improvement on the lightweight QueST model by 21.2%, and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it is computationally efficient and data-efficient: with only one demonstration, RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success rate within 15 iterations. Furthermore, we demonstrate that the policy learned by RIPT-VLA generalizes across different tasks and scenarios and is robust to the initial state context. These results highlight RIPT-VLA as a practical and effective paradigm for post-training VLA models through minimal supervision.

Interactive Post-Training for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理