Feat2Go: Visual Feature-Grounded Value Estimation for Embodied Reinforcement Learning
作者: Junyang Shu, Zhiwei Lin, Bingqing Wei, Yongtao Wang
分类: cs.RO
发布日期: 2026-05-29
💡 一句话要点
Feat2Go:基于视觉特征的价值估计,提升具身强化学习性能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身强化学习 视觉语言动作模型 价值估计 视觉世界模型 奖励重塑
📋 核心要点
- 现有VLA模型的强化学习受限于稀疏监督和长时程操作中信息量大的奖励信号难以设计。
- Feat2Go通过视觉世界模型提取连续进度目标,并训练价值模型预测结构化进度,重塑奖励函数。
- 实验表明,Feat2Go在ManiSkill3和RoboTwin 2.0上显著提升了VLA模型的操作成功率。
📝 摘要(中文)
本文提出了一种名为Feat2Go的细粒度价值估计框架,用于具身强化学习,旨在提升视觉-语言-动作(VLA)模型的性能,同时避免模仿学习对大量数据的需求。Feat2Go首先从预训练的视觉世界模型中推导出连续的进度目标,通过测量patch级别的相似度来确定子目标状态,并使用基于趋势的聚类将episode划分为语义阶段。然后,训练一个具身价值模型,从当前观察和任务指令中预测这种结构化的进度,并使用预测的价值来重塑策略优化期间的终端奖励。该框架与现有的VLA策略强化学习流程(包括PPO和GRPO)兼容,且不依赖于手动设计的奖励函数。在ManiSkill3和RoboTwin 2.0上的大量实验表明,Feat2Go能够持续提升现有VLA模型在单臂和双臂操作设置下的性能。具体而言,在ManiSkill3上,Feat2Go将OpenVLAOFT的平均域外成功率从17.5%提高到82.9%,同时保持了96.9%的域内性能。在RoboTwin 2.0上,Feat2Go在域随机任务设置中实现了88.8%的平均成功率,优于先前的强化学习方法。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型的强化学习面临两大挑战:一是监督信号稀疏,难以有效训练;二是对于长时程操作任务,手动设计信息量丰富的奖励函数非常困难,导致学习效率低下。这些问题限制了VLA模型在复杂操作任务中的应用。
核心思路:Feat2Go的核心思路是利用预训练的视觉世界模型,自动生成一个连续的、结构化的进度目标,作为强化学习的辅助信号。通过衡量当前状态与子目标状态的视觉相似度,并结合趋势聚类,将整个episode分解为不同的语义阶段,从而为价值估计提供更细粒度的信息。
技术框架:Feat2Go框架主要包含以下几个阶段:1) 进度目标生成:利用预训练的视觉世界模型,计算当前状态与子目标状态的patch级别相似度,得到连续的进度目标。2) 语义阶段划分:使用基于趋势的聚类算法,将episode划分为不同的语义阶段,例如“拿起”、“放置”等。3) 价值模型训练:训练一个具身价值模型,输入为当前观察和任务指令,输出为预测的结构化进度。4) 奖励重塑:利用价值模型预测的进度,重塑强化学习的终端奖励,引导策略优化。
关键创新:Feat2Go的关键创新在于利用视觉世界模型自动生成细粒度的进度目标,避免了手动设计奖励函数的繁琐过程。通过将episode分解为语义阶段,价值模型能够更准确地预测当前状态的进度,从而提供更有效的奖励信号。此外,Feat2Go框架与现有的VLA策略强化学习流程兼容,易于集成。
关键设计:在进度目标生成阶段,使用了patch级别的相似度计算,以捕捉更细微的视觉变化。在语义阶段划分阶段,使用了基于趋势的聚类算法,以确保阶段划分的合理性。价值模型通常采用Transformer结构,以捕捉视觉和语言信息之间的关系。奖励重塑采用加权求和的方式,平衡原始奖励和价值模型预测的进度。
🖼️ 关键图片
📊 实验亮点
Feat2Go在ManiSkill3和RoboTwin 2.0两个机器人操作benchmark上进行了验证。在ManiSkill3上,Feat2Go将OpenVLAOFT的平均域外成功率从17.5%显著提升至82.9%,同时保持了96.9%的域内性能。在RoboTwin 2.0上,Feat2Go在域随机任务设置中实现了88.8%的平均成功率,超越了现有的强化学习方法,证明了其在复杂操作任务中的有效性。
🎯 应用场景
Feat2Go框架具有广泛的应用前景,可用于提升机器人操作、自动驾驶、游戏AI等领域的VLA模型性能。通过自动生成细粒度的进度目标,降低了强化学习对人工设计的依赖,使得VLA模型能够更好地适应复杂、长时程的任务,实现更智能、更自主的操作。
📄 摘要(原文)
Reinforcement learning is a promising approach for improving the capabilities of vision-language-action (VLA) models while avoiding the heavy data requirements of imitation learning. However, its effectiveness for VLA models is often constrained by sparse supervision and the difficulty of designing informative reward signals for long-horizon manipulation. In this work, we present Feat2Go, a fine-grained value estimation framework for embodied reinforcement learning. Specifically, Feat2Go first derives a continuous progress target from a pretrained visual world model by measuring patch-level similarity to subgoal states and partitioning episodes into semantic stages with trend-based clustering. We then train an embodied value model to predict this structural progress from the current observation and task instruction, and use the predicted value to reshape terminal rewards during policy optimization. The proposed framework is compatible with existing VLA policy reinforcement learning pipelines, including PPO and GRPO, and does not rely on manual reward engineering. Extensive experiments on ManiSkill3 and RoboTwin 2.0 demonstrate that Feat2Go consistently improves the performance of existing VLA models under both single-arm and bimanual manipulation settings. More specifically, on ManiSkill3, Feat2Go improves OpenVLAOFT from 17.5% to 82.9% average out-of-distribution success while retaining 96.9% in-distribution performance. On RoboTwin 2.0, Feat2Go achieves an average success rate of 88.8% in domain-randomized task settings, outperforming prior reinforcement learning methods.