RoboReward: General-Purpose Vision-Language Reward Models for Robotics
作者: Tony Lee, Andrew Wagenmaker, Karl Pertsch, Percy Liang, Sergey Levine, Chelsea Finn
分类: cs.RO
发布日期: 2026-01-02
💡 一句话要点
RoboReward:面向机器人通用的视觉-语言奖励模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人强化学习 视觉-语言模型 奖励函数 负样本增强 机器人数据集
📋 核心要点
- 现有机器人强化学习依赖人工标注或手工设计的奖励函数,成本高且泛化性差。
- 论文提出RoboReward数据集和视觉-语言奖励模型,利用负样本增强提升模型性能。
- 实验表明,RoboReward模型在真实机器人任务中优于现有VLM,并缩小了与人工奖励的差距。
📝 摘要(中文)
设计良好的奖励函数对于基于强化学习的策略提升至关重要。在现实机器人领域,获取此类奖励通常需要耗费大量人力进行标注,或者依赖脆弱的手工设计目标。视觉-语言模型(VLM)已展现出作为自动奖励模型的潜力,但其在真实机器人任务中的有效性尚不明确。本文旨在通过引入(1)RoboReward,一个基于Open X-Embodiment (OXE)和RoboArena的大规模真实机器人语料库构建的机器人奖励数据集和基准,以及(2)基于该数据集训练的视觉-语言奖励模型(RoboReward 4B/8B)来弥合这一差距。由于OXE主要包含成功案例,缺乏失败案例,我们提出了一种负样本数据增强流程,通过对成功案例进行反事实重标记和时间裁剪来生成校准的负样本和近失样本。利用该框架,我们生成了一个广泛的训练和评估数据集,涵盖了各种任务和机器人形态,并能够系统地评估最先进的VLM是否能够可靠地为机器人提供奖励。对领先的开源和专有VLM的评估表明,没有一个模型在所有任务中都表现出色,这表明仍有很大的改进空间。我们训练了通用的4B和8B参数模型,这些模型在为短时程机器人任务分配奖励方面优于更大的VLM。最后,我们将8B参数奖励VLM部署在真实机器人强化学习中,发现它比在机器人数据上训练的前沿物理推理VLM Gemini Robotics-ER 1.5在策略学习方面有显著提升,同时大大缩小了与人工提供奖励的强化学习训练之间的差距。
🔬 方法详解
问题定义:现有机器人强化学习任务中,奖励函数的设计是一个瓶颈。人工标注成本高昂,且难以泛化到新的任务和环境。手工设计的奖励函数则往往过于简单,无法准确反映任务的复杂性,导致策略学习效果不佳。此外,现有数据集往往缺乏失败案例,不利于奖励模型的训练。
核心思路:论文的核心思路是利用视觉-语言模型(VLM)自动生成奖励函数,并使用负样本数据增强技术来提高奖励模型的准确性和鲁棒性。通过学习大量机器人任务的视觉和语言信息,VLM能够理解任务目标,并根据机器人的行为给出相应的奖励。负样本数据增强则可以帮助模型更好地区分成功和失败的案例,从而提高奖励的准确性。
技术框架:整体框架包括数据收集、数据增强、模型训练和模型评估四个主要阶段。首先,从Open X-Embodiment (OXE)和RoboArena等现有机器人数据集中收集大量机器人任务的视频和文本描述。然后,使用负样本数据增强技术,包括反事实重标记和时间裁剪,生成负样本和近失样本。接着,使用增强后的数据集训练视觉-语言奖励模型。最后,在真实机器人任务中评估奖励模型的性能。
关键创新:论文的关键创新在于提出了负样本数据增强流程,该流程能够有效地生成校准的负样本和近失样本,从而提高奖励模型的准确性和鲁棒性。此外,论文还构建了一个大规模的机器人奖励数据集和基准RoboReward,为未来的研究提供了便利。
关键设计:负样本数据增强流程包括反事实重标记和时间裁剪。反事实重标记是指将成功案例中的某些行为进行修改,使其变成失败案例。时间裁剪是指将成功案例进行裁剪,使其只包含部分进展,从而生成近失样本。奖励模型采用Transformer架构,输入为机器人任务的视频和文本描述,输出为奖励值。损失函数采用对比损失,鼓励模型将成功案例的奖励值设置为高,将失败案例的奖励值设置为低。
📊 实验亮点
实验结果表明,RoboReward模型在短时程机器人任务中优于更大的VLM。在真实机器人强化学习中,使用RoboReward 8B参数奖励VLM进行策略学习,比Gemini Robotics-ER 1.5有显著提升,并大大缩小了与人工提供奖励的强化学习训练之间的差距。
🎯 应用场景
该研究成果可广泛应用于机器人强化学习领域,例如机器人操作、导航和控制等。通过自动生成奖励函数,可以降低机器人强化学习的成本,提高策略学习的效率和泛化性。此外,该研究还可以促进人机协作和机器人自主学习等领域的发展。
📄 摘要(原文)
A well-designed reward is critical for effective reinforcement learning-based policy improvement. In real-world robotic domains, obtaining such rewards typically requires either labor-intensive human labeling or brittle, handcrafted objectives. Vision-language models (VLMs) have shown promise as automatic reward models, yet their effectiveness on real robot tasks is poorly understood. In this work, we aim to close this gap by introducing (1) \textbf{RoboReward}, a robotics reward dataset and benchmark built on large-scale real-robot corpora from Open X-Embodiment (OXE) and RoboArena, and (2) vision-language reward models trained on this dataset (RoboReward 4B/8B). Because OXE is success-heavy and lacks failure examples, we propose a \emph{negative examples data augmentation} pipeline that generates calibrated \emph{negatives} and \emph{near-misses} via counterfactual relabeling of successful episodes and temporal clipping to create partial-progress outcomes from the same videos. Using this framework, we produce an extensive training and evaluation dataset that spans diverse tasks and embodiments and enables systematic evaluation of whether state-of-the-art VLMs can reliably provide rewards for robotics. Our evaluation of leading open-weight and proprietary VLMs reveals that no model excels across all tasks, underscoring substantial room for improvement. We then train general-purpose 4B- and 8B-parameter models that outperform much larger VLMs in assigning rewards for short-horizon robotic tasks. Finally, we deploy the 8B-parameter reward VLM in real-robot reinforcement learning and find that it improves policy learning over Gemini Robotics-ER 1.5, a frontier physical reasoning VLM trained on robotics data, by a large margin, while substantially narrowing the gap to RL training with human-provided rewards.