SOLE-R1: Video-Language Reasoning as the Sole Reward for On-Robot Reinforcement Learning
作者: Philip Schroeder, Thomas Weng, Karl Schmeckpeper, Eric Rosen, Stephen Hart, Ondrej Biza
分类: cs.RO, cs.CL, cs.CV
发布日期: 2026-03-30
💡 一句话要点
SOLE-R1:利用视频-语言推理作为机器人强化学习的唯一奖励信号
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人强化学习 视频语言推理 思维链 零样本学习 奖励函数 时空推理 机器人操作
📋 核心要点
- 现有视觉-语言模型在强化学习中作为奖励函数时,在部分可观测性和分布偏移下表现不佳,导致策略利用感知错误而非解决任务。
- SOLE-R1通过时空思维链推理生成密集奖励,并使用大规模合成数据和混合训练框架,提升了模型在在线强化学习中的性能。
- 实验表明,SOLE-R1在模拟和真实机器人环境中,无需人工奖励即可完成未见过的操作任务,且优于GPT-5和Gemini-3-Pro等模型。
📝 摘要(中文)
本文提出了一种名为SOLE-R1(自观测学习器)的视频-语言推理模型,专门设计用于作为在线强化学习的唯一奖励信号。给定原始视频观测和自然语言目标,SOLE-R1执行逐时间步的时空思维链(CoT)推理,并生成任务进度的密集估计,可直接用作奖励。为了训练SOLE-R1,开发了一个大规模的视频轨迹和推理合成流程,生成与连续进度监督对齐的时间对齐的CoT轨迹。该数据与基础的空间和多帧时间推理相结合,并使用混合框架训练模型,该框架将监督微调与来自可验证奖励的强化学习相结合。在四个不同的模拟环境和一个真实机器人环境中,SOLE-R1实现了从随机初始化开始的零样本在线强化学习:机器人在没有真实奖励、成功指标、演示或特定于任务的调整的情况下学习以前未见过的操作任务。SOLE-R1在24个未见过的任务上取得了成功,并且显著优于强大的视觉-语言奖励器,包括GPT-5和Gemini-3-Pro,同时对奖励黑客攻击表现出明显更强的鲁棒性。
🔬 方法详解
问题定义:现有方法在机器人强化学习中,依赖人工设计的奖励函数或稀疏的成功信号,难以泛化到新任务。直接使用预训练的视觉-语言模型作为奖励函数,容易受到感知误差和分布偏移的影响,导致策略利用这些误差而非真正解决任务。
核心思路:SOLE-R1的核心思路是利用视频-语言模型进行时空推理,生成密集的、与任务进度相关的奖励信号。通过思维链(CoT)推理,模型能够逐步分析视频帧,理解任务状态,并预测下一步动作的合理性,从而提供更准确的奖励。
技术框架:SOLE-R1的整体框架包括三个主要部分:1) 大规模视频轨迹和推理合成流程,用于生成训练数据;2) 基于视觉-语言模型的时空思维链推理模块,用于生成奖励信号;3) 混合训练框架,结合监督微调和强化学习,优化模型性能。具体流程是,给定视频观测和自然语言目标,模型首先进行时空推理,生成CoT轨迹和奖励估计,然后使用这些奖励信号训练强化学习策略。
关键创新:SOLE-R1的关键创新在于其将视频-语言推理作为强化学习的唯一奖励信号。与传统的基于人工设计的奖励函数或稀疏奖励的方法不同,SOLE-R1能够自动从视频中学习任务的语义信息,并生成密集的奖励信号,从而提高学习效率和泛化能力。此外,大规模合成数据的生成和混合训练框架也为模型的训练提供了有效的支持。
关键设计:SOLE-R1的关键设计包括:1) 使用Transformer架构的视觉-语言模型,用于进行时空推理;2) 设计了特定的损失函数,用于监督微调和强化学习;3) 开发了大规模视频轨迹和推理合成流程,生成包含CoT轨迹的训练数据。具体参数设置和网络结构细节未在摘要中详细说明,需要参考论文全文。
📊 实验亮点
SOLE-R1在24个未见过的任务上取得了成功,并且显著优于强大的视觉-语言奖励器,包括GPT-5和Gemini-3-Pro。实验结果表明,SOLE-R1能够从随机初始化开始,在没有真实奖励、成功指标、演示或特定于任务的调整的情况下学习以前未见过的操作任务。此外,SOLE-R1对奖励黑客攻击表现出明显更强的鲁棒性。
🎯 应用场景
SOLE-R1具有广泛的应用前景,可用于各种机器人操作任务,如物体抓取、装配、导航等。该方法无需人工设计奖励函数,降低了机器人学习的门槛,并提高了机器人在复杂环境中的适应能力。未来,SOLE-R1有望应用于智能制造、家庭服务、医疗健康等领域,实现机器人的自主学习和智能化。
📄 摘要(原文)
Vision-language models (VLMs) have shown impressive capabilities across diverse tasks, motivating efforts to leverage these models to supervise robot learning. However, when used as evaluators in reinforcement learning (RL), today's strongest models often fail under partial observability and distribution shift, enabling policies to exploit perceptual errors rather than solve the task. To address this limitation, we introduce SOLE-R1 (Self-Observing LEarner), a video-language reasoning model explicitly designed to serve as the sole reward signal for online RL. Given only raw video observations and a natural-language goal, SOLE-R1 performs per-timestep spatiotemporal chain-of-thought (CoT) reasoning and produces dense estimates of task progress that can be used directly as rewards. To train SOLE-R1, we develop a large-scale video trajectory and reasoning synthesis pipeline that generates temporally grounded CoT traces aligned with continuous progress supervision. This data is combined with foundational spatial and multi-frame temporal reasoning, and used to train the model with a hybrid framework that couples supervised fine-tuning with RL from verifiable rewards. Across four different simulation environments and a real-robot setting, SOLE-R1 enables zero-shot online RL from random initialization: robots learn previously unseen manipulation tasks without ground-truth rewards, success indicators, demonstrations, or task-specific tuning. SOLE-R1 succeeds on 24 unseen tasks and substantially outperforms strong vision-language rewarders, including GPT-5 and Gemini-3-Pro, while exhibiting markedly greater robustness to reward hacking.