From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

作者: Yibin Liu, Yaxing Lyu, Daqi Gao, Zhixuan Liang, Weiliang Tang, Shilong Mu, Xiaokang Yang, Yao Mu

分类: cs.RO, cs.AI, cs.CL, cs.CV

发布日期: 2026-03-16

备注: 31 pages

💡 一句话要点

PRIMO R1：强化学习驱动视频MLLM进行机器人操作过程推理与监督

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 过程推理 强化学习 视频MLLM 思维链 长时程任务 故障检测

📋 核心要点

现有视频MLLM主要通过监督微调训练，只能被动识别事件，无法评估当前状态与最终目标的关系，限制了长时程机器人操作的过程监督。
PRIMO R1利用强化学习激励视频MLLM生成思维链，进行过程推理和进度估计，并构建结构化时间输入，提升模型对任务状态的理解。
实验表明，PRIMO R1在过程推理和故障检测任务中均取得了SOTA性能，显著优于现有通用MLLM和专用推理模型。

📝 摘要（中文）

本文提出PRIMO R1，一个7B框架，旨在将视频多模态大语言模型(MLLM)从被动的“观察者”转变为主动的“评论者”，从而解决长时程机器人操作中精确过程监督的关键挑战。PRIMO R1利用基于结果的强化学习，激励模型生成显式的思维链(Chain-of-Thought)以进行进度估计。此外，该架构通过显式地将视频序列锚定在初始状态和当前状态图像之间，构建结构化的时间输入。在PRIMO数据集和基准测试的支持下，广泛的实验表明，PRIMO R1在各种领域内环境和领域外真实世界人形机器人场景中均实现了最先进的性能。量化结果表明，7B模型在专门推理基线的平均绝对误差方面降低了50%，相对于72B规模的通用MLLM，实现了显著的相对精度提升。此外，PRIMO R1在困难的故障检测任务中表现出强大的零样本泛化能力，在RoboFail基准测试中以67.0%的准确率达到了最先进的性能，超过了OpenAI o1等闭源模型6.0%。

🔬 方法详解

问题定义：长时程机器人操作任务需要精确的过程监督，而现有的视频MLLM主要作为被动观察者，缺乏对任务进展的评估能力。它们难以理解当前状态与最终目标之间的关系，导致无法有效地进行过程监控和故障检测。现有方法依赖于监督微调，难以泛化到新的任务和环境，并且缺乏显式的推理过程。

核心思路：PRIMO R1的核心思路是将视频MLLM转变为主动的“评论者”，使其能够像人类专家一样，通过显式的思维链进行过程推理和进度估计。通过强化学习，模型可以学习到如何根据当前状态和目标状态，生成有意义的推理步骤，从而更好地理解任务的进展情况。这种方法鼓励模型主动思考，而不仅仅是被动地识别事件。

技术框架：PRIMO R1的整体架构包括以下几个主要模块：1) 视频编码器：用于提取视频帧的视觉特征。2) 状态编码器：用于编码初始状态和当前状态的图像。3) MLLM：作为核心推理引擎，接收视频特征和状态编码，生成思维链。4) 强化学习模块：用于训练MLLM，使其能够生成更准确和有用的思维链。整个流程是，给定初始状态和当前状态的图像，以及视频序列，模型首先提取视觉特征，然后将这些特征输入到MLLM中，MLLM生成思维链，强化学习模块根据思维链的质量和任务的完成情况，更新MLLM的参数。

关键创新：PRIMO R1最重要的技术创新点在于使用强化学习来训练视频MLLM进行过程推理。与传统的监督微调方法不同，强化学习能够更好地激励模型生成显式的思维链，从而提高模型对任务进展的理解能力。此外，通过显式地将视频序列锚定在初始状态和当前状态图像之间，PRIMO R1构建了结构化的时间输入，使得模型能够更好地利用时间信息。

关键设计：PRIMO R1的关键设计包括：1) 使用基于结果的强化学习，奖励模型生成能够准确估计任务进度的思维链。2) 设计了PRIMO数据集和基准测试，用于评估模型的过程推理能力。3) 采用了7B参数规模的MLLM，在计算资源和性能之间取得了平衡。4) 使用了特定的损失函数，例如交叉熵损失和强化学习奖励函数，来训练模型。

📊 实验亮点

PRIMO R1在PRIMO数据集和RoboFail基准测试中取得了显著的性能提升。在过程推理任务中，7B模型在平均绝对误差方面降低了50%，超过了72B规模的通用MLLM。在RoboFail基准测试中，PRIMO R1以67.0%的准确率达到了最先进的性能，超过了OpenAI o1等闭源模型6.0%。这些结果表明，PRIMO R1在过程推理和故障检测方面具有强大的能力。

🎯 应用场景

PRIMO R1具有广泛的应用前景，可应用于各种需要长时程操作和精确过程监督的机器人任务中，例如装配、烹饪、医疗手术等。该研究有助于提高机器人的自主性和智能化水平，使其能够更好地适应复杂和动态的环境。未来，PRIMO R1可以进一步扩展到其他领域，例如智能制造、自动驾驶等。

📄 摘要（原文）

Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.

From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理