SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

作者: Qianzhong Chen, Hau Zheng, Justin Yu, Suning Huang, Jiankai Sun, Ken Goldberg, Chuan Wen, Pieter Abbeel, Yide Shentu, Philipp Wu, Mac Schwager

分类: cs.RO

发布日期: 2026-06-09

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出SARM2以解决长时间操作中的奖励建模问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长时间操作 奖励建模 多任务学习 机器人操作 自我改进

📋 核心要点

现有的长时间操作策略微调方法依赖于行为克隆，需高质量示范，限制了策略的灵活性和适应性。
本文提出了RM，一个结合动作原语和多门混合专家的多任务阶段感知奖励模型，旨在提供密集且准确的奖励信号。
在实验中，RM显著降低了价值估计的均方误差，并在SPIRAL框架中提高了任务成功率，验证了其有效性。

📝 摘要（中文）

在长时间操作的视觉-语言-动作（VLA）策略微调中，现有方法依赖于行为克隆，需高质量示范且限制策略分布。奖励模型通过重加权示范和提供密集监督来减少这种依赖，但现有方法在准确性和通用性上存在不足。本文提出了RM，一个多任务阶段感知奖励模型，结合了基于动作原语的阶段估计器和多门混合专家（MMoE）价值头，能够在操作任务中生成密集的逐步奖励。此外，基于RM，我们进一步提出了SPIRAL（通过奖励对齐学习自我策略改进），该框架通过廉价的自主回放来改进VLA策略。在10项任务基准测试中，RM将价值估计均方误差降低了80%，在SPIRAL中，任务成功率从约50%提升至接近完美的表现，显示出高质量密集奖励对稳定机器人数据循环的关键作用。

🔬 方法详解

问题定义：本文旨在解决长时间操作中的奖励建模问题，现有方法依赖于行为克隆，导致策略灵活性不足，且奖励信号稀疏，难以支持复杂任务的学习。

核心思路：提出RM模型，通过结合动作原语的阶段估计和多门混合专家（MMoE）结构，生成密集的逐步奖励，旨在提高奖励信号的准确性和通用性。

技术框架：RM模型包括两个主要模块：第一是基于动作原语的阶段估计器，负责识别当前操作的阶段；第二是MMoE价值头，根据不同任务动态生成奖励信号。SPIRAL框架则在此基础上，通过自主回放来优化策略。

关键创新：RM模型的创新在于其多任务阶段感知能力，能够在不需要每个任务单独标注的情况下，提供准确的奖励信号。这一设计使得模型在多任务环境中表现出更好的适应性。

关键设计：模型的关键设计包括多门混合专家的结构，允许模型根据输入动态选择专家进行奖励计算。此外，损失函数的设计也经过优化，以确保奖励信号的密集性和准确性。

🖼️ 关键图片

📊 实验亮点

在实验中，RM模型将价值估计的均方误差降低了80%，在SPIRAL框架中，任务成功率显著提升，从约50%提高到接近完美的表现，尤其在折叠短裤和清洁白板任务中，成功率分别从58%提升至100%和从50%提升至90%。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动化制造和服务机器人等。通过提高机器人在复杂操作中的学习能力，能够显著提升其在实际应用中的表现和效率，推动智能自动化的发展。未来，该技术有望在更多领域实现广泛应用，提升人机协作的智能化水平。

📄 摘要（原文）

Fine-tuning vision-language-action (VLA) policies for long-horizon manipulation still relies heavily on behavior cloning, which requires costly high-quality demonstrations and keeps policies near the demonstration distribution. Reward models can reduce this dependence by reweighting demonstrations and providing dense supervision for on-robot reinforcement learning (RL), but they must be dense, accurate, and general. Existing methods fall short: task-specific stage-aware models are accurate but require per-task annotations, while general vision-language-model (VLM) reward models are broadly applicable but too coarse for fine-grained long-horizon progress. We introduce RM, a multi-task stage-aware reward model that combines an action-primitive-based stage estimator with a multi-gate Mixture-of-Experts (MMoE) value head to produce dense per-step rewards across manipulation tasks. Building on RM, we further propose SPIRAL (Self-Policy Improvement via Reward-Aligned Learning), an on-policy reward-guided framework that improves VLA policies from cheap autonomous rollouts. On a 10-task benchmark, RM reduces value-estimation MSE by 80% over the strongest baselines; when used in SPIRAL, it improves task success from around 50% to near-perfect performance on Folding Shorts (58% to 100%) and Cleaning Whiteboard (50% to 90%), showing that high-quality dense rewards are key to a stable robot data flywheel. Project website: https://qianzhong-chen.github.io/sarm2.github.io/.

SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理