SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

📄 arXiv: 2606.10305v1 📥 PDF

作者: Qianzhong Chen, Hau Zheng, Justin Yu, Suning Huang, Jiankai Sun, Ken Goldberg, Chuan Wen, Pieter Abbeel, Yide Shentu, Philipp Wu, Mac Schwager

分类: cs.RO

发布日期: 2026-06-09

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SARM2以解决长时间操作中的奖励建模问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时间操作 奖励建模 多任务学习 机器人操作 自我改进

📋 核心要点

  1. 现有的长时间操作策略微调方法依赖于行为克隆,需高质量示范,限制了策略的灵活性和适应性。
  2. 本文提出了RM,一个结合动作原语和多门混合专家的多任务阶段感知奖励模型,旨在提供密集且准确的奖励信号。
  3. 在实验中,RM显著降低了价值估计的均方误差,并在SPIRAL框架中提高了任务成功率,验证了其有效性。

📝 摘要(中文)

在长时间操作的视觉-语言-动作(VLA)策略微调中,现有方法依赖于行为克隆,需高质量示范且限制策略分布。奖励模型通过重加权示范和提供密集监督来减少这种依赖,但现有方法在准确性和通用性上存在不足。本文提出了RM,一个多任务阶段感知奖励模型,结合了基于动作原语的阶段估计器和多门混合专家(MMoE)价值头,能够在操作任务中生成密集的逐步奖励。此外,基于RM,我们进一步提出了SPIRAL(通过奖励对齐学习自我策略改进),该框架通过廉价的自主回放来改进VLA策略。在10项任务基准测试中,RM将价值估计均方误差降低了80%,在SPIRAL中,任务成功率从约50%提升至接近完美的表现,显示出高质量密集奖励对稳定机器人数据循环的关键作用。

🔬 方法详解

问题定义:本文旨在解决长时间操作中的奖励建模问题,现有方法依赖于行为克隆,导致策略灵活性不足,且奖励信号稀疏,难以支持复杂任务的学习。

核心思路:提出RM模型,通过结合动作原语的阶段估计和多门混合专家(MMoE)结构,生成密集的逐步奖励,旨在提高奖励信号的准确性和通用性。

技术框架:RM模型包括两个主要模块:第一是基于动作原语的阶段估计器,负责识别当前操作的阶段;第二是MMoE价值头,根据不同任务动态生成奖励信号。SPIRAL框架则在此基础上,通过自主回放来优化策略。

关键创新:RM模型的创新在于其多任务阶段感知能力,能够在不需要每个任务单独标注的情况下,提供准确的奖励信号。这一设计使得模型在多任务环境中表现出更好的适应性。

关键设计:模型的关键设计包括多门混合专家的结构,允许模型根据输入动态选择专家进行奖励计算。此外,损失函数的设计也经过优化,以确保奖励信号的密集性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,RM模型将价值估计的均方误差降低了80%,在SPIRAL框架中,任务成功率显著提升,从约50%提高到接近完美的表现,尤其在折叠短裤和清洁白板任务中,成功率分别从58%提升至100%和从50%提升至90%。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动化制造和服务机器人等。通过提高机器人在复杂操作中的学习能力,能够显著提升其在实际应用中的表现和效率,推动智能自动化的发展。未来,该技术有望在更多领域实现广泛应用,提升人机协作的智能化水平。

📄 摘要(原文)

Fine-tuning vision-language-action (VLA) policies for long-horizon manipulation still relies heavily on behavior cloning, which requires costly high-quality demonstrations and keeps policies near the demonstration distribution. Reward models can reduce this dependence by reweighting demonstrations and providing dense supervision for on-robot reinforcement learning (RL), but they must be dense, accurate, and general. Existing methods fall short: task-specific stage-aware models are accurate but require per-task annotations, while general vision-language-model (VLM) reward models are broadly applicable but too coarse for fine-grained long-horizon progress. We introduce RM, a multi-task stage-aware reward model that combines an action-primitive-based stage estimator with a multi-gate Mixture-of-Experts (MMoE) value head to produce dense per-step rewards across manipulation tasks. Building on RM, we further propose SPIRAL (Self-Policy Improvement via Reward-Aligned Learning), an on-policy reward-guided framework that improves VLA policies from cheap autonomous rollouts. On a 10-task benchmark, RM reduces value-estimation MSE by 80% over the strongest baselines; when used in SPIRAL, it improves task success from around 50% to near-perfect performance on Folding Shorts (58% to 100%) and Cleaning Whiteboard (50% to 90%), showing that high-quality dense rewards are key to a stable robot data flywheel. Project website: https://qianzhong-chen.github.io/sarm2.github.io/.