SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation

📄 arXiv: 2509.25358v3 📥 PDF

作者: Qianzhong Chen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu

分类: cs.RO

发布日期: 2025-09-29 (更新: 2025-10-29)


💡 一句话要点

提出SARM:用于长时程机器人操作的阶段感知奖励建模

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 奖励建模 模仿学习 长时程任务 行为克隆 阶段感知 可变形物体处理

📋 核心要点

  1. 现有机器人学习方法在长时程、接触密集型操作中,因演示质量不一致而面临挑战。
  2. 提出阶段感知的奖励建模框架,联合预测任务阶段和细粒度进度,利用自然语言注释自动生成奖励标签。
  3. 实验表明,该方法在折叠T恤任务中显著优于传统行为克隆,验证了奖励建模的有效性。

📝 摘要(中文)

大规模机器人学习在整合感知、控制和语言理解方面展现了执行复杂任务的潜力。然而,它在长时程、接触密集型操作(如可变形物体处理)中表现不佳,因为演示质量不一致。奖励建模提供了一个自然的解决方案:通过提供有实际意义的进度信号,它将嘈杂的演示转化为稳定的监督,从而推广到不同的轨迹。我们引入了一个阶段感知的、基于视频的奖励建模框架,该框架联合预测高级任务阶段和细粒度进度。奖励标签自动从自然语言子任务注释中导出,确保在可变长度的演示中一致的进度估计。这种设计克服了帧索引标记的局限性,后者在折叠T恤等可变持续时间的任务中失效。我们的奖励模型展示了对变异性的鲁棒性、对分布外设置的泛化能力,以及对策略训练的强大效用。在此基础上,我们提出了奖励对齐行为克隆(RA-BC),它过滤高质量数据并通过奖励重新加权样本。实验表明,仅奖励模型在验证和真实机器人实验中就优于基线。集成到RA-BC中,我们的方法在从展平状态折叠T恤时达到83%的成功率,从褶皱状态折叠T恤时达到67%的成功率——远远超过了仅达到8%和0%成功率的普通行为克隆。总的来说,我们的结果强调了奖励建模是长时程操作中可扩展、注释高效和鲁棒模仿学习的关键推动因素。

🔬 方法详解

问题定义:论文旨在解决长时程机器人操作任务中,由于演示数据质量参差不齐,导致模仿学习效果不佳的问题。现有方法,如行为克隆,直接从演示数据中学习策略,但当演示数据包含噪声或不一致性时,学习到的策略往往表现不佳,尤其是在任务持续时间变化较大的情况下,基于帧索引的标注方法失效。

核心思路:论文的核心思路是利用奖励建模,将嘈杂的演示数据转化为更稳定、更具泛化能力的监督信号。通过学习一个奖励函数,该函数能够评估机器人执行任务的进度,从而可以过滤高质量的演示数据,并对不同质量的样本进行加权,最终提升模仿学习的效果。关键在于奖励函数的设计,需要能够准确反映任务的进度,并且对演示数据的变异性具有鲁棒性。

技术框架:整体框架包含两个主要部分:阶段感知奖励模型(SARM)和奖励对齐行为克隆(RA-BC)。SARM首先利用视频数据和自然语言子任务注释,联合预测任务的阶段和细粒度进度,从而生成奖励信号。RA-BC则利用SARM生成的奖励信号,对演示数据进行过滤和加权,然后使用行为克隆算法学习策略。

关键创新:论文的关键创新在于提出了阶段感知的奖励建模方法。与传统的奖励建模方法不同,SARM不仅预测任务的整体进度,还预测任务的阶段。这使得奖励函数能够更准确地反映任务的进度,并且对演示数据的变异性具有更强的鲁棒性。此外,利用自然语言子任务注释自动生成奖励标签,避免了手动标注的繁琐和不一致性。

关键设计:SARM使用一个多任务学习框架,同时预测任务的阶段和细粒度进度。网络结构包含一个共享的视觉编码器和一个分别用于阶段预测和进度预测的头部。损失函数包含两部分:阶段预测的交叉熵损失和进度预测的均方误差损失。RA-BC使用SARM生成的奖励信号对演示数据进行过滤和加权。过滤策略是只保留奖励值高于某个阈值的样本。加权策略是根据奖励值对样本进行重新加权,奖励值越高的样本权重越大。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SARM在验证和真实机器人实验中均优于基线方法。集成到RA-BC中,该方法在从展平状态折叠T恤时达到83%的成功率,从褶皱状态折叠T恤时达到67%的成功率,而普通行为克隆仅达到8%和0%的成功率。这表明SARM能够有效地学习奖励函数,并提升模仿学习的效果。

🎯 应用场景

该研究成果可应用于各种长时程机器人操作任务,如服装折叠、电缆整理、医疗手术等。通过奖励建模,可以有效利用不完美的演示数据,降低人工标注成本,提高机器人操作的鲁棒性和泛化能力,加速机器人自动化在复杂环境中的部署。

📄 摘要(原文)

Large-scale robot learning has recently shown promise for enabling robots to perform complex tasks by integrating perception, control, and language understanding. Yet, it struggles with long-horizon, contact-rich manipulation such as deformable object handling, where demonstration quality is inconsistent. Reward modeling offers a natural solution: by providing grounded progress signals, it transforms noisy demonstrations into stable supervision that generalizes across diverse trajectories. We introduce a stage-aware, video-based reward modeling framework that jointly predicts high-level task stages and fine-grained progress. Reward labels are automatically derived from natural language subtask annotations, ensuring consistent progress estimation across variable-length demonstrations. This design overcomes frame-index labeling, which fails in variable-duration tasks like folding a T-shirt. Our reward model demonstrates robustness to variability, generalization to out-of-distribution settings, and strong utility for policy training. Building on it, we propose Reward-Aligned Behavior Cloning (RA-BC), which filters high-quality data and reweights samples by reward. Experiments show the reward model alone outperforms baselines on validation and real robot rollouts. Integrated into RA-BC, our approach achieves 83% success on folding T-shirts from the flattened state and 67% from the crumpled state -- far surpassing vanilla behavior cloning, which attains only 8% and 0% success. Overall, our results highlight reward modeling as a key enabler for scalable, annotation-efficient, and robust imitation learning in long-horizon manipulation.