Whole-Body Mobile Manipulation using Offline Reinforcement Learning on Sub-optimal Controllers

📄 arXiv: 2604.12509v1 📥 PDF

作者: Snehal Jauhri, Vignesh Prasad, Georgia Chalvatzaki

分类: cs.RO, cs.CV

发布日期: 2026-04-14

备注: PrePrint. Project website: sites.google.com/view/whole-moma


💡 一句话要点

WHOLE-MoMa:利用离线强化学习提升移动操作机器人全身控制性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 移动操作 全身控制 离线强化学习 行为克隆 机器人学习

📋 核心要点

  1. 传统全身控制器(WBC)需要大量手动调整优化,且鲁棒性差;而基于学习的方法通常依赖昂贵的全身遥操作数据或复杂的奖励工程。
  2. WHOLE-MoMa利用次优WBC作为结构先验,约束数据收集在任务相关的状态-动作空间区域,并通过离线强化学习改进其行为。
  3. 该方法在模拟和真实机器人实验中均表现出色,无需微调即可实现较高的成功率,验证了其泛化能力和实用性。

📝 摘要(中文)

本文提出了一种名为WHOLE-MoMa的两阶段流水线方法,用于解决铰接物体(如门、抽屉和橱柜)的移动操作问题,这类问题需要机器人底座和手臂之间的全身协调。该方法首先通过随机化一个轻量级的全身控制器(WBC)来生成多样化的演示数据,然后应用离线强化学习(RL)来识别和拼接改进的行为,并通过奖励信号进行引导。为了支持复杂协调任务所需的表达性动作块扩散策略,本文扩展了离线隐式Q学习,引入了Q-chunking用于块级别的critic评估和优势加权策略提取。在模拟环境中,针对TIAGo++移动操作机器人的三个难度递增的任务,WHOLE-MoMa显著优于WBC、行为克隆和多个离线RL基线。策略可以直接迁移到真实机器人,无需微调,在双手抽屉操作中达到80%的成功率,在同时打开橱柜和放置物体中达到68%的成功率,所有这些都没有使用任何遥操作或真实世界训练数据。

🔬 方法详解

问题定义:论文旨在解决移动操作机器人全身控制问题,特别是对于需要复杂协调的铰接物体操作任务,如开门、开抽屉等。现有方法,如传统WBC,需要大量手动调整,泛化性差;而基于学习的方法,如模仿学习和在线强化学习,则需要大量的专家数据或与环境的实时交互,成本高昂。

核心思路:论文的核心思路是利用一个次优的WBC作为先验知识,指导数据收集,并利用离线强化学习从这些数据中学习更优的策略。WBC虽然不是最优的,但可以提供一个结构化的探索空间,避免随机探索带来的低效性。离线强化学习则可以在不需要与环境交互的情况下,从已有的数据中学习,降低了数据收集的成本。

技术框架:WHOLE-MoMa包含两个主要阶段:1) 数据生成阶段:通过随机化WBC的参数,生成多样化的轨迹数据。2) 离线强化学习阶段:利用生成的数据,训练一个策略网络,使其能够超越WBC的性能。该阶段的关键是使用Q-chunking扩展了离线隐式Q学习,用于块级别的critic评估和优势加权策略提取。

关键创新:论文的关键创新在于:1) 提出了一种利用次优WBC作为先验知识的离线强化学习方法,降低了数据收集成本。2) 提出了Q-chunking,用于处理复杂协调任务中的动作块,提高了学习效率和策略的表达能力。3) 验证了该方法在真实机器人上的零样本迁移能力,无需任何真实世界训练数据。

关键设计:在数据生成阶段,WBC的参数(如目标位置、速度等)会被随机化,以生成多样化的轨迹。在离线强化学习阶段,使用了隐式Q学习(IQL)作为基础算法,并对其进行了扩展,引入了Q-chunking。Q-chunking将动作序列划分为多个块,并对每个块进行critic评估,从而更好地处理复杂协调任务。优势加权策略提取则用于从Q函数中提取策略,并根据优势函数对动作进行加权,以提高策略的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WHOLE-MoMa在模拟环境中显著优于WBC、行为克隆和多个离线RL基线。更重要的是,该策略可以直接迁移到真实机器人,无需任何微调,在双手抽屉操作中达到80%的成功率,在同时打开橱柜和放置物体中达到68%的成功率。这些结果验证了该方法的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要移动操作机器人的场景,例如:家庭服务机器人、仓储物流机器人、医疗辅助机器人等。通过学习更高效、更鲁棒的全身控制策略,机器人可以更好地完成各种复杂的操作任务,提高工作效率和服务质量。此外,该方法无需大量人工干预和真实世界数据,降低了机器人部署的成本。

📄 摘要(原文)

Mobile Manipulation (MoMa) of articulated objects, such as opening doors, drawers, and cupboards, demands simultaneous, whole-body coordination between a robot's base and arms. Classical whole-body controllers (WBCs) can solve such problems via hierarchical optimization, but require extensive hand-tuned optimization and remain brittle. Learning-based methods, on the other hand, show strong generalization capabilities but typically rely on expensive whole-body teleoperation data or heavy reward engineering. We observe that even a sub-optimal WBC is a powerful structural prior: it can be used to collect data in a constrained, task-relevant region of the state-action space, and its behavior can still be improved upon using offline reinforcement learning. Building on this, we propose WHOLE-MoMa, a two-stage pipeline that first generates diverse demonstrations by randomizing a lightweight WBC, and then applies offline RL to identify and stitch together improved behaviors via a reward signal. To support the expressive action-chunked diffusion policies needed for complex coordination tasks, we extend offline implicit Q-learning with Q-chunking for chunk-level critic evaluation and advantage-weighted policy extraction. On three tasks of increasing difficulty using a TIAGo++ mobile manipulator in simulation, WHOLE-MoMa significantly outperforms WBC, behavior cloning, and several offline RL baselines. Policies transfer directly to the real robot without finetuning, achieving 80% success in bimanual drawer manipulation and 68% in simultaneous cupboard opening and object placement, all without any teleoperated or real-world training data.