Where to Touch, How to Contact: Hierarchical RL-MPC Framework for Geometry-Aware Long-Horizon Dexterous Manipulation

📄 arXiv: 2601.10930v1 📥 PDF

作者: Zhixian Xie, Yu Xiang, Michael Posa, Wanxin Jin

分类: cs.RO

发布日期: 2026-01-16

备注: 13 Pages, Plan to submit RSS


💡 一句话要点

提出层级RL-MPC框架,解决几何感知的长程灵巧操作问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 灵巧操作 强化学习 模型预测控制 接触动力学 分层控制 机器人操作 几何推理

📋 核心要点

  1. 现有端到端方法在灵巧操作中需要大量数据,且仿真到现实迁移性差,泛化能力弱,难以有效处理复杂的接触动力学。
  2. 论文提出分层RL-MPC框架,高层RL策略预测接触意图,低层MPC优化接触模式,实现几何感知和运动规划。
  3. 实验表明,该框架在推物和物体重定向任务上,数据需求减少10倍,成功率接近100%,并实现了零样本的sim-to-real迁移。

📝 摘要(中文)

本文提出了一种层级RL-MPC框架,用于解决富接触灵巧操作中的关键挑战,即需要联合推理几何形状、运动学约束和复杂的非光滑接触动力学。端到端视觉运动策略虽然绕过了这种结构,但通常需要大量数据,从仿真到现实的迁移效果差,并且在任务/实体之间的泛化能力弱。我们通过一个简单的洞察力来解决这些限制:灵巧操作本质上是分层的——在高层,机器人决定在哪里接触(几何)和移动物体(运动学);在低层,它确定如何通过接触动力学来实现该计划。基于此,我们提出了一个层级RL-MPC框架,其中高层强化学习(RL)策略预测接触意图,这是一种新颖的以对象为中心的接口,用于指定(i)对象表面接触位置和(ii)接触后的对象级子目标姿势。在以该接触意图为条件的情况下,低层接触隐式模型预测控制(MPC)优化局部接触模式,并使用接触动力学进行重新规划,以生成能够稳健地驱动对象朝向每个子目标的机器人动作。我们在非抓取任务(包括几何泛化的推物和物体3D重新定向)上评估了该框架。它以接近100%的成功率实现了显著减少的数据量(比端到端基线少10倍),高度鲁棒的性能以及零样本的sim-to-real迁移。

🔬 方法详解

问题定义:论文旨在解决灵巧操作中,机器人如何在复杂的几何环境和接触动力学约束下,实现长程的物体操作任务。现有端到端方法通常需要大量训练数据,且泛化能力和鲁棒性较差,难以适应真实世界的复杂场景。

核心思路:论文的核心思想是将灵巧操作分解为分层结构:高层负责规划接触位置和目标姿态,低层负责执行具体的接触动作。这种分层结构能够有效解耦几何推理、运动学规划和接触动力学控制,降低了学习难度,提高了泛化能力和鲁棒性。

技术框架:整体框架包含两个主要模块:高层RL策略和低层接触隐式MPC。高层RL策略以物体状态为输入,预测接触意图,包括接触位置和目标姿态。低层MPC以接触意图为条件,优化局部接触模式,并使用接触动力学进行重新规划,生成机器人动作。整个流程是迭代进行的,高层不断给出新的接触意图,低层不断执行动作,直到完成任务。

关键创新:论文的关键创新在于提出了一个分层的RL-MPC框架,将灵巧操作分解为高层规划和低层执行两个阶段。高层RL策略学习接触意图,低层MPC负责执行具体的接触动作。这种分层结构能够有效解耦几何推理、运动学规划和接触动力学控制,降低了学习难度,提高了泛化能力和鲁棒性。此外,论文还提出了一个新颖的以对象为中心的接口,用于指定接触位置和目标姿态。

关键设计:高层RL策略使用SAC算法进行训练,奖励函数设计鼓励机器人完成任务并减少能量消耗。低层MPC使用接触隐式动力学模型,优化目标是最小化目标姿态误差和控制力矩。接触隐式动力学模型能够显式地考虑接触约束,提高了控制的鲁棒性。论文还设计了一种数据增强方法,通过随机扰动物体状态来提高RL策略的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在几何泛化的推物和物体3D重新定向任务上取得了显著的性能提升。与端到端基线相比,该方法使用的数据量减少了10倍,成功率接近100%,并且实现了零样本的sim-to-real迁移。这些结果表明,该方法具有很强的泛化能力和鲁棒性,能够有效解决实际应用中的灵巧操作问题。

🎯 应用场景

该研究成果可应用于各种需要灵巧操作的机器人任务,例如:工业自动化中的零件装配、医疗机器人中的手术操作、家庭服务机器人中的物体整理等。通过结合强化学习和模型预测控制,该方法能够使机器人更好地理解和利用环境中的几何信息和接触动力学,从而实现更高效、更鲁棒的操作。

📄 摘要(原文)

A key challenge in contact-rich dexterous manipulation is the need to jointly reason over geometry, kinematic constraints, and intricate, nonsmooth contact dynamics. End-to-end visuomotor policies bypass this structure, but often require large amounts of data, transfer poorly from simulation to reality, and generalize weakly across tasks/embodiments. We address those limitations by leveraging a simple insight: dexterous manipulation is inherently hierarchical - at a high level, a robot decides where to touch (geometry) and move the object (kinematics); at a low level it determines how to realize that plan through contact dynamics. Building on this insight, we propose a hierarchical RL--MPC framework in which a high-level reinforcement learning (RL) policy predicts a contact intention, a novel object-centric interface that specifies (i) an object-surface contact location and (ii) a post-contact object-level subgoal pose. Conditioned on this contact intention, a low-level contact-implicit model predictive control (MPC) optimizes local contact modes and replans with contact dynamics to generate robot actions that robustly drive the object toward each subgoal. We evaluate the framework on non-prehensile tasks, including geometry-generalized pushing and object 3D reorientation. It achieves near-100% success with substantially reduced data (10x less than end-to-end baselines), highly robust performance, and zero-shot sim-to-real transfer.