Concurrent Prehensile and Nonprehensile Manipulation: A Practical Approach to Multi-Stage Dexterous Tasks

📄 arXiv: 2603.11655v1 📥 PDF

作者: Hao Jiang, Yue Wu, Yue Wang, Gaurav S. Sukhatme, Daniel Seita

分类: cs.RO

发布日期: 2026-03-12


💡 一句话要点

DexMulti:一种用于灵巧手多阶段操作的、高效的技能复用框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 灵巧手操作 多阶段任务 技能复用 模仿学习 机器人学习

📋 核心要点

  1. 灵巧手并发操作能力在日常任务中至关重要,但现有方法难以学习长时程、接触丰富的多阶段行为,数据收集成本高昂。
  2. DexMulti将演示分解为对象中心技能,通过检索、对齐和执行的范式,复用已有的技能来完成复杂操作任务。
  3. 实验表明,DexMulti仅需少量演示即可在真实世界中实现较高的成功率,并在未见过的物体和空间变化中表现出良好的泛化能力。

📝 摘要(中文)

本文提出DexMulti,一种用于真实世界灵巧手多任务操作的高效方法,该方法将演示分解为以对象为中心的、具有明确时间边界的技能。不同于学习单体策略,该方法基于当前对象几何形状检索演示技能,使用不确定性感知估计器将它们与观察到的对象状态对齐(跟踪质心和偏航角),并通过检索-对齐-执行范式执行它们。在超过1000次的真实世界试验中,我们使用Allegro和LEAP灵巧手评估了三个需要并发操作的多阶段任务(抓取+拉动、抓取+打开和抓取+抓取)。对于训练对象,我们的方法仅需每个对象3-4个演示即可达到平均66%的成功率,比扩散策略基线高2-3倍,同时需要更少的演示。结果表明,该方法对未见过的对象和高达+/-25厘米的空间变化具有鲁棒的泛化能力。

🔬 方法详解

问题定义:现有方法在灵巧手多阶段操作任务中面临数据效率低下的问题。收集足够多的演示数据以训练端到端策略,使其能够泛化到不同的对象几何形状和位置,成本非常高昂。因此,如何利用有限的演示数据,实现灵巧手在复杂操作任务中的高效学习和泛化是一个关键挑战。

核心思路:DexMulti的核心思路是将复杂的多阶段操作任务分解为一系列以对象为中心的、具有明确时间边界的技能。通过检索与当前对象状态最相关的演示技能,并将其对齐到当前状态,从而实现技能的复用和泛化。这种方法避免了从头开始学习复杂的端到端策略,显著提高了数据效率。

技术框架:DexMulti的技术框架主要包含三个阶段:1) 技能演示分解:将人工演示分解为一系列对象中心技能,每个技能具有明确的时间边界。2) 技能检索与对齐:基于当前对象几何形状检索最相关的演示技能,并使用不确定性感知估计器将检索到的技能与观察到的对象状态对齐。3) 技能执行:执行对齐后的技能,完成相应的操作任务。

关键创新:DexMulti的关键创新在于其retrieve-align-execute范式,以及不确定性感知的技能对齐方法。通过检索和对齐已有的演示技能,可以避免从头开始学习复杂的策略,从而显著提高数据效率。不确定性感知的技能对齐方法可以处理对象状态估计中的不确定性,提高操作的鲁棒性。

关键设计:技能演示分解的具体方法未知,论文中可能使用了人工标注或自动分割算法。不确定性感知估计器可能采用了卡尔曼滤波或粒子滤波等方法来跟踪对象质心和偏航角,并估计其不确定性。技能检索可能使用了基于距离度量的最近邻搜索算法。具体的损失函数和网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DexMulti在三个多阶段任务(抓取+拉动、抓取+打开和抓取+抓取)上进行了评估,使用Allegro和LEAP灵巧手进行了超过1000次的真实世界试验。结果表明,对于训练对象,DexMulti仅需每个对象3-4个演示即可达到平均66%的成功率,比扩散策略基线高2-3倍,同时需要更少的演示。此外,该方法对未见过的对象和高达+/-25厘米的空间变化具有鲁棒的泛化能力。

🎯 应用场景

DexMulti方法可应用于各种需要灵巧手操作的场景,例如:家庭服务机器人、工业自动化、医疗手术机器人等。它可以帮助机器人更高效地完成各种复杂的操作任务,例如:组装、拆卸、清洁、搬运等,从而提高生产效率和服务质量。该研究的未来影响在于降低机器人学习复杂操作任务的成本,加速灵巧手机器人在实际场景中的应用。

📄 摘要(原文)

Dexterous hands enable concurrent prehensile and nonprehensile manipulation, such as holding one object while interacting with another, a capability essential for everyday tasks yet underexplored in robotics. Learning such long-horizon, contact-rich multi-stage behaviors is challenging because demonstrations are expensive to collect and end-to-end policies require substantial data to generalize across varied object geometries and placements. We present DexMulti, a sample-efficient approach for real-world dexterous multi-task manipulation that decomposes demonstrations into object-centric skills with well-defined temporal boundaries. Rather than learning monolithic policies, our method retrieves demonstrated skills based on current object geometry, aligns them to the observed object state using an uncertainty-aware estimator that tracks centroid and yaw, and executes them via a retrieve-align-execute paradigm. We evaluate on three multi-stage tasks requiring concurrent manipulation (Grasp + Pull, Grasp + Open, and Grasp + Grasp) across two dexterous hands (Allegro and LEAP) in over 1,000 real-world trials. Our approach achieves an average success rate of 66% on training objects with only 3-4 demonstrations per object, outperforming diffusion policy baselines by 2-3x while requiring far fewer demonstrations. Results demonstrate robust generalization to held-out objects and spatial variations up to +/-25 cm.