DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

📄 arXiv: 2411.18562v6 📥 PDF

作者: Zhixuan Liang, Yao Mu, Yixiao Wang, Tianxing Chen, Wenqi Shao, Wei Zhan, Masayoshi Tomizuka, Ping Luo, Mingyu Ding

分类: cs.RO, cs.CV, cs.LG

发布日期: 2024-11-27 (更新: 2025-06-17)

备注: Accepted by CVPR 2025. Camera ready version. Previous DexDiffuser. Project page: https://dexdiffuser.github.io/


💡 一句话要点

DexHandDiff:交互感知扩散规划,实现灵巧手自适应操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧操作 扩散模型 交互感知 机器人规划 目标自适应

📋 核心要点

  1. 现有基于扩散的规划方法在复杂交互任务中存在不真实的幽灵状态,缺乏处理复杂序列交互的适应性。
  2. DexHandDiff通过双阶段扩散过程建模状态-动作动态,实现预交互接触对齐和后接触目标导向控制。
  3. 实验表明,DexHandDiff在多种物理交互任务中显著提升了成功率,尤其在训练分布外的目标上表现突出。

📝 摘要(中文)

本文提出DexHandDiff,一个交互感知的扩散规划框架,用于自适应灵巧操作。该框架通过双阶段扩散过程建模联合状态-动作动态,包括预交互的接触对齐和后接触的以目标为导向的控制,从而实现目标自适应的通用灵巧操作。此外,我们结合了基于动力学模型的双重引导,并利用大型语言模型自动生成引导函数,增强了物理交互的泛化能力,并通过语言提示促进了多样化的目标适应。在开门、笔和块重新定向、物体重新定位和锤击等物理交互任务上的实验表明,DexHandDiff在训练分布之外的目标上有效,与现有方法相比,平均成功率提高了一倍以上(59.2% vs. 29.5%)。我们的框架在目标自适应灵巧任务上实现了平均70.7%的成功率,突出了其在接触丰富的操作中的鲁棒性和灵活性。

🔬 方法详解

问题定义:灵巧手操作在机器人领域至关重要,但现有基于扩散模型的规划方法在处理复杂、接触丰富的交互任务时,容易产生不真实的“幽灵状态”,即物体在没有手部接触的情况下自动移动。此外,这些方法在处理复杂的序列交互时,缺乏足够的适应性,难以泛化到新的目标或环境。

核心思路:DexHandDiff的核心思路是将灵巧手操作分解为两个阶段:预交互的接触对齐和后接触的目标导向控制。通过分别对这两个阶段进行建模,可以更有效地学习状态-动作动态,并提高操作的稳定性和适应性。此外,利用大型语言模型生成引导函数,进一步增强了框架的泛化能力和目标适应性。

技术框架:DexHandDiff采用双阶段扩散过程,首先进行预交互的接触对齐,然后进行后接触的目标导向控制。框架包含以下主要模块:1) 状态-动作扩散模型,用于学习状态-动作动态;2) 基于动力学模型的双重引导,用于提高规划的准确性和稳定性;3) 基于大型语言模型的引导函数生成器,用于实现目标自适应。

关键创新:DexHandDiff的关键创新在于其交互感知的双阶段扩散规划方法。与传统的单阶段扩散规划相比,双阶段方法能够更有效地建模接触交互,并提高操作的稳定性和适应性。此外,利用大型语言模型自动生成引导函数,进一步增强了框架的泛化能力和目标适应性。

关键设计:DexHandDiff采用基于Transformer的扩散模型,用于学习状态-动作动态。损失函数包括状态预测误差、动作预测误差和接触损失。基于动力学模型的双重引导包括基于模型的预测和基于模型的校正。大型语言模型用于生成与目标相关的引导函数,例如,给定“打开门”的目标,LLM生成相应的奖励函数,引导扩散过程朝向期望的目标状态。

🖼️ 关键图片

img_0

📊 实验亮点

DexHandDiff在多个物理交互任务上取得了显著的性能提升。例如,在开门、笔和块重新定向、物体重新定位和锤击等任务中,DexHandDiff的平均成功率达到了59.2%,而现有方法的平均成功率仅为29.5%,提升超过一倍。在目标自适应灵巧任务上,DexHandDiff实现了平均70.7%的成功率,表明其具有很强的鲁棒性和灵活性。

🎯 应用场景

DexHandDiff在机器人灵巧操作领域具有广泛的应用前景,例如,可用于自动化装配、医疗手术、家庭服务等场景。该研究成果有助于提高机器人在复杂环境中的操作能力,实现更智能、更灵活的机器人应用。未来,该技术有望应用于更多需要精细操作的领域,例如,微纳操作、太空探索等。

📄 摘要(原文)

Dexterous manipulation with contact-rich interactions is crucial for advanced robotics. While recent diffusion-based planning approaches show promise for simple manipulation tasks, they often produce unrealistic ghost states (e.g., the object automatically moves without hand contact) or lack adaptability when handling complex sequential interactions. In this work, we introduce DexHandDiff, an interaction-aware diffusion planning framework for adaptive dexterous manipulation. DexHandDiff models joint state-action dynamics through a dual-phase diffusion process which consists of pre-interaction contact alignment and post-contact goal-directed control, enabling goal-adaptive generalizable dexterous manipulation. Additionally, we incorporate dynamics model-based dual guidance and leverage large language models for automated guidance function generation, enhancing generalizability for physical interactions and facilitating diverse goal adaptation through language cues. Experiments on physical interaction tasks such as door opening, pen and block re-orientation, object relocation, and hammer striking demonstrate DexHandDiff's effectiveness on goals outside training distributions, achieving over twice the average success rate (59.2% vs. 29.5%) compared to existing methods. Our framework achieves an average of 70.7% success rate on goal adaptive dexterous tasks, highlighting its robustness and flexibility in contact-rich manipulation.