Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

📄 arXiv: 2603.09882v1 📥 PDF

作者: Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He Wang

分类: cs.RO, cs.AI

发布日期: 2026-03-10

备注: Project Page: https://pku-epic.github.io/DAPL/


💡 一句话要点

提出动力学感知策略学习框架,解决复杂场景下的外在灵巧操作问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 外在灵巧操作 动力学感知 策略学习 强化学习 世界建模

📋 核心要点

  1. 现有方法缺乏对复杂动力学的显式建模,难以在杂乱环境中进行非抓取操作,限制了其在现实环境中的应用。
  2. DAPL框架通过显式世界建模学习接触诱导的物体动力学表征,并将其用于条件强化学习,从而实现外在灵巧操作。
  3. 实验结果表明,DAPL在模拟和真实世界中均优于现有方法,并在实际场景中展现出强大的迁移能力和适用性。

📝 摘要(中文)

本文提出了一种动力学感知策略学习(DAPL)框架,旨在通过学习到的接触诱导物体动力学表征来促进策略学习,从而实现复杂场景中的外在灵巧操作。该表征通过显式的世界建模学习得到,并用于条件强化学习,使得外在灵巧性得以涌现,无需手工设计的接触启发式规则或复杂的奖励函数。在模拟和真实世界中的实验结果表明,该方法在不同密度的未见过的模拟杂乱场景中,其成功率超过了抓取操作、人工遥操作和先前的基于表征的策略25%以上。在真实世界的10个杂乱场景中,成功率达到50%左右,并且在实际的食品杂货部署中进一步证明了强大的sim-to-real迁移能力和适用性。

🔬 方法详解

问题定义:论文旨在解决杂乱场景下机器人利用环境接触进行灵巧操作的难题。现有方法通常依赖于预定义的接触启发式规则或复杂的奖励函数,难以处理物体间复杂的相互作用和动力学关系,导致在复杂环境中的操作性能不佳。

核心思路:论文的核心思路是学习一个能够表征接触诱导物体动力学的模型,并利用该模型指导强化学习策略的训练。通过显式地建模物体间的动力学关系,机器人可以更好地理解环境,从而制定更有效的操作策略。

技术框架:DAPL框架主要包含两个模块:世界模型学习模块和策略学习模块。首先,世界模型学习模块通过观察环境中的物体交互,学习一个能够预测物体动力学行为的表征。然后,策略学习模块利用该表征作为强化学习的输入,训练一个能够控制机器人进行灵巧操作的策略。整个框架采用端到端的方式进行训练,无需手工设计复杂的奖励函数。

关键创新:论文的关键创新在于提出了一个动力学感知的策略学习框架,该框架能够显式地建模物体间的动力学关系,并利用该模型指导强化学习策略的训练。与现有方法相比,DAPL框架无需手工设计接触启发式规则或复杂的奖励函数,能够更好地适应复杂环境的变化。

关键设计:世界模型学习模块采用变分自编码器(VAE)来学习物体动力学表征。策略学习模块采用近端策略优化(PPO)算法进行训练。奖励函数的设计主要考虑了操作的成功率和效率。在sim-to-real迁移方面,论文采用了域随机化技术来提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在模拟实验中,DAPL在不同密度的杂乱场景中,其成功率超过了抓取操作、人工遥操作和先前的基于表征的策略25%以上。在真实世界的实验中,DAPL在10个杂乱场景中成功率达到50%左右。此外,在实际的食品杂货部署中,DAPL展现了强大的sim-to-real迁移能力和适用性,验证了该方法在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于自动化仓库、智能制造、家庭服务等领域。例如,机器人可以利用该技术在拥挤的货架上拣选商品,在复杂的装配线上进行零件组装,或者在家庭环境中进行物品整理。该研究的实际价值在于提高了机器人在复杂环境中的操作能力和适应性,为实现更智能、更灵活的机器人应用奠定了基础。

📄 摘要(原文)

Extrinsic dexterity leverages environmental contact to overcome the limitations of prehensile manipulation. However, achieving such dexterity in cluttered scenes remains challenging and underexplored, as it requires selectively exploiting contact among multiple interacting objects with inherently coupled dynamics. Existing approaches lack explicit modeling of such complex dynamics and therefore fall short in non-prehensile manipulation in cluttered environments, which in turn limits their practical applicability in real-world environments. In this paper, we introduce a Dynamics-Aware Policy Learning (DAPL) framework that can facilitate policy learning with a learned representation of contact-induced object dynamics in cluttered environments. This representation is learned through explicit world modeling and used to condition reinforcement learning, enabling extrinsic dexterity to emerge without hand-crafted contact heuristics or complex reward shaping. We evaluate our approach in both simulation and the real world. Our method outperforms prehensile manipulation, human teleoperation, and prior representation-based policies by over 25% in success rate on unseen simulated cluttered scenes with varying densities. The real-world success rate reaches around 50% across 10 cluttered scenes, while a practical grocery deployment further demonstrates robust sim-to-real transfer and applicability.