DexPIE: Stable Dexterous Policy Improvement from Real-World Experience
作者: Ruizhe Liao, Wenrui Chen, Liangji Zeng, Haoran Lin, Fan Yang, Kailun Yang, Yaonan Wang
分类: cs.RO, cs.CV
发布日期: 2026-06-08
备注: Project website: https://siiuuuuuu.github.io/DexPIE
💡 一句话要点
提出DexPIE以解决高维动作空间下的灵巧操控问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 灵巧操控 模仿学习 后训练 策略改进 机器人技术 真实世界经验 高维动作空间
📋 核心要点
- 灵巧操控的模仿学习面临高维动作空间和复杂动态的挑战,现有方法在部署时容易出现累积误差。
- DexPIE框架通过真实世界经验进行后训练,结合干预系统和多阶段数据收集,增强策略评估的可靠性。
- 在三项真实世界任务中,DexPIE成功率提高37%,显著优于基线方法,展现出更强的鲁棒性。
📝 摘要(中文)
灵巧操控在模仿学习中面临重大挑战,主要由于其高维动作空间和复杂的接触动态。仅依赖演示训练的策略在部署时常常出现累积误差,并且需要大量专家数据以实现可靠性能。为突破演示数据的局限性,本文提出DexPIE,一个基于真实世界经验的后训练灵巧策略改进框架。DexPIE通过适应灵巧手的干预系统和多阶段DAgger风格的数据收集,增强了有效的探索覆盖,提供了可靠的监督以进行准确的策略评估。此外,采用相对动作空间的异步推理来减少后训练回放与演示数据之间的时间噪声,最终通过条件化连续最优性指标来改进策略。实验结果表明,DexPIE在三项挑战性的真实世界灵巧操控任务中成功率提高了37%,超越了所有基线方法,展现出更强的鲁棒性。
🔬 方法详解
问题定义:本文旨在解决灵巧操控中模仿学习的局限性,尤其是高维动作空间和复杂动态导致的累积误差问题。现有方法依赖大量专家演示数据,难以在真实环境中实现稳定的性能。
核心思路:DexPIE通过后训练框架,利用真实世界的经验进行策略改进,结合干预系统和多阶段数据收集,增强探索覆盖和策略评估的准确性。
技术框架:DexPIE的整体架构包括三个主要模块:干预系统用于有效探索,DAgger风格的数据收集用于策略评估,以及异步推理模块用于减少时间噪声。
关键创新:DexPIE的核心创新在于引入了异步推理机制,能够在相对动作空间中更好地对齐回放数据与演示行为,从而提升策略的稳定性和准确性。
关键设计:在设计中,DexPIE采用了条件化的连续最优性指标,使策略能够更细致地利用数据质量。此外,损失函数和网络结构经过优化,以适应灵巧手的动态特性。
🖼️ 关键图片
📊 实验亮点
在三项真实世界的灵巧操控任务中,DexPIE的成功率提高了37%,显著优于基于演示的参考策略,超越了所有基线方法,展现出更强的鲁棒性和适应能力。
🎯 应用场景
DexPIE的研究成果在机器人灵巧操控、自动化装配、医疗手术等领域具有广泛的应用潜力。通过提高灵巧操作的成功率和鲁棒性,该框架能够推动智能机器人在复杂环境中的实际应用,提升其在真实世界中的表现和适应能力。
📄 摘要(原文)
Dexterous manipulation presents substantial challenges for imitation learning due to its high-dimensional action space and complex contact-rich dynamics. Policies trained purely from demonstrations often suffer from compounding errors during deployment and require large amounts of expert data to achieve reliable performance. To move beyond the limitations of demonstration data, in this work, we propose DexPIE, a post-training framework for dexterous policy improvement from experience collected through real-world deployment. First, DexPIE enables effective exploration coverage through a dexterous-hand-adapted intervention system and multi-stage DAgger-style data collection across initial and intermediate task stages, providing reliable supervision for accurate policy evaluation. To reduce temporal noise between post-training rollouts and demonstration data, we introduce asynchronous inference in the relative action space, which better aligns rollout data with demonstrated behavior and allows the critic to learn a value function induced by a more consistent underlying policy. Finally, DexPIE improves the policy through conditioning on a continuous optimality indicator, allowing the policy to leverage the quality of data in a more fine-grained manner. Across three challenging real-world dexterous manipulation tasks, DexPIE achieves a 37% improvement in success rate over the demonstration-based reference policy, outperforming all baseline methods and demonstrating stronger robustness. The source code and dataset will be made publicly available.