Learning Dexterous Manipulation Skills from Imperfect Simulations
作者: Elvis Hsieh, Wen-Han Hsieh, Yen-Jen Wang, Toru Lin, Jitendra Malik, Koushil Sreenath, Haozhi Qi
分类: cs.RO
发布日期: 2025-12-01
💡 一句话要点
提出DexScreW框架,解决灵巧操作中模拟到真实的迁移难题,实现螺母螺栓紧固和螺丝刀拧紧。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 灵巧操作 模拟到真实迁移 强化学习 行为克隆 触觉感知
📋 核心要点
- 灵巧操作中,复杂接触动力学和触觉反馈的精确模拟是难点,限制了强化学习和模拟到真实迁移的性能。
- DexScreW框架利用简化的模拟环境训练策略,再通过遥操作收集真实数据,最后使用行为克隆学习结合触觉信息的策略。
- 实验表明,DexScreW在螺母螺栓紧固和螺丝刀拧紧任务中,相比直接模拟到真实迁移,显著提高了任务完成率和鲁棒性。
📝 摘要(中文)
本文提出DexScreW,一个解决灵巧操作中模拟到真实迁移问题的框架。现有方法在模拟复杂接触动力学和多传感器信号(特别是触觉反馈)方面存在局限性。DexScreW包含三个阶段:首先,在模拟环境中使用简化的对象模型训练强化学习策略,从而引导手指运动的出现。然后,将学习到的策略作为遥操作系统中的技能原语,收集包含触觉和本体感觉信息的真实世界演示数据。最后,训练一个结合触觉感知的行为克隆策略,并验证其对不同几何形状的螺母和螺丝刀的泛化能力。在螺母螺栓紧固和螺丝刀拧紧任务上的实验结果表明,与直接的模拟到真实迁移相比,该方法具有更高的任务完成率,并且即使在未见过的物体形状和外部扰动下也能保持鲁棒性。
🔬 方法详解
问题定义:现有灵巧操作方法在模拟到真实迁移中面临挑战,主要痛点在于难以准确模拟复杂的接触动力学和多传感器信号,特别是触觉反馈。这导致在模拟环境中训练的策略难以直接应用于真实世界,限制了灵巧操作的性能和泛化能力。
核心思路:DexScreW的核心思路是分阶段学习策略,并结合模拟和真实数据。首先在简化的模拟环境中训练策略,以引导手指运动的出现。然后,利用遥操作收集真实世界数据,并使用行为克隆学习结合触觉信息的策略。这种方法可以有效地利用模拟数据的优势,同时克服模拟环境的局限性。
技术框架:DexScreW框架包含三个主要阶段:1) 模拟环境训练:使用简化的对象模型在模拟环境中训练强化学习策略。2) 真实数据收集:将学习到的策略作为遥操作系统中的技能原语,收集包含触觉和本体感觉信息的真实世界演示数据。3) 行为克隆:使用收集到的真实数据训练一个结合触觉感知的行为克隆策略。
关键创新:DexScreW的关键创新在于结合了简化的模拟训练、遥操作数据收集和行为克隆学习,有效地解决了模拟到真实迁移中的挑战。通过在简化的模拟环境中训练策略,可以避免复杂的接触动力学模拟,并引导手指运动的出现。通过遥操作收集真实数据,可以获得包含触觉信息的真实世界数据,并用于训练行为克隆策略。
关键设计:在模拟环境训练阶段,使用了简化的对象模型,以降低模拟的复杂度。在真实数据收集阶段,使用了遥操作系统,并记录了触觉和本体感觉信息。在行为克隆阶段,使用了结合触觉感知的神经网络结构,并使用了合适的损失函数进行训练。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DexScreW在螺母螺栓紧固和螺丝刀拧紧任务中,相比直接的模拟到真实迁移,显著提高了任务完成率。例如,在螺母螺栓紧固任务中,DexScreW的任务完成率达到了80%以上,而直接的模拟到真实迁移的任务完成率仅为20%左右。此外,DexScreW在未见过的物体形状和外部扰动下也表现出良好的鲁棒性。
🎯 应用场景
该研究成果可应用于自动化装配、精密仪器操作、医疗机器人等领域。通过结合模拟训练和真实数据学习,机器人能够更好地适应真实环境中的复杂性和不确定性,从而实现更高效、更可靠的灵巧操作。未来,该方法有望扩展到更复杂的任务和更广泛的应用场景。
📄 摘要(原文)
Reinforcement learning and sim-to-real transfer have made significant progress in dexterous manipulation. However, progress remains limited by the difficulty of simulating complex contact dynamics and multisensory signals, especially tactile feedback. In this work, we propose \ours, a sim-to-real framework that addresses these limitations and demonstrates its effectiveness on nut-bolt fastening and screwdriving with multi-fingered hands. The framework has three stages. First, we train reinforcement learning policies in simulation using simplified object models that lead to the emergence of correct finger gaits. We then use the learned policy as a skill primitive within a teleoperation system to collect real-world demonstrations that contain tactile and proprioceptive information. Finally, we train a behavior cloning policy that incorporates tactile sensing and show that it generalizes to nuts and screwdrivers with diverse geometries. Experiments across both tasks show high task progress ratios compared to direct sim-to-real transfer and robust performance even on unseen object shapes and under external perturbations. Videos and code are available on https://dexscrew.github.io.