DexDrummer: In-Hand, Contact-Rich, and Long-Horizon Dexterous Robot Drumming

📄 arXiv: 2603.22263v1 📥 PDF

作者: Hung-Chieh Fang, Amber Xie, Jennifer Grannen, Kenneth Llontop, Dorsa Sadigh

分类: cs.RO

发布日期: 2026-03-23

备注: Website: https://dexdrummer.github.io/


💡 一句话要点

DexDrummer:提出一种能进行手内、接触丰富、长时程灵巧机器人鼓乐演奏的框架。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 灵巧操作 机器人鼓乐 强化学习 接触动力学 Sim-to-Real 轨迹规划 分层控制

📋 核心要点

  1. 现有机器人灵巧操作方法难以同时处理手内控制、接触丰富交互和长时程协调等挑战。
  2. DexDrummer提出了一种层级式的、以对象为中心的双手动鼓策略,结合轨迹规划和残差强化学习,降低探索难度。
  3. 实验结果表明,该策略在模拟和真实环境中均能有效演奏鼓乐,并在F1得分上优于固定抓取策略。

📝 摘要(中文)

在机器人领域,执行手内、接触丰富和长时程的灵巧操作仍然是一个未解决的挑战。现有的手部灵巧性工作通常孤立地考虑这些挑战,而没有将这些技能整合到一个复杂的任务中。为了进一步测试灵巧性的能力,我们提出将鼓乐演奏作为灵巧操作的试验平台。鼓乐演奏自然地整合了所有三个挑战:它涉及手内控制,用于稳定和调整手指上的鼓槌;通过重复敲击鼓面进行接触丰富的交互;以及在鼓之间切换和维持节奏演奏时的长时程协调。我们提出了 DexDrummer,这是一个层级的、以对象为中心的双手动鼓策略,在模拟环境中训练并通过sim-to-real迁移到真实世界。该框架通过结合轨迹规划和残差强化学习校正,以实现鼓之间的快速转换,从而降低了纯强化学习的探索难度。灵巧操作策略处理接触丰富的动力学,并由显式建模手指-鼓槌和鼓槌-鼓交互的奖励来指导。在模拟中,我们展示了我们的策略可以演奏两种风格的音乐:多鼓、双手歌曲和需要更高灵巧性的具有挑战性的技术练习。在模拟双手动任务中,我们的灵巧、反应式策略在简单歌曲上的F1得分比固定抓取策略高1.87倍,在困难歌曲上的F1得分高1.22倍。在真实世界的任务中,我们展示了在多鼓设置下的歌曲演奏性能。DexDrummer能够以1.0的F1得分演奏我们的训练歌曲及其扩展版本。

🔬 方法详解

问题定义:现有的机器人灵巧操作方法通常孤立地解决手内控制、接触丰富交互和长时程协调等问题,缺乏将这些能力整合到复杂任务中的有效方案。在鼓乐演奏这种复杂的任务中,需要同时控制鼓槌、与鼓面进行接触以及长时间维持节奏,对机器人的灵巧性提出了更高的要求。

核心思路:DexDrummer的核心思路是将鼓乐演奏任务分解为多个子任务,并采用分层控制策略。首先,通过轨迹规划生成鼓槌运动的粗略轨迹,然后利用残差强化学习对轨迹进行精细调整,以实现快速的鼓之间切换。同时,通过显式建模手指-鼓槌和鼓槌-鼓之间的交互,使策略能够处理接触丰富的动力学。

技术框架:DexDrummer框架包含以下几个主要模块:1) 轨迹规划器:生成鼓槌运动的初始轨迹,用于快速切换鼓。2) 残差强化学习模块:对轨迹规划器的输出进行修正,以提高运动的精确性和鲁棒性。3) 接触动力学模型:显式建模手指-鼓槌和鼓槌-鼓之间的交互,用于指导策略的学习。4) 奖励函数:设计奖励函数,鼓励策略实现准确的击鼓动作和流畅的节奏。

关键创新:DexDrummer的关键创新在于将轨迹规划与残差强化学习相结合,从而降低了强化学习的探索难度,并提高了策略的训练效率。此外,通过显式建模接触动力学,使策略能够更好地处理接触丰富的交互。

关键设计:在残差强化学习模块中,使用了Actor-Critic算法,Actor网络用于预测残差动作,Critic网络用于评估当前状态的价值。奖励函数的设计考虑了击鼓的准确性、节奏的流畅性以及能量消耗等因素。在sim-to-real迁移中,采用了域随机化技术,以提高策略在真实环境中的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DexDrummer在模拟环境中能够演奏多种风格的鼓乐,包括多鼓、双手歌曲和技术练习。在模拟双手动任务中,该策略在简单歌曲上的F1得分比固定抓取策略高1.87倍,在困难歌曲上的F1得分高1.22倍。在真实世界的任务中,DexDrummer能够以1.0的F1得分演奏训练歌曲及其扩展版本,验证了该策略的有效性和鲁棒性。

🎯 应用场景

DexDrummer的研究成果可以应用于各种需要灵巧操作的机器人任务中,例如装配、医疗手术和家庭服务等。通过学习鼓乐演奏这种复杂的任务,机器人可以掌握更高级的运动控制技能,从而更好地适应各种复杂的环境和任务需求。此外,该研究还可以促进人机协作的发展,使机器人能够与人类进行更自然、更高效的交互。

📄 摘要(原文)

Performing in-hand, contact-rich, and long-horizon dexterous manipulation remains an unsolved challenge in robotics. Prior hand dexterity works have considered each of these three challenges in isolation, yet do not combine these skills into a single, complex task. To further test the capabilities of dexterity, we propose drumming as a testbed for dexterous manipulation. Drumming naturally integrates all three challenges: it involves in-hand control for stabilizing and adjusting the drumstick with the fingers, contact-rich interaction through repeated striking of the drum surface, and long-horizon coordination when switching between drums and sustaining rhythmic play. We present DexDrummer, a hierarchical object-centric bimanual drumming policy trained in simulation with sim-to-real transfer. The framework reduces the exploration difficulty of pure reinforcement learning by combining trajectory planning with residual RL corrections for fast transitions between drums. A dexterous manipulation policy handles contact-rich dynamics, guided by rewards that explicitly model both finger-stick and stick-drum interactions. In simulation, we show our policy can play two styles of music: multi-drum, bimanual songs and challenging, technical exercises that require increased dexterity. Across simulated bimanual tasks, our dexterous, reactive policy outperforms a fixed grasp policy by 1.87x across easy songs and 1.22x across hard songs F1 scores. In real-world tasks, we show song performance across a multi-drum setup. DexDrummer is able to play our training song and its extended version with an F1 score of 1.0.