DexDrummer: In-Hand, Contact-Rich, and Long-Horizon Dexterous Robot Drumming

作者: Hung-Chieh Fang, Amber Xie, Jennifer Grannen, Kenneth Llontop, Dorsa Sadigh

分类: cs.RO

发布日期: 2026-03-23

备注: Website: https://dexdrummer.github.io/

💡 一句话要点

DexDrummer：提出一种能进行手内、接触丰富、长时程灵巧机器人鼓乐演奏的框架。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 灵巧操作 机器人鼓乐 强化学习 接触动力学 Sim-to-Real 轨迹规划 分层控制

📋 核心要点

现有机器人灵巧操作方法难以同时处理手内控制、接触丰富交互和长时程协调等挑战。
DexDrummer提出了一种层级式的、以对象为中心的双手动鼓策略，结合轨迹规划和残差强化学习，降低探索难度。
实验结果表明，该策略在模拟和真实环境中均能有效演奏鼓乐，并在F1得分上优于固定抓取策略。

📝 摘要（中文）

在机器人领域，执行手内、接触丰富和长时程的灵巧操作仍然是一个未解决的挑战。现有的手部灵巧性工作通常孤立地考虑这些挑战，而没有将这些技能整合到一个复杂的任务中。为了进一步测试灵巧性的能力，我们提出将鼓乐演奏作为灵巧操作的试验平台。鼓乐演奏自然地整合了所有三个挑战：它涉及手内控制，用于稳定和调整手指上的鼓槌；通过重复敲击鼓面进行接触丰富的交互；以及在鼓之间切换和维持节奏演奏时的长时程协调。我们提出了 DexDrummer，这是一个层级的、以对象为中心的双手动鼓策略，在模拟环境中训练并通过sim-to-real迁移到真实世界。该框架通过结合轨迹规划和残差强化学习校正，以实现鼓之间的快速转换，从而降低了纯强化学习的探索难度。灵巧操作策略处理接触丰富的动力学，并由显式建模手指-鼓槌和鼓槌-鼓交互的奖励来指导。在模拟中，我们展示了我们的策略可以演奏两种风格的音乐：多鼓、双手歌曲和需要更高灵巧性的具有挑战性的技术练习。在模拟双手动任务中，我们的灵巧、反应式策略在简单歌曲上的F1得分比固定抓取策略高1.87倍，在困难歌曲上的F1得分高1.22倍。在真实世界的任务中，我们展示了在多鼓设置下的歌曲演奏性能。DexDrummer能够以1.0的F1得分演奏我们的训练歌曲及其扩展版本。

🔬 方法详解

问题定义：现有的机器人灵巧操作方法通常孤立地解决手内控制、接触丰富交互和长时程协调等问题，缺乏将这些能力整合到复杂任务中的有效方案。在鼓乐演奏这种复杂的任务中，需要同时控制鼓槌、与鼓面进行接触以及长时间维持节奏，对机器人的灵巧性提出了更高的要求。

核心思路：DexDrummer的核心思路是将鼓乐演奏任务分解为多个子任务，并采用分层控制策略。首先，通过轨迹规划生成鼓槌运动的粗略轨迹，然后利用残差强化学习对轨迹进行精细调整，以实现快速的鼓之间切换。同时，通过显式建模手指-鼓槌和鼓槌-鼓之间的交互，使策略能够处理接触丰富的动力学。

技术框架：DexDrummer框架包含以下几个主要模块：1) 轨迹规划器：生成鼓槌运动的初始轨迹，用于快速切换鼓。2) 残差强化学习模块：对轨迹规划器的输出进行修正，以提高运动的精确性和鲁棒性。3) 接触动力学模型：显式建模手指-鼓槌和鼓槌-鼓之间的交互，用于指导策略的学习。4) 奖励函数：设计奖励函数，鼓励策略实现准确的击鼓动作和流畅的节奏。

关键创新：DexDrummer的关键创新在于将轨迹规划与残差强化学习相结合，从而降低了强化学习的探索难度，并提高了策略的训练效率。此外，通过显式建模接触动力学，使策略能够更好地处理接触丰富的交互。

关键设计：在残差强化学习模块中，使用了Actor-Critic算法，Actor网络用于预测残差动作，Critic网络用于评估当前状态的价值。奖励函数的设计考虑了击鼓的准确性、节奏的流畅性以及能量消耗等因素。在sim-to-real迁移中，采用了域随机化技术，以提高策略在真实环境中的泛化能力。

🖼️ 关键图片

📊 实验亮点

DexDrummer在模拟环境中能够演奏多种风格的鼓乐，包括多鼓、双手歌曲和技术练习。在模拟双手动任务中，该策略在简单歌曲上的F1得分比固定抓取策略高1.87倍，在困难歌曲上的F1得分高1.22倍。在真实世界的任务中，DexDrummer能够以1.0的F1得分演奏训练歌曲及其扩展版本，验证了该策略的有效性和鲁棒性。

🎯 应用场景

DexDrummer的研究成果可以应用于各种需要灵巧操作的机器人任务中，例如装配、医疗手术和家庭服务等。通过学习鼓乐演奏这种复杂的任务，机器人可以掌握更高级的运动控制技能，从而更好地适应各种复杂的环境和任务需求。此外，该研究还可以促进人机协作的发展，使机器人能够与人类进行更自然、更高效的交互。

📄 摘要（原文）

Performing in-hand, contact-rich, and long-horizon dexterous manipulation remains an unsolved challenge in robotics. Prior hand dexterity works have considered each of these three challenges in isolation, yet do not combine these skills into a single, complex task. To further test the capabilities of dexterity, we propose drumming as a testbed for dexterous manipulation. Drumming naturally integrates all three challenges: it involves in-hand control for stabilizing and adjusting the drumstick with the fingers, contact-rich interaction through repeated striking of the drum surface, and long-horizon coordination when switching between drums and sustaining rhythmic play. We present DexDrummer, a hierarchical object-centric bimanual drumming policy trained in simulation with sim-to-real transfer. The framework reduces the exploration difficulty of pure reinforcement learning by combining trajectory planning with residual RL corrections for fast transitions between drums. A dexterous manipulation policy handles contact-rich dynamics, guided by rewards that explicitly model both finger-stick and stick-drum interactions. In simulation, we show our policy can play two styles of music: multi-drum, bimanual songs and challenging, technical exercises that require increased dexterity. Across simulated bimanual tasks, our dexterous, reactive policy outperforms a fixed grasp policy by 1.87x across easy songs and 1.22x across hard songs F1 scores. In real-world tasks, we show song performance across a multi-drum setup. DexDrummer is able to play our training song and its extended version with an F1 score of 1.0.

DexDrummer: In-Hand, Contact-Rich, and Long-Horizon Dexterous Robot Drumming

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理