Grasp to Act: Dexterous Grasping for Tool Use in Dynamic Settings

📄 arXiv: 2602.20466v1 📥 PDF

作者: Harsh Gupta, Mohammad Amin Mirzaee, Wenzhen Yuan

分类: cs.RO

发布日期: 2026-02-24

备注: Result videos can be found at https://grasp2act.github.io/


💡 一句话要点

Grasp-to-Act:结合物理优化与强化学习,实现动态环境下工具使用的灵巧抓取

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 灵巧抓取 工具使用 动态环境 强化学习 物理仿真 机器人操作

📋 核心要点

  1. 现有抓取方法难以应对工具使用中常见的动态外力,导致操作失败。
  2. Grasp-to-Act结合物理优化与强化学习,实现抓取的自适应调整,提升鲁棒性。
  3. 实验表明,该方法在多种动态工具使用任务中表现出色,实现零样本迁移。

📝 摘要(中文)

在灵巧手抓取中,尤其是在涉及冲击、扭矩和持续阻力等动态力的操作中(常见于实际工具使用),实现鲁棒的抓取仍然具有挑战性。现有方法主要针对静态几何稳定性优化抓取,一旦操作过程中出现外力,往往会失效。我们提出了Grasp-to-Act,一个混合系统,它结合了基于物理的抓取优化和基于强化学习的抓取自适应,以在整个功能性操作任务中保持稳定的抓取。我们的方法综合了受人类演示启发的鲁棒抓取配置,并采用自适应控制器,该控制器残差式地发出关节校正,以防止在跟踪物体轨迹时发生手中滑动。Grasp-to-Act实现了在五个动态工具使用任务(锤击、锯切、切割、搅拌和舀取)中的鲁棒零样本sim-to-real迁移,并且始终优于基线。在模拟和真实硬件试验中,使用一个16自由度的灵巧手,我们的方法减少了平移和旋转的手中滑动,并实现了最高的任务完成率,证明了在动态、接触丰富的条件下稳定的功能性抓取。

🔬 方法详解

问题定义:论文旨在解决灵巧手在动态环境下使用工具时,难以保持稳定抓取的问题。现有方法主要关注静态几何稳定性,忽略了工具使用过程中产生的冲击、扭矩等动态外力,导致抓取容易失效。因此,需要一种能够适应动态环境并保持稳定抓取的控制方法。

核心思路:论文的核心思路是将基于物理的抓取优化与基于强化学习的抓取自适应相结合。首先,利用物理引擎进行抓取优化,找到初始的鲁棒抓取配置。然后,通过强化学习训练一个自适应控制器,该控制器能够根据实际操作中的力反馈信息,对关节进行微调,从而防止手中滑动,保持抓取的稳定性。

技术框架:Grasp-to-Act系统包含两个主要模块:抓取优化模块和抓取自适应模块。抓取优化模块利用物理引擎,根据物体的几何形状和力学特性,优化初始抓取姿态。抓取自适应模块则是一个基于强化学习的控制器,它接收来自力/扭矩传感器的反馈信息,并输出关节控制指令,对抓取姿态进行实时调整。整个流程是先进行离线的抓取优化,然后在实际操作中利用强化学习进行在线的抓取自适应。

关键创新:该方法最重要的创新点在于将物理优化和强化学习相结合,充分利用了物理引擎的先验知识和强化学习的自适应能力。与传统的基于视觉或力觉的抓取方法相比,该方法能够更好地应对动态环境中的不确定性,实现更鲁棒的抓取。此外,该方法还采用了残差控制策略,只对关节进行微调,避免了大幅度的姿态调整,从而保证了抓取的稳定性。

关键设计:在抓取优化模块中,论文采用了基于力闭合的优化目标,确保抓取能够抵抗外部扰动。在强化学习模块中,论文使用了Actor-Critic算法,Actor网络输出关节控制指令,Critic网络评估当前状态的价值。奖励函数的设计考虑了手中滑动的程度、任务完成的进度以及关节运动的幅度。此外,论文还采用了域随机化技术,增强了模型的泛化能力,使其能够适应真实环境中的噪声和不确定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Grasp-to-Act在五个动态工具使用任务(锤击、锯切、切割、搅拌和舀取)中均取得了显著的性能提升,实现了零样本sim-to-real迁移。与基线方法相比,该方法显著降低了平移和旋转的手中滑动,并实现了最高的任务完成率,证明了其在动态、接触丰富的条件下具有优越的抓取性能。

🎯 应用场景

该研究成果可广泛应用于机器人自动化、智能制造、医疗康复等领域。例如,在智能制造中,机器人可以利用该方法进行复杂的装配和操作任务;在医疗康复领域,可以帮助患者进行精细动作的训练和辅助。

📄 摘要(原文)

Achieving robust grasping with dexterous hands remains challenging, especially when manipulation involves dynamic forces such as impacts, torques, and continuous resistance--situations common in real-world tool use. Existing methods largely optimize grasps for static geometric stability and often fail once external forces arise during manipulation. We present Grasp-to-Act, a hybrid system that combines physics-based grasp optimization with reinforcement-learning-based grasp adaptation to maintain stable grasps throughout functional manipulation tasks. Our method synthesizes robust grasp configurations informed by human demonstrations and employs an adaptive controller that residually issues joint corrections to prevent in-hand slip while tracking the object trajectory. Grasp-to-Act enables robust zero-shot sim-to-real transfer across five dynamic tool-use tasks--hammering, sawing, cutting, stirring, and scooping--consistently outperforming baselines. Across simulation and real-world hardware trials with a 16-DoF dexterous hand, our method reduces translational and rotational in-hand slip and achieves the highest task completion rates, demonstrating stable functional grasps under dynamic, contact-rich conditions.