Grasp-and-Lift: Executable 3D Hand-Object Interaction Reconstruction via Physics-in-the-Loop Optimization

📄 arXiv: 2601.18121v1 📥 PDF

作者: Byeonggyeol Choi, Woojin Oh, Jongwoo Lim

分类: cs.RO, cs.CV

发布日期: 2026-01-26

备注: 13 pages, 7 figures


💡 一句话要点

提出基于物理引擎优化的抓取与抬起动作重建方法,提升交互真实性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 手部操作 物理仿真 轨迹优化 黑盒优化 机器人学习

📋 核心要点

  1. 现有手部操作数据集在物理模拟中重放时,常出现物理不合理现象,如穿透和抓取失败。
  2. 提出一种模拟循环细化框架,通过黑盒优化将视觉轨迹转化为物理可执行的轨迹。
  3. 实验表明,该方法降低了手和物体姿态误差,更准确地恢复了手-物物理交互。

📝 摘要(中文)

灵巧的手部操作越来越依赖于具有精确手-物轨迹数据的大规模运动数据集。然而,现有的资源,如DexYCB和HO3D,主要针对视觉对齐进行了优化,但在物理模拟器中重放时,常常产生物理上不合理的交互,包括穿透、错过接触和不稳定的抓取。我们提出了一种模拟循环细化框架,将这些视觉对齐的轨迹转换为物理上可执行的轨迹。我们的核心贡献是将此问题形式化为一个易于处理的黑盒优化问题。我们使用基于稀疏时间关键帧的低维样条表示来参数化手的运动。这使我们能够使用强大的无梯度优化器CMA-ES,将高保真物理引擎视为黑盒目标函数。我们的方法找到的运动既能最大化物理上的成功(例如,稳定的抓取和抬起),又能最小化与原始人类演示的偏差。与最近的MANIPTRANS传输管道相比,我们的方法在重放过程中实现了更低的手和物体姿态误差,并更准确地恢复了手-物物理交互。我们的方法提供了一种通用且可扩展的方法,用于将视觉演示转换为物理上有效的轨迹,从而能够生成对于鲁棒策略学习至关重要的高保真数据。

🔬 方法详解

问题定义:现有手部操作数据集(如DexYCB和HO3D)主要关注视觉对齐,忽略了物理可行性。当这些数据集中的轨迹在物理引擎中重放时,经常出现物体穿透、抓取不稳等物理不合理现象。因此,如何将视觉上合理的轨迹转化为物理上可执行的轨迹是一个关键问题。

核心思路:论文的核心思路是将物理引擎作为一个黑盒目标函数,通过优化手部运动参数,使得优化后的轨迹在物理引擎中能够稳定地执行抓取和抬起动作,同时尽可能地保持与原始视觉轨迹的一致性。这种方法避免了直接建模复杂的物理交互过程,而是利用物理引擎的仿真能力来评估轨迹的物理合理性。

技术框架:该方法采用模拟循环细化框架。首先,使用低维样条表示对手的运动进行参数化,通过稀疏的时间关键帧来控制手的姿态。然后,使用CMA-ES(Covariance Matrix Adaptation Evolution Strategy)这种无梯度优化算法,以物理引擎作为黑盒目标函数进行优化。优化目标是最大化物理上的成功(例如,稳定的抓取和抬起),同时最小化与原始人类演示的偏差。

关键创新:该方法最重要的创新点在于将物理引擎视为黑盒目标函数,并使用无梯度优化算法来优化手部运动轨迹。这种方法避免了复杂的物理建模,而是直接利用物理引擎的仿真能力来评估轨迹的物理合理性。此外,使用低维样条表示对手部运动进行参数化,降低了优化问题的维度,提高了优化效率。

关键设计:手的运动使用基于稀疏时间关键帧的低维样条表示进行参数化。优化器采用CMA-ES,这是一种强大的无梯度优化算法,适合处理黑盒优化问题。目标函数包含两部分:一部分是物理成功度量,例如抓取的稳定性、抬起的成功率等;另一部分是与原始视觉轨迹的偏差度量,例如手和物体的姿态误差。通过调整这两部分之间的权重,可以控制优化结果的物理合理性和与原始轨迹的相似度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法与MANIPTRANS等现有方法相比,在重放过程中实现了更低的手和物体姿态误差,并更准确地恢复了手-物物理交互。具体而言,该方法能够生成更稳定的抓取和抬起动作,减少物体穿透等物理不合理现象,从而提高了轨迹的物理可行性。

🎯 应用场景

该研究成果可应用于机器人灵巧操作、虚拟现实交互、以及运动捕捉数据的物理合理性验证等领域。通过将视觉演示转化为物理上有效的轨迹,可以为机器人学习提供高质量的训练数据,提高机器人在复杂环境中的操作能力。此外,该方法还可以用于生成更逼真的虚拟现实交互体验,以及评估和修正运动捕捉数据的物理合理性。

📄 摘要(原文)

Dexterous hand manipulation increasingly relies on large-scale motion datasets with precise hand-object trajectory data. However, existing resources such as DexYCB and HO3D are primarily optimized for visual alignment but often yield physically implausible interactions when replayed in physics simulators, including penetration, missed contact, and unstable grasps. We propose a simulation-in-the-loop refinement framework that converts these visually aligned trajectories into physically executable ones. Our core contribution is to formulate this as a tractable black-box optimization problem. We parameterize the hand's motion using a low-dimensional, spline-based representation built on sparse temporal keyframes. This allows us to use a powerful gradient-free optimizer, CMA-ES, to treat the high-fidelity physics engine as a black-box objective function. Our method finds motions that simultaneously maximize physical success (e.g., stable grasp and lift) while minimizing deviation from the original human demonstration. Compared to MANIPTRANS-recent transfer pipelines, our approach achieves lower hand and object pose errors during replay and more accurately recovers hand-object physical interactions. Our approach provides a general and scalable method for converting visual demonstrations into physically valid trajectories, enabling the generation of high-fidelity data crucial for robust policy learning.