Target Pose Guided Whole-body Grasping Motion Generation for Digital Humans

作者: Quanquan Shao, Yi Fang

分类: cs.RO, cs.AI, cs.GR

发布日期: 2024-09-26

备注: 7 pages,5 figures

💡 一句话要点

提出一种目标姿态引导的数字人全身抓取动作生成框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion)

关键词: 全身抓取 动作生成 数字人 Transformer网络 目标姿态引导

📋 核心要点

现有抓取研究主要关注静态抓取姿态，缺乏对数字人全身抓取动作生成的研究。
该方法利用目标抓取姿态引导，通过Transformer网络生成平滑自然的全身抓取轨迹。
通过后优化组件，有效缓解了足部滑动和手部与物体穿透等问题，提升了动作的真实性。

📝 摘要（中文）

本文提出了一种用于数字人全身抓取动作生成的框架。抓取操作是人与日常物品交互的基本方式，抓取动作的合成在动画和机器人等领域有巨大需求。现有抓取研究主要集中于使用平行夹爪或灵巧手生成最终静态抓取姿态，而针对完整手臂，特别是类人智能体的抓取动作生成仍不充分。本文首先基于现成的目标抓取姿态生成方法，为全身数字人生成目标姿态。然后，利用基于Transformer的神经网络生成连接初始姿态和目标姿态的完整抓取轨迹，使其平滑自然。此外，设计了两个后优化组件，分别缓解足部滑动和手部与物体之间的穿透问题。在GRAB数据集上进行的实验证明了该方法在随机放置的未知物体上生成全身抓取动作的有效性。

🔬 方法详解

问题定义：现有抓取动作生成方法主要集中在机械臂或灵巧手的末端执行器上，缺乏对具有高自由度的全身数字人的研究。直接生成全身抓取动作面临着高维控制、运动自然性和避免物理穿透等挑战。现有方法难以生成自然、连贯且避免足部滑动和手部穿透的全身抓取动作。

核心思路：该论文的核心思路是利用目标抓取姿态作为引导，将复杂的全身抓取动作生成问题分解为两个阶段：首先确定目标抓取姿态，然后生成从初始姿态到目标姿态的平滑过渡轨迹。这种方法降低了问题的复杂度，并允许利用现有的目标抓取姿态生成方法。

技术框架：该框架包含三个主要阶段：1) 目标姿态生成：使用现成的目标抓取姿态生成方法，根据物体初始姿态生成数字人的目标抓取姿态。2) 轨迹生成：使用基于Transformer的神经网络，以初始姿态和目标姿态为输入，生成连接两者的全身抓取轨迹。3) 后优化：设计两个后优化组件，分别用于缓解足部滑动和手部与物体之间的穿透问题。

关键创新：该方法的主要创新在于将目标姿态引导引入全身抓取动作生成，并利用Transformer网络学习抓取轨迹。此外，后优化组件的引入有效地解决了足部滑动和手部穿透等实际问题，提高了生成动作的真实感。

关键设计：Transformer网络被用于学习抓取轨迹，其输入包括初始姿态和目标姿态。损失函数的设计需要考虑运动的平滑性、自然性和避免物理穿透。后优化组件通过调整足部位置和手部姿态来最小化足部滑动和手部穿透的程度。具体的参数设置和损失函数细节在论文中未详细说明，属于未知信息。

📊 实验亮点

该论文在GRAB数据集上进行了实验，验证了所提出方法的有效性。虽然论文中没有给出具体的性能数据和对比基线，但实验结果表明，该方法能够生成自然、连贯且避免足部滑动和手部穿透的全身抓取动作。与现有方法相比，该方法在生成全身抓取动作方面具有显著优势。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏、动画制作和机器人等领域。例如，可以用于创建更逼真的虚拟角色交互动画，或者用于训练机器人执行复杂的抓取任务。该技术有助于提升人机交互的自然性和效率，并为数字人的智能化发展提供支持。

📄 摘要（原文）

Grasping manipulation is a fundamental mode for human interaction with daily life objects. The synthesis of grasping motion is also greatly demanded in many applications such as animation and robotics. In objects grasping research field, most works focus on generating the last static grasping pose with a parallel gripper or dexterous hand. Grasping motion generation for the full arm especially for the full humanlike intelligent agent is still under-explored. In this work, we propose a grasping motion generation framework for digital human which is an anthropomorphic intelligent agent with high degrees of freedom in virtual world. Given an object known initial pose in 3D space, we first generate a target pose for whole-body digital human based on off-the-shelf target grasping pose generation methods. With an initial pose and this generated target pose, a transformer-based neural network is used to generate the whole grasping trajectory, which connects initial pose and target pose smoothly and naturally. Additionally, two post optimization components are designed to mitigates foot-skating issue and hand-object interpenetration separately. Experiments are conducted on GRAB dataset to demonstrate effectiveness of this proposed method for whole-body grasping motion generation with randomly placed unknown objects.

Target Pose Guided Whole-body Grasping Motion Generation for Digital Humans

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理