Prime and Reach: Synthesising Body Motion for Gaze-Primed Object Reach

📄 arXiv: 2512.16456v1 📥 PDF

作者: Masashi Hatano, Saptarshi Sinha, Jacob Chalk, Wei-Hong Li, Hideo Saito, Dima Damen

分类: cs.CV

发布日期: 2025-12-18

备注: Project Page: https://masashi-hatano.github.io/prime-and-reach/


💡 一句话要点

提出基于注视启动的人体运动合成方法,用于物体抓取或放置任务。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体运动生成 注视启动 扩散模型 人机交互 物体抓取

📋 核心要点

  1. 人体运动生成旨在模仿自然行为,但现有方法在模拟注视启动的物体交互方面存在不足。
  2. 本文提出一种基于扩散模型的运动生成方法,利用大规模注视启动数据集进行训练,从而模拟人类的自然交互行为。
  3. 实验表明,该方法在HD-EPIC数据集上取得了显著的启动成功率(60%)和到达成功率(89%),验证了其有效性。

📝 摘要(中文)

本文致力于人体运动生成,旨在模仿自然的人类行为,特别是注视启动的物体抓取或放置行为。为此,作者首次整理了包含23.7K个注视启动的人体运动序列数据集,这些数据来自HD-EPIC、MoGaze、HOT3D、ADT和GIMO五个公开数据集,用于到达目标物体位置。作者预训练了一个文本条件的基于扩散模型的运动生成模型,然后使用目标姿势或位置对模型进行微调。通过包括“到达成功率”和新提出的“启动成功率”在内的多个指标,评估了生成运动模仿自然人类运动的能力。在最大的数据集HD-EPIC上,当以目标物体位置为条件时,该模型达到了60%的启动成功率和89%的到达成功率。

🔬 方法详解

问题定义:论文旨在解决人体运动生成中,如何模拟人类在抓取或放置物体时,先通过注视来启动运动这一行为的问题。现有方法通常难以捕捉这种注视启动的特性,生成的运动不够自然和真实。

核心思路:论文的核心思路是利用大规模的注视启动的人体运动数据,训练一个条件运动生成模型,使其能够学习到注视与后续运动之间的关联。通过将目标物体的位置或姿势作为条件,模型可以生成符合人类直觉的、先注视目标再进行交互的运动序列。

技术框架:整体框架包含以下几个主要步骤:1) 数据收集与整理:从多个公开数据集中收集包含注视信息和人体运动信息的数据,并进行整理和清洗,构建一个大规模的注视启动人体运动数据集。2) 模型预训练:使用文本条件的扩散模型进行预训练,使其具备生成基本人体运动的能力。3) 模型微调:使用整理好的注视启动数据集,以目标物体的位置或姿势为条件,对预训练模型进行微调,使其能够生成符合注视启动特性的运动序列。4) 评估:使用到达成功率和启动成功率等指标,评估生成运动的质量。

关键创新:论文的关键创新在于:1) 构建了一个大规模的注视启动人体运动数据集,为相关研究提供了数据基础。2) 提出了“启动成功率”这一新的评估指标,用于衡量生成运动是否符合人类的注视启动行为。3) 将扩散模型应用于注视启动的人体运动生成,并取得了较好的效果。与现有方法相比,该方法更注重模拟人类的自然交互行为。

关键设计:论文使用扩散模型作为运动生成器,具体实现细节未知。数据集包含23.7K个序列,来自五个数据集。损失函数和网络结构的具体细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在HD-EPIC数据集上,以目标物体位置为条件,达到了60%的启动成功率和89%的到达成功率。这一结果表明,该模型能够有效地学习到注视启动的特性,并生成高质量的人体运动序列。相比于其他方法,该模型在模拟人类自然交互行为方面具有显著优势。

🎯 应用场景

该研究成果可应用于虚拟现实、人机交互、机器人控制等领域。例如,可以用于创建更逼真的虚拟人物,使其能够自然地与虚拟环境中的物体进行交互。在机器人控制方面,可以使机器人能够像人类一样,通过注视来启动对物体的抓取或放置操作,提高机器人的智能化水平。

📄 摘要(原文)

Human motion generation is a challenging task that aims to create realistic motion imitating natural human behaviour. We focus on the well-studied behaviour of priming an object/location for pick up or put down -- that is, the spotting of an object/location from a distance, known as gaze priming, followed by the motion of approaching and reaching the target location. To that end, we curate, for the first time, 23.7K gaze-primed human motion sequences for reaching target object locations from five publicly available datasets, i.e., HD-EPIC, MoGaze, HOT3D, ADT, and GIMO. We pre-train a text-conditioned diffusion-based motion generation model, then fine-tune it conditioned on goal pose or location, on our curated sequences. Importantly, we evaluate the ability of the generated motion to imitate natural human movement through several metrics, including the 'Reach Success' and a newly introduced 'Prime Success' metric. On the largest dataset, HD-EPIC, our model achieves 60% prime success and 89% reach success when conditioned on the goal object location.