A Versatile and Differentiable Hand-Object Interaction Representation

📄 arXiv: 2409.16855v2 📥 PDF

作者: Théo Morales, Omid Taheri, Gerard Lacey

分类: cs.CV

发布日期: 2024-09-25 (更新: 2024-11-28)

备注: Accepted at the Winter Applications in Computer Vision 2025 conference. 9 pages, 6 figures. Project page: https://theomorales.com/CHOIR


💡 一句话要点

提出CHOIR:一种通用且可微的手-物交互表示方法,用于精确合成HOI。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 手-物交互 HOI建模 扩散模型 可微表示 接触预测

📋 核心要点

  1. 现有HOI方法在生成精确接触方面存在不足,且缺乏完全可微性和连续性,限制了其通用性。
  2. 论文提出CHOIR,利用离散无符号距离和多元高斯分布,实现手-物交互的连续、可微表示。
  3. JointDiffusion模型结合CHOIR,在HOI细化和合成任务上均超越SOTA,显著提升接触精度和物理真实感。

📝 摘要(中文)

精确合成手-物交互(HOI)对于计算机视觉、增强现实(AR)和混合现实(MR)中的应用至关重要。尽管最近取得了进展,但重建或生成的HOI的准确性仍有改进空间。一些技术通过将重点从生成显式接触转移到使用丰富的HOI场来提高密集对应关系的准确性。然而,它们缺乏完全的可微性或连续性,并且是为特定任务量身定制的。相比之下,我们提出了一种粗糙的手-物交互表示(CHOIR),这是一种用于HOI建模的新颖、通用且完全可微的场。CHOIR利用离散无符号距离进行连续形状和姿势编码,同时利用多元高斯分布以少量参数表示密集接触图。为了展示CHOIR的通用性,我们设计了JointDiffusion,一个扩散模型,用于学习以嘈杂的手-物交互或仅以物体几何形状为条件的抓取分布,用于细化和合成应用。我们证明了JointDiffusion在这两个应用中都优于SOTA:它将细化的接触F1分数提高了5%,并将合成的模拟位移降低了46%。我们的实验表明,带有CHOIR的JointDiffusion产生了优于为特定任务设计的SOTA方法的接触精度和物理真实感。

🔬 方法详解

问题定义:论文旨在解决手-物交互(HOI)建模中,现有方法难以兼顾接触精度、可微性和通用性的问题。现有方法要么依赖于显式接触生成,精度有限;要么针对特定任务设计,泛化能力不足;要么缺乏可微性,难以进行端到端优化。

核心思路:论文的核心思路是设计一种连续且可微的HOI表示,即CHOIR。CHOIR通过离散无符号距离编码形状和姿态,并使用多元高斯分布表示密集接触图。这种表示方式既能保证接触精度,又能实现完全可微性,从而支持更灵活的HOI建模。

技术框架:整体框架包含两个主要部分:CHOIR表示和JointDiffusion模型。首先,CHOIR将手和物体的形状、姿态以及接触信息编码成一个连续场。然后,JointDiffusion模型以CHOIR表示为基础,学习抓取分布,用于HOI的细化和合成。JointDiffusion是一个扩散模型,通过逐步去噪的方式生成HOI。

关键创新:论文的关键创新在于CHOIR表示。CHOIR将离散无符号距离和多元高斯分布相结合,实现了HOI的连续、可微表示。这种表示方式能够有效地捕捉手和物体之间的复杂交互关系,并支持端到端优化。与现有方法相比,CHOIR具有更高的精度和更好的泛化能力。

关键设计:CHOIR使用离散无符号距离场来编码手和物体的形状和姿态。具体来说,对于空间中的每个点,CHOIR计算该点到手和物体表面的最小距离,并将其作为该点的特征。此外,CHOIR使用多元高斯分布来表示手和物体之间的接触信息。每个高斯分布的均值和方差分别表示接触点的位置和不确定性。JointDiffusion模型使用U-Net架构,通过逐步去噪的方式生成HOI。损失函数包括重建损失和对抗损失,用于保证生成HOI的精度和真实感。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,JointDiffusion结合CHOIR在HOI细化和合成任务上均优于SOTA方法。在HOI细化任务中,接触F1分数提高了5%。在HOI合成任务中,模拟位移降低了46%。这些结果表明,CHOIR能够有效地表示手-物交互,并提升HOI建模的精度和真实感。

🎯 应用场景

该研究成果可广泛应用于计算机视觉、增强现实(AR)和混合现实(MR)等领域。例如,可以用于虚拟现实中的物体交互、机器人抓取任务、以及人机协作等场景。通过精确合成手-物交互,可以提升用户体验和系统性能,并为相关应用带来更强的物理真实感。

📄 摘要(原文)

Synthesizing accurate hands-object interactions (HOI) is critical for applications in Computer Vision, Augmented Reality (AR), and Mixed Reality (MR). Despite recent advances, the accuracy of reconstructed or generated HOI leaves room for refinement. Some techniques have improved the accuracy of dense correspondences by shifting focus from generating explicit contacts to using rich HOI fields. Still, they lack full differentiability or continuity and are tailored to specific tasks. In contrast, we present a Coarse Hand-Object Interaction Representation (CHOIR), a novel, versatile and fully differentiable field for HOI modelling. CHOIR leverages discrete unsigned distances for continuous shape and pose encoding, alongside multivariate Gaussian distributions to represent dense contact maps with few parameters. To demonstrate the versatility of CHOIR we design JointDiffusion, a diffusion model to learn a grasp distribution conditioned on noisy hand-object interactions or only object geometries, for both refinement and synthesis applications. We demonstrate JointDiffusion's improvements over the SOTA in both applications: it increases the contact F1 score by $5\%$ for refinement and decreases the sim. displacement by $46\%$ for synthesis. Our experiments show that JointDiffusion with CHOIR yield superior contact accuracy and physical realism compared to SOTA methods designed for specific tasks. Project page: https://theomorales.com/CHOIR