GRAFT: Geometric Refinement and Fitting Transformer for Human Scene Reconstruction

📄 arXiv: 2604.19624v1 📥 PDF

作者: Pradyumna YM, Yuxuan Xue, Yue Chen, Nikita Kister, István Sárándi, Gerard Pons-Moll

分类: cs.CV

发布日期: 2026-04-21

备注: Project Page: https://pradyumnaym.github.io/graft

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出GRAFT,通过几何优化和拟合Transformer实现高质量人体-场景重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting)

关键词: 人体场景重建 几何推理 Transformer网络 人机交互 3D重建

📋 核心要点

  1. 现有方法在人体-场景交互重建中,优化方法精度高但速度慢,前馈方法速度快但缺乏交互推理,导致穿透等问题。
  2. GRAFT通过学习交互梯度,迭代优化人体网格,并利用几何探针捕捉人体与场景的空间关系,实现快速且高质量的重建。
  3. 实验表明,GRAFT在速度上远超优化方法,交互质量显著优于前馈方法,并能泛化到复杂场景,用户偏好度高。

📝 摘要(中文)

当前,从单张图像重建符合物理规则的3D人体-场景交互(HSI)面临一个权衡:基于优化的方法提供精确的接触,但速度慢(约20秒);而前馈方法速度快,但缺乏显式的交互推理,产生漂浮和相互穿透的伪影。我们的关键见解是,基于几何的人体-场景拟合可以被分摊到快速前馈推理中。我们提出了GRAFT(几何优化和拟合Transformer),一个学习到的HSI先验,它预测交互梯度:通过推理人体与周围场景的3D关系,迭代地优化人体网格的修正参数更新。GRAFT将交互状态编码为紧凑的、以身体为锚点的token,每个token通过几何探针扎根于场景几何中,捕捉与附近表面的空间关系。一个轻量级的Transformer循环更新人体网格并重新探测场景,确保最终姿势与学习到的先验和观察到的几何体对齐。GRAFT既可以作为使用图像特征的端到端重建器运行,也可以仅使用几何体作为可转移的即插即用HSI先验,从而改进前馈方法而无需重新训练。实验表明,GRAFT将交互质量提高了高达113%,并且以约50倍的更低运行时间匹配了基于优化的交互质量,同时无缝地推广到野外多人场景,并在64.8%的三方用户研究中受到青睐。

🔬 方法详解

问题定义:论文旨在解决从单张图像中快速且准确地重建符合物理规则的3D人体-场景交互(HSI)的问题。现有基于优化的方法虽然精度高,但计算成本高昂,难以实时应用。而前馈方法虽然速度快,但缺乏对人体与场景之间交互关系的显式建模,容易产生人体漂浮、穿透场景等不真实的伪影。

核心思路:论文的核心思路是将基于几何的人体-场景拟合过程转化为一个可学习的、快速前馈的推理过程。通过学习一个HSI先验,即GRAFT,来预测交互梯度,从而迭代地优化人体网格,使其与场景几何体对齐。这种方法既能保证重建的精度,又能显著提高重建速度。

技术框架:GRAFT的整体框架包含以下几个主要模块:1) 几何探针(Geometric Probes):用于捕捉人体周围场景的几何信息,建立人体与场景之间的空间关系。2) 身体锚定Token(Body-Anchored Tokens):将人体的姿态和形状信息编码为紧凑的token,并以身体部位为锚点。3) Transformer网络:利用Transformer网络对token进行迭代更新,预测交互梯度,从而优化人体网格。4) 迭代优化:通过循环迭代地更新人体网格和重新探测场景,最终得到符合物理规则的重建结果。

关键创新:GRAFT的关键创新在于:1) 交互梯度(Interaction Gradients):通过学习交互梯度来直接预测人体网格的修正参数,避免了复杂的优化过程。2) 几何探针(Geometric Probes):利用几何探针显式地建模人体与场景之间的空间关系,提高了重建的精度。3) 可转移性:GRAFT可以作为即插即用的HSI先验,直接应用于现有的前馈方法,而无需重新训练。

关键设计:GRAFT使用轻量级的Transformer网络,以减少计算量。几何探针的设计考虑了不同身体部位与场景的交互方式。损失函数的设计包括了对人体姿态、形状和与场景交互的约束。具体的参数设置和网络结构细节在论文中有详细描述,例如Transformer的层数、隐藏层维度、注意力头的数量等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GRAFT在人体-场景交互重建任务上取得了显著的性能提升。实验结果表明,GRAFT在交互质量上比最先进的前馈方法提高了高达113%,并且在运行时间上比基于优化的方法快约50倍。用户研究表明,64.8%的用户更喜欢GRAFT的重建结果。这些结果证明了GRAFT在重建精度、速度和用户体验方面的优势。

🎯 应用场景

GRAFT在虚拟现实、增强现实、游戏开发、人机交互等领域具有广泛的应用前景。它可以用于创建更逼真、更自然的虚拟环境,提高用户在虚拟环境中的沉浸感和交互体验。此外,GRAFT还可以应用于机器人领域,帮助机器人更好地理解和与人类进行交互。

📄 摘要(原文)

Reconstructing physically plausible 3D human-scene interactions (HSI) from a single image currently presents a trade-off: optimization based methods offer accurate contact but are slow (~20s), while feed-forward approaches are fast yet lack explicit interaction reasoning, producing floating and interpenetration artifacts. Our key insight is that geometry-based human--scene fitting can be amortized into fast feed-forward inference. We present GRAFT (Geometric Refinement And Fitting Transformer), a learned HSI prior that predicts Interaction Gradients: corrective parameter updates that iteratively refine human meshes by reasoning about their 3D relationship to the surrounding scene. GRAFT encodes the interaction state into compact body-anchored tokens, each grounded in the scene geometry via Geometric Probes that capture spatial relationships with nearby surfaces. A lightweight transformer recurrently updates human meshes and re-probes the scene, ensuring the final pose aligns with both learned priors and observed geometry. GRAFT operates either as an end-to-end reconstructor using image features, or with geometry alone as a transferable plug-and-play HSI prior that improves feed-forward methods without retraining. Experiments show GRAFT improves interaction quality by up to 113% over state-of-the-art feed-forward methods and matches optimization-based interaction quality at ${\sim}50{\times}$ lower runtime, while generalizing seamlessly to in-the-wild multi-person scenes and being preferred in 64.8% of three-way user study. Project page: https://pradyumnaym.github.io/graft .