GRAFT: Geometric Refinement and Fitting Transformer for Human Scene Reconstruction

作者: Pradyumna YM, Yuxuan Xue, Yue Chen, Nikita Kister, István Sárándi, Gerard Pons-Moll

分类: cs.CV

发布日期: 2026-04-21

备注: Project Page: https://pradyumnaym.github.io/graft

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出GRAFT，通过几何优化和拟合Transformer实现高质量人体-场景重建

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱四：生成式动作 (Generative Motion) 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting)

关键词: 人体场景重建 几何推理 Transformer网络 人机交互 3D重建

📋 核心要点

现有方法在人体-场景交互重建中，优化方法精度高但速度慢，前馈方法速度快但缺乏交互推理，导致穿透等问题。
GRAFT通过学习交互梯度，迭代优化人体网格，并利用几何探针捕捉人体与场景的空间关系，实现快速且高质量的重建。
实验表明，GRAFT在速度上远超优化方法，交互质量显著优于前馈方法，并能泛化到复杂场景，用户偏好度高。

📝 摘要（中文）

当前，从单张图像重建符合物理规则的3D人体-场景交互(HSI)面临一个权衡：基于优化的方法提供精确的接触，但速度慢（约20秒）；而前馈方法速度快，但缺乏显式的交互推理，产生漂浮和相互穿透的伪影。我们的关键见解是，基于几何的人体-场景拟合可以被分摊到快速前馈推理中。我们提出了GRAFT（几何优化和拟合Transformer），一个学习到的HSI先验，它预测交互梯度：通过推理人体与周围场景的3D关系，迭代地优化人体网格的修正参数更新。GRAFT将交互状态编码为紧凑的、以身体为锚点的token，每个token通过几何探针扎根于场景几何中，捕捉与附近表面的空间关系。一个轻量级的Transformer循环更新人体网格并重新探测场景，确保最终姿势与学习到的先验和观察到的几何体对齐。GRAFT既可以作为使用图像特征的端到端重建器运行，也可以仅使用几何体作为可转移的即插即用HSI先验，从而改进前馈方法而无需重新训练。实验表明，GRAFT将交互质量提高了高达113%，并且以约50倍的更低运行时间匹配了基于优化的交互质量，同时无缝地推广到野外多人场景，并在64.8%的三方用户研究中受到青睐。

🔬 方法详解

问题定义：论文旨在解决从单张图像中快速且准确地重建符合物理规则的3D人体-场景交互(HSI)的问题。现有基于优化的方法虽然精度高，但计算成本高昂，难以实时应用。而前馈方法虽然速度快，但缺乏对人体与场景之间交互关系的显式建模，容易产生人体漂浮、穿透场景等不真实的伪影。

核心思路：论文的核心思路是将基于几何的人体-场景拟合过程转化为一个可学习的、快速前馈的推理过程。通过学习一个HSI先验，即GRAFT，来预测交互梯度，从而迭代地优化人体网格，使其与场景几何体对齐。这种方法既能保证重建的精度，又能显著提高重建速度。

技术框架：GRAFT的整体框架包含以下几个主要模块：1) 几何探针(Geometric Probes)：用于捕捉人体周围场景的几何信息，建立人体与场景之间的空间关系。2) 身体锚定Token(Body-Anchored Tokens)：将人体的姿态和形状信息编码为紧凑的token，并以身体部位为锚点。3) Transformer网络：利用Transformer网络对token进行迭代更新，预测交互梯度，从而优化人体网格。4) 迭代优化：通过循环迭代地更新人体网格和重新探测场景，最终得到符合物理规则的重建结果。

关键创新：GRAFT的关键创新在于：1) 交互梯度(Interaction Gradients)：通过学习交互梯度来直接预测人体网格的修正参数，避免了复杂的优化过程。2) 几何探针(Geometric Probes)：利用几何探针显式地建模人体与场景之间的空间关系，提高了重建的精度。3) 可转移性：GRAFT可以作为即插即用的HSI先验，直接应用于现有的前馈方法，而无需重新训练。

关键设计：GRAFT使用轻量级的Transformer网络，以减少计算量。几何探针的设计考虑了不同身体部位与场景的交互方式。损失函数的设计包括了对人体姿态、形状和与场景交互的约束。具体的参数设置和网络结构细节在论文中有详细描述，例如Transformer的层数、隐藏层维度、注意力头的数量等。

🖼️ 关键图片

📊 实验亮点

GRAFT在人体-场景交互重建任务上取得了显著的性能提升。实验结果表明，GRAFT在交互质量上比最先进的前馈方法提高了高达113%，并且在运行时间上比基于优化的方法快约50倍。用户研究表明，64.8%的用户更喜欢GRAFT的重建结果。这些结果证明了GRAFT在重建精度、速度和用户体验方面的优势。

🎯 应用场景

GRAFT在虚拟现实、增强现实、游戏开发、人机交互等领域具有广泛的应用前景。它可以用于创建更逼真、更自然的虚拟环境，提高用户在虚拟环境中的沉浸感和交互体验。此外，GRAFT还可以应用于机器人领域，帮助机器人更好地理解和与人类进行交互。

📄 摘要（原文）

Reconstructing physically plausible 3D human-scene interactions (HSI) from a single image currently presents a trade-off: optimization based methods offer accurate contact but are slow (~20s), while feed-forward approaches are fast yet lack explicit interaction reasoning, producing floating and interpenetration artifacts. Our key insight is that geometry-based human--scene fitting can be amortized into fast feed-forward inference. We present GRAFT (Geometric Refinement And Fitting Transformer), a learned HSI prior that predicts Interaction Gradients: corrective parameter updates that iteratively refine human meshes by reasoning about their 3D relationship to the surrounding scene. GRAFT encodes the interaction state into compact body-anchored tokens, each grounded in the scene geometry via Geometric Probes that capture spatial relationships with nearby surfaces. A lightweight transformer recurrently updates human meshes and re-probes the scene, ensuring the final pose aligns with both learned priors and observed geometry. GRAFT operates either as an end-to-end reconstructor using image features, or with geometry alone as a transferable plug-and-play HSI prior that improves feed-forward methods without retraining. Experiments show GRAFT improves interaction quality by up to 113% over state-of-the-art feed-forward methods and matches optimization-based interaction quality at ${\sim}50{\times}$ lower runtime, while generalizing seamlessly to in-the-wild multi-person scenes and being preferred in 64.8% of three-way user study. Project page: https://pradyumnaym.github.io/graft .

GRAFT: Geometric Refinement and Fitting Transformer for Human Scene Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理