Human Interaction-Aware 3D Reconstruction from a Single Image

📄 arXiv: 2604.05436v1 📥 PDF

作者: Gwanghyun Kim, Junghun James Kim, Suh Yoon Jeon, Jason Park, Se Young Chun

分类: cs.CV, cs.AI

发布日期: 2026-04-07

备注: Accepted to CVPR 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出HUG3D框架,从单张图像重建交互人群的物理合理3D模型

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 3D重建 单视图重建 人群建模 人机交互 扩散模型 物理先验 几何优化

📋 核心要点

  1. 现有方法在多人场景下,由于忽略了人与人之间的交互和遮挡关系,导致3D重建结果不真实,存在几何失真。
  2. HUG3D框架通过显式建模群体和个体信息,并引入物理交互先验,从而生成更逼真和物理合理的3D重建。
  3. 实验结果表明,HUG3D在交互人群的3D重建任务上,显著优于现有的单人和多人方法,实现了更高的重建质量。

📝 摘要(中文)

从单张图像重建带纹理的3D人体模型是AR/VR和数字人应用的基础。然而,现有方法主要关注单个人物,因此在多人场景中表现不佳,个体重建的简单组合常常导致不真实的重叠、遮挡区域的几何缺失以及扭曲的交互等问题。这些限制突显了需要结合群体层面上下文和交互先验的方法。我们提出了一种整体方法,显式地建模群体和个体层面的信息。为了减轻透视引起的几何失真,我们首先将输入转换到规范的正交空间。我们的主要组件Human Group-Instance Multi-View Diffusion (HUG-MVD)通过联合建模个体和群体上下文来生成完整的多视角法线和图像,从而解决遮挡和邻近问题。随后,Human Group-Instance Geometric Reconstruction (HUG-GR)模块利用显式的、基于物理的交互先验来优化几何体,以强制物理合理性并准确地建模人际接触。最后,多视角图像被融合为高保真纹理。这些组件共同构成了我们的完整框架HUG3D。大量实验表明,HUG3D显著优于单人和现有的多人方法,从单张图像生成物理合理、高保真度的交互人群3D重建。

🔬 方法详解

问题定义:现有方法在从单张图像重建多人场景的3D人体模型时,主要痛点在于无法处理人与人之间的遮挡和交互关系,导致重建结果出现几何失真、不自然的重叠等问题。这些方法通常独立地重建每个人物,然后简单地组合在一起,忽略了群体层面的上下文信息。

核心思路:HUG3D的核心思路是同时建模群体和个体层面的信息,并引入物理交互先验来约束重建过程。通过将输入图像转换到规范的正交空间,减轻透视失真,并利用扩散模型生成多视角图像,从而解决遮挡问题。此外,通过物理交互先验,确保重建结果的物理合理性,例如避免人物穿模等情况。

技术框架:HUG3D框架包含三个主要模块:1) 将输入图像转换到规范正交空间;2) Human Group-Instance Multi-View Diffusion (HUG-MVD),用于生成完整的多视角法线和图像;3) Human Group-Instance Geometric Reconstruction (HUG-GR),利用物理交互先验优化几何体。最后,将多视角图像融合为高保真纹理。

关键创新:HUG3D的关键创新在于:1) 显式地建模群体和个体层面的信息,从而更好地理解场景上下文;2) 引入物理交互先验,确保重建结果的物理合理性;3) 使用扩散模型生成多视角图像,从而解决遮挡问题。这些创新使得HUG3D能够生成更逼真和物理合理的交互人群3D重建。

关键设计:HUG-MVD模块使用扩散模型来生成多视角图像,该模型以单张输入图像和人物姿态作为输入,输出多视角的法线和图像。HUG-GR模块使用基于物理的损失函数来约束几何体的优化,例如,使用穿透损失来避免人物穿模,使用接触损失来鼓励人物之间的合理接触。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HUG3D在交互人群的3D重建任务上,显著优于现有的单人和多人方法。具体来说,HUG3D在重建质量和物理合理性方面都取得了显著提升。与现有方法相比,HUG3D能够生成更逼真、更自然的交互人群3D模型,减少了几何失真和不自然的重叠等问题。项目主页提供了更多实验结果和可视化展示。

🎯 应用场景

HUG3D技术可广泛应用于AR/VR、数字人、游戏、电影等领域。例如,在AR/VR中,可以用于创建逼真的虚拟社交场景;在数字人领域,可以用于生成具有自然交互行为的数字角色;在游戏和电影中,可以用于快速创建高质量的3D人物模型。该技术还有潜力应用于人机交互、行为分析等领域,具有重要的实际价值和广阔的应用前景。

📄 摘要(原文)

Reconstructing textured 3D human models from a single image is fundamental for AR/VR and digital human applications. However, existing methods mostly focus on single individuals and thus fail in multi-human scenes, where naive composition of individual reconstructions often leads to artifacts such as unrealistic overlaps, missing geometry in occluded regions, and distorted interactions. These limitations highlight the need for approaches that incorporate group-level context and interaction priors. We introduce a holistic method that explicitly models both group- and instance-level information. To mitigate perspective-induced geometric distortions, we first transform the input into a canonical orthographic space. Our primary component, Human Group-Instance Multi-View Diffusion (HUG-MVD), then generates complete multi-view normals and images by jointly modeling individuals and group context to resolve occlusions and proximity. Subsequently, the Human Group-Instance Geometric Reconstruction (HUG-GR) module optimizes the geometry by leveraging explicit, physics-based interaction priors to enforce physical plausibility and accurately model inter-human contact. Finally, the multi-view images are fused into a high-fidelity texture. Together, these components form our complete framework, HUG3D. Extensive experiments show that HUG3D significantly outperforms both single-human and existing multi-human methods, producing physically plausible, high-fidelity 3D reconstructions of interacting people from a single image. Project page: https://jongheean11.github.io/HUG3D_project