HART: Human Aligned Reconstruction Transformer

作者: Xiyi Chen, Shaofei Wang, Marko Mihajlovic, Taewon Kang, Sergey Prokudin, Ming Lin

分类: cs.CV

发布日期: 2025-09-30

备注: Project page: https://xiyichen.github.io/hart

💡 一句话要点

HART：提出一种对齐人体的重建Transformer，用于稀疏视角人体重建。

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 人体重建 服装建模 稀疏视角 Transformer网络 SMPL-X模型

📋 核心要点

现有服装人体重建方法难以处理宽松服装、人与物体的交互以及真实场景中的遮挡问题。
HART通过预测逐像素的3D信息和人体对应关系，结合遮挡感知的泊松重建，恢复完整几何形状并与SMPL-X模型对齐。
实验表明，HART在服装网格重建、SMPL-X估计和新视角合成方面均取得了显著的性能提升，优于现有技术。

📝 摘要（中文）

本文介绍了一种统一的稀疏视角人体重建框架HART。给定少量未校准的人体RGB图像作为输入，HART输出一个水密的服装网格、对齐的SMPL-X人体网格以及用于逼真新视角渲染的高斯溅射表示。以往的服装人体重建方法要么优化参数化模板，忽略了宽松的服装和人与物体的交互，要么在简化的相机假设下训练隐式函数，限制了在真实场景中的应用。相比之下，HART预测逐像素的3D点云图、法线和人体对应关系，并采用一种感知遮挡的泊松重建来恢复完整的几何形状，即使在自遮挡区域也能有效处理。这些预测也与参数化的SMPL-X人体模型对齐，确保重建的几何形状与人体结构保持一致，同时捕捉宽松的服装和交互。这些人体对齐的网格初始化高斯溅射，进一步实现稀疏视角渲染。尽管仅在2.3K个合成扫描数据上训练，HART实现了最先进的结果：服装网格重建的Chamfer距离提高了18-23%，SMPL-X估计的PA-V2V降低了6-27%，新视角合成的LPIPS降低了15-27%。这些结果表明，前馈Transformer可以作为一种可扩展的模型，用于在真实世界环境中进行鲁棒的人体重建。代码和模型将会开源。

🔬 方法详解

问题定义：论文旨在解决从少量未校准的RGB图像中重建具有服装细节的完整人体3D模型的问题。现有方法主要存在两个痛点：一是基于参数化模板的方法难以捕捉宽松服装和人与物体的交互；二是基于隐式函数的方法依赖于简化的相机假设，难以应用于真实场景。

核心思路：HART的核心思路是利用Transformer网络直接预测每个像素的3D信息（点云、法线）和人体对应关系，并结合遮挡感知的泊松重建方法，从而在无需简化相机假设的情况下，恢复具有服装细节的完整人体几何形状。同时，通过与SMPL-X人体模型对齐，保证重建结果与人体结构的一致性。

技术框架：HART的整体框架包含以下几个主要模块：1) 输入少量RGB图像，通过Transformer网络预测每个像素的3D点云、法线和人体对应关系；2) 利用预测的3D信息和人体对应关系，进行遮挡感知的泊松重建，得到完整的人体网格模型；3) 将重建的网格模型与SMPL-X人体模型对齐，保证重建结果与人体结构的一致性；4) 使用人体对齐的网格初始化高斯溅射，用于新视角的渲染。

关键创新：HART的关键创新在于：1) 直接预测逐像素的3D信息和人体对应关系，避免了对参数化模板或隐式函数的依赖；2) 采用遮挡感知的泊松重建方法，能够有效处理自遮挡区域，恢复完整的几何形状；3) 将重建结果与SMPL-X人体模型对齐，保证了重建结果与人体结构的一致性。

关键设计：HART的关键设计包括：1) 使用Transformer网络进行逐像素的3D信息预测，充分利用了Transformer的全局建模能力；2) 设计了遮挡感知的泊松重建方法，能够根据预测的深度信息和法线信息，推断出被遮挡区域的几何形状；3) 使用SMPL-X模型作为先验知识，约束重建结果，保证其与人体结构的一致性。

🖼️ 关键图片

📊 实验亮点

HART在多个数据集上取得了显著的性能提升。在服装网格重建方面，Chamfer距离降低了18-23%；在SMPL-X人体姿态估计方面，PA-V2V降低了6-27%；在新视角合成方面，LPIPS降低了15-27%。这些结果表明，HART在服装人体重建方面具有显著的优势，能够生成更准确、更逼真的人体3D模型。

🎯 应用场景

HART的研究成果可广泛应用于虚拟现实、增强现实、游戏、动画制作等领域。例如，可以用于创建逼真的虚拟化身，实现沉浸式的虚拟体验；也可以用于服装设计和试穿，提高购物效率和用户满意度。此外，该技术还可以应用于运动分析、人机交互等领域，具有重要的实际价值和广阔的应用前景。

📄 摘要（原文）

We introduce HART, a unified framework for sparse-view human reconstruction. Given a small set of uncalibrated RGB images of a person as input, it outputs a watertight clothed mesh, the aligned SMPL-X body mesh, and a Gaussian-splat representation for photorealistic novel-view rendering. Prior methods for clothed human reconstruction either optimize parametric templates, which overlook loose garments and human-object interactions, or train implicit functions under simplified camera assumptions, limiting applicability in real scenes. In contrast, HART predicts per-pixel 3D point maps, normals, and body correspondences, and employs an occlusion-aware Poisson reconstruction to recover complete geometry, even in self-occluded regions. These predictions also align with a parametric SMPL-X body model, ensuring that reconstructed geometry remains consistent with human structure while capturing loose clothing and interactions. These human-aligned meshes initialize Gaussian splats to further enable sparse-view rendering. While trained on only 2.3K synthetic scans, HART achieves state-of-the-art results: Chamfer Distance improves by 18-23 percent for clothed-mesh reconstruction, PA-V2V drops by 6-27 percent for SMPL-X estimation, LPIPS decreases by 15-27 percent for novel-view synthesis on a wide range of datasets. These results suggest that feed-forward transformers can serve as a scalable model for robust human reconstruction in real-world settings. Code and models will be released.

HART: Human Aligned Reconstruction Transformer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理