AHAP: Reconstructing Arbitrary Humans from Arbitrary Perspectives with Geometric Priors

📄 arXiv: 2602.23951v1 📥 PDF

作者: Xiaozhen Qiao, Wenjia Wang, Zhiyuan Zhao, Jiacheng Sun, Ping Luo, Hongyuan Zhang, Xuelong Li

分类: cs.CV

发布日期: 2026-02-27


💡 一句话要点

AHAP:提出一种无需相机标定的任意视角人体三维重建框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 三维人体重建 多视角几何 相机姿态估计 跨视角关联 深度学习

📋 核心要点

  1. 多视角人体三维重建通常需要预先校准,限制了其在复杂现实场景中的应用。
  2. AHAP框架通过融合多视角几何信息,实现无需相机标定的任意视角人体重建。
  3. 实验表明,AHAP在重建精度和速度上均优于现有方法,尤其在速度上提升显著。

📝 摘要(中文)

本文提出AHAP(从任意视角重建任意人体),一个前馈框架,用于在无需相机标定的情况下,从任意相机视角重建任意人体。核心在于有效融合多视角几何信息,以辅助人体关联、重建和定位。具体而言,我们使用跨视角身份关联模块,通过可学习的人员查询和软分配,并由对比学习进行监督,以解决跨视角人体身份关联问题。人体头部融合跨视角特征和场景上下文以进行SMPL预测,并通过跨视角重投影损失来强制执行身体姿势一致性。此外,多视角几何消除了单目方法中固有的深度模糊性,通过多视角三角测量提供更精确的3D人体定位。在EgoHumans和EgoExo4D上的实验表明,AHAP在世界坐标系人体重建和相机姿态估计方面都取得了有竞争力的性能,同时比基于优化的方法快180倍。

🔬 方法详解

问题定义:现有方法在多视角人体三维重建时,通常依赖于预先的相机标定,例如使用棋盘格或多视角立体视觉(MVS)算法。这极大地限制了这些方法在实际场景中的应用,因为在许多情况下,相机标定信息是不可获取的,或者标定过程非常繁琐。因此,如何实现无需相机标定的多视角人体三维重建是一个重要的挑战。

核心思路:AHAP的核心思路是利用多视角几何信息来辅助人体关联、重建和定位,从而避免对相机标定的依赖。通过跨视角身份关联模块,解决不同视角下同一人体的身份识别问题;通过融合跨视角特征和场景上下文,提高SMPL模型预测的准确性;通过多视角三角测量,消除单目视觉固有的深度模糊性,实现更精确的三维人体定位。

技术框架:AHAP框架主要包含以下几个模块:1) 跨视角身份关联模块:使用可学习的人员查询和软分配,通过对比学习来解决跨视角人体身份关联问题。2) 人体头部模块:融合跨视角特征和场景上下文,用于SMPL模型参数的预测。3) 多视角几何模块:利用多视角三角测量,实现更精确的三维人体定位。整个框架是一个前馈网络,可以直接从多视角图像中预测三维人体模型和相机姿态。

关键创新:AHAP的关键创新在于:1) 无需相机标定:通过多视角几何信息融合,避免了对相机标定的依赖。2) 跨视角身份关联:提出了跨视角身份关联模块,有效解决了不同视角下同一人体的身份识别问题。3) 端到端框架:整个框架是一个端到端的可学习网络,可以直接从多视角图像中预测三维人体模型和相机姿态。

关键设计:1) 跨视角身份关联模块:使用Transformer架构,通过可学习的人员查询来提取每个人的特征,并使用软分配来建立跨视角的身份关联。对比学习用于监督身份关联的准确性。2) 人体头部模块:融合了跨视角特征和场景上下文,使用回归网络预测SMPL模型参数。跨视角重投影损失用于强制执行身体姿势的一致性。3) 多视角几何模块:使用多视角三角测量来估计三维人体的位置,并将其作为约束来优化SMPL模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AHAP在EgoHumans和EgoExo4D数据集上进行了评估,实验结果表明,AHAP在世界坐标系人体重建和相机姿态估计方面都取得了有竞争力的性能。尤其值得一提的是,AHAP比基于优化的方法快180倍,这使得它更适合于实时应用。

🎯 应用场景

AHAP在虚拟现实、增强现实、运动分析、智能监控等领域具有广泛的应用前景。例如,在VR/AR中,可以用于创建更逼真的虚拟化身;在运动分析中,可以用于分析运动员的姿势和动作;在智能监控中,可以用于识别和跟踪人群中的个体。该研究有助于推动三维人体重建技术在实际场景中的应用。

📄 摘要(原文)

Reconstructing 3D humans from images captured at multiple perspectives typically requires pre-calibration, like using checkerboards or MVS algorithms, which limits scalability and applicability in diverse real-world scenarios. In this work, we present \textbf{AHAP} (Reconstructing \textbf{A}rbitrary \textbf{H}umans from \textbf{A}rbitrary \textbf{P}erspectives), a feed-forward framework for reconstructing arbitrary humans from arbitrary camera perspectives without requiring camera calibration. Our core lies in the effective fusion of multi-view geometry to assist human association, reconstruction and localization. Specifically, we use a Cross-View Identity Association module through learnable person queries and soft assignment, supervised by contrastive learning to resolve cross-view human identity association. A Human Head fuses cross-view features and scene context for SMPL prediction, guided by cross-view reprojection losses to enforce body pose consistency. Additionally, multi-view geometry eliminates the depth ambiguity inherent in monocular methods, providing more precise 3D human localization through multi-view triangulation. Experiments on EgoHumans and EgoExo4D demonstrate that AHAP achieves competitive performance on both world-space human reconstruction and camera pose estimation, while being 180$\times$ faster than optimization-based approaches.