AHOY! Animatable Humans under Occlusion from YouTube Videos with Gaussian Splatting and Video Diffusion Priors

📄 arXiv: 2603.17975v1 📥 PDF

作者: Aymen Mir, Riza Alp Guler, Xiangjun Tang, Peter Wonka, Gerard Pons-Moll

分类: cs.CV

发布日期: 2026-03-18

备注: Our project page is available at https://miraymen.github.io/ahoy/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AHOY:利用高斯溅射和视频扩散先验,从YouTube视频中重建遮挡下可动画的人体

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维重建 高斯溅射 扩散模型 人体建模 遮挡处理

📋 核心要点

  1. 现有方法难以处理真实场景中普遍存在的遮挡问题,导致无法从大量视频素材中重建人体。
  2. AHOY利用身份微调的扩散模型生成未观察区域的监督信号,并设计了两阶段架构来处理稀疏观测。
  3. 实验表明,AHOY在遮挡场景下实现了最先进的重建质量,并能生成可动画的鲁棒头像。

📝 摘要(中文)

我们提出了AHOY,一种从真实场景的单目视频中重建完整、可动画的3D高斯头像的方法,即使存在严重的遮挡。现有方法通常假设输入是无遮挡的,即主体完全可见,通常处于规范姿势,这排除了绝大多数真实世界的视频素材,在这些素材中,人们经常被家具、物体或其他人遮挡。从此类素材中重建带来了根本性的挑战:身体的大部分区域可能从未被观察到,并且每个姿势都无法获得多视角监督。我们通过四个贡献来解决这些挑战:(i)一种幻觉即监督的流程,它使用身份微调的扩散模型来为先前未观察到的身体区域生成密集的监督;(ii)一种两阶段的规范到姿势相关的架构,该架构从稀疏的观察结果引导到完整的姿势相关的高斯图;(iii)一种图姿势/LBS姿势解耦,它吸收了来自生成数据的多视角不一致性;(iv)一种头部/身体分离的监督策略,用于保留面部身份。我们在YouTube视频和具有显著遮挡的多视角捕获数据上进行了评估,并展示了最先进的重建质量。我们还证明了由此产生的头像足够鲁棒,可以用新的姿势进行动画处理,并合成到使用手机视频捕获的3DGS场景中。

🔬 方法详解

问题定义:论文旨在解决从单目视频中重建被严重遮挡的可动画3D人体模型的问题。现有方法通常依赖于无遮挡的输入,这限制了它们在真实世界场景中的应用。由于遮挡导致部分身体区域无法被观测到,以及缺乏多视角监督,重建过程面临着巨大的挑战。

核心思路:论文的核心思路是利用扩散模型生成未观测区域的“幻觉”作为监督信号,从而弥补数据缺失。通过身份微调的扩散模型,可以生成与目标人物身份一致的身体区域图像,为重建提供额外的约束。同时,采用两阶段架构和姿势解耦策略来处理生成数据带来的多视角不一致性。

技术框架:AHOY包含以下主要模块:1) 身份微调的扩散模型,用于生成未观测区域的图像;2) 两阶段的规范到姿势相关的架构,首先从稀疏观测中估计规范空间的高斯图,然后将其变形到姿势空间;3) 图姿势/LBS姿势解耦,用于吸收多视角不一致性;4) 头部/身体分离的监督策略,以保留面部身份。整体流程是从单目视频中提取图像特征,利用扩散模型生成监督信号,然后通过两阶段架构重建3D高斯头像。

关键创新:AHOY的关键创新在于:1) 提出了一种“幻觉即监督”的框架,利用扩散模型生成未观测区域的监督信号,从而解决了遮挡问题;2) 设计了一种两阶段的规范到姿势相关的架构,可以从稀疏观测中重建完整的人体模型;3) 引入了图姿势/LBS姿势解耦,以处理生成数据带来的多视角不一致性。

关键设计:论文使用了预训练的扩散模型,并对其进行身份微调,以生成与目标人物身份一致的图像。两阶段架构中,第一阶段使用稀疏观测估计规范空间的高斯图,第二阶段使用LBS(Linear Blend Skinning)将高斯图变形到姿势空间。损失函数包括图像重建损失、正则化损失和身份保持损失。头部/身体分离的监督策略通过对头部区域施加更强的身份约束来保留面部特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AHOY在YouTube视频和多视角捕获数据上进行了评估,实验结果表明,AHOY在遮挡场景下实现了最先进的重建质量。与现有方法相比,AHOY能够生成更完整、更逼真、更可动画的人体模型。此外,AHOY生成的头像可以成功地合成到3DGS场景中,并进行动画处理。

🎯 应用场景

AHOY技术可应用于虚拟现实、增强现实、游戏开发、电影制作等领域。它可以用于创建逼真的虚拟化身,并将其集成到各种3D环境中。该技术还可以用于修复和增强旧视频素材,以及生成具有特定姿势和动作的人体模型。未来,该技术有望应用于远程协作、虚拟试衣等更广泛的场景。

📄 摘要(原文)

We present AHOY, a method for reconstructing complete, animatable 3D Gaussian avatars from in-the-wild monocular video despite heavy occlusion. Existing methods assume unoccluded input-a fully visible subject, often in a canonical pose-excluding the vast majority of real-world footage where people are routinely occluded by furniture, objects, or other people. Reconstructing from such footage poses fundamental challenges: large body regions may never be observed, and multi-view supervision per pose is unavailable. We address these challenges with four contributions: (i) a hallucination-as-supervision pipeline that uses identity-finetuned diffusion models to generate dense supervision for previously unobserved body regions; (ii) a two-stage canonical-to-pose-dependent architecture that bootstraps from sparse observations to full pose-dependent Gaussian maps; (iii) a map-pose/LBS-pose decoupling that absorbs multi-view inconsistencies from the generated data; (iv) a head/body split supervision strategy that preserves facial identity. We evaluate on YouTube videos and on multi-view capture data with significant occlusion and demonstrate state-of-the-art reconstruction quality. We also demonstrate that the resulting avatars are robust enough to be animated with novel poses and composited into 3DGS scenes captured using cell-phone video. Our project page is available at https://miraymen.github.io/ahoy/