CrowdGaussian: Reconstructing High-Fidelity 3D Gaussians for Human Crowd from a Single Image

作者: Yizheng Song, Yiyu Zhuang, Qipeng Xu, Haixiang Wang, Jiahe Zhu, Jing Tian, Siyu Zhu, Hao Zhu

分类: cs.CV

发布日期: 2026-03-18

备注: Accepted by CVPR 2026

💡 一句话要点

CrowdGaussian：提出单图重建人群高保真3D高斯模型方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 人群重建 3D高斯溅射 单视角重建 自监督学习 扩散模型 遮挡处理 人体建模

📋 核心要点

现有单视角3D人体重建方法在多人场景下效果不佳，主要挑战在于遮挡、低清晰度和外观多样性。
CrowdGaussian通过自监督适应流程和自校准学习策略，直接从单张图像重建多人3D高斯模型。
实验结果表明，CrowdGaussian能够生成逼真且几何连贯的多人场景重建结果，显著提升重建质量。

📝 摘要（中文）

本文提出CrowdGaussian，一个统一的框架，用于直接从单张图像输入重建多人3D高斯溅射(3DGS)表示。为了处理遮挡问题，我们设计了一个自监督的适应流程，使预训练的大型人体模型能够从严重遮挡的输入中重建具有合理几何形状和外观的完整3D人体。此外，我们引入了自校准学习(SCL)。这种训练策略使单步扩散模型能够通过将保持身份的样本与干净/损坏的图像对混合，自适应地将粗糙的渲染结果细化到最佳质量。输出可以被提炼回来，以提高多人3DGS表示的质量。大量的实验表明，CrowdGaussian生成了多人场景的逼真、几何连贯的重建。

🔬 方法详解

问题定义：现有单视角3D人体重建方法主要针对单个、清晰的人体图像，在多人场景下，由于严重的遮挡、低清晰度和复杂的外观变化，重建效果显著下降。这些方法难以处理人群场景中普遍存在的遮挡问题，并且无法有效利用预训练的人体模型。

核心思路：CrowdGaussian的核心思路是直接从单张图像重建多人场景的3D高斯模型，并利用自监督学习和自校准学习来解决遮挡和低质量渲染的问题。通过自监督适应流程，使预训练的人体模型能够处理遮挡情况，并生成合理的几何形状和外观。自校准学习则通过扩散模型自适应地优化渲染质量。

技术框架：CrowdGaussian框架主要包含以下几个阶段：1) 使用预训练的大型人体模型进行初始重建；2) 通过自监督适应流程处理遮挡，生成完整的3D人体；3) 使用自校准学习策略，利用单步扩散模型优化渲染质量；4) 将优化后的结果提炼回3D高斯模型，提高重建质量。

关键创新：CrowdGaussian的关键创新在于：1) 提出了一种自监督适应流程，能够有效地处理人群场景中的遮挡问题，并利用预训练模型生成合理的3D人体；2) 引入了自校准学习策略，通过单步扩散模型自适应地优化渲染质量，避免了传统方法中需要多步迭代的问题；3) 直接重建3D高斯模型，能够更好地表示复杂的人群场景。

关键设计：自监督适应流程利用预训练的人体模型，通过添加噪声和遮挡来模拟真实场景，并使用重建损失来训练模型适应这些情况。自校准学习策略使用扩散模型，通过将干净图像和损坏图像混合，并结合身份保持损失，来优化渲染质量。具体的损失函数包括重建损失、身份保持损失和正则化损失等。网络结构方面，采用了标准的扩散模型架构，并针对人群场景进行了优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CrowdGaussian在多人场景重建任务上取得了显著的性能提升。与现有方法相比，CrowdGaussian能够生成更逼真、几何连贯的重建结果，尤其是在遮挡严重的情况下。具体的性能数据（如PSNR、SSIM等）在论文中进行了详细的对比和分析，证明了CrowdGaussian的优越性。

🎯 应用场景

CrowdGaussian可应用于虚拟现实、增强现实、游戏开发、安防监控等领域。例如，在虚拟现实中，可以生成逼真的人群场景，提升用户体验。在安防监控中，可以用于人群密度估计和异常行为检测。该研究的未来影响在于推动了单视角3D重建技术在复杂场景下的应用。

📄 摘要（原文）

Single-view 3D human reconstruction has garnered significant attention in recent years. Despite numerous advancements, prior research has concentrated on reconstructing 3D models from clear, close-up images of individual subjects, often yielding subpar results in the more prevalent multi-person scenarios. Reconstructing 3D human crowd models is a highly intricate task, laden with challenges such as: 1) extensive occlusions, 2) low clarity, and 3) numerous and various appearances. To address this task, we propose CrowdGaussian, a unified framework that directly reconstructs multi-person 3D Gaussian Splatting (3DGS) representations from single-image inputs. To handle occlusions, we devise a self-supervised adaptation pipeline that enables the pretrained large human model to reconstruct complete 3D humans with plausible geometry and appearance from heavily occluded inputs. Furthermore, we introduce Self-Calibrated Learning (SCL). This training strategy enables single-step diffusion models to adaptively refine coarse renderings to optimal quality by blending identity-preserving samples with clean/corrupted image pairs. The outputs can be distilled back to enhance the quality of multi-person 3DGS representations. Extensive experiments demonstrate that CrowdGaussian generates photorealistic, geometrically coherent reconstructions of multi-person scenes.

CrowdGaussian: Reconstructing High-Fidelity 3D Gaussians for Human Crowd from a Single Image

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理