DCHM: Depth-Consistent Human Modeling for Multiview Detection

📄 arXiv: 2507.14505v1 📥 PDF

作者: Jiahao Ma, Tianyu Wang, Miaomiao Liu, David Ahmedt-Aristizabal, Chuong Nguyen

分类: cs.CV

发布日期: 2025-07-19

备注: multi-view detection, sparse-view reconstruction

期刊: ICCV`2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出DCHM框架,用于多视角行人检测中深度一致的人体建模。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多视角行人检测 人体建模 深度一致性 高斯溅射 超像素分割

📋 核心要点

  1. 现有方法在多视角行人检测的人体建模阶段存在噪声大、精度低的问题,且依赖人工标注。
  2. DCHM框架通过深度一致性估计和多视角融合,无需人工标注即可实现精准的人体建模。
  3. 实验表明,DCHM显著降低了噪声,优于现有方法,并首次实现了该场景下的行人重建与分割。

📝 摘要(中文)

多视角行人检测通常包含人体建模和行人定位两个阶段。人体建模通过融合多视角信息在3D空间中表示行人,其质量对检测精度至关重要。然而,现有方法通常引入噪声且精度较低。一些方法通过拟合代价高昂的多视角3D标注来减少噪声,但难以泛化到不同的场景。为了消除对人工标注的依赖并准确地建模人体,我们提出了深度一致的人体建模(DCHM)框架,该框架旨在全局坐标系中实现一致的深度估计和多视角融合。具体而言,我们提出的基于超像素的高斯溅射管线在稀疏视角、大规模和拥挤场景中实现了多视角深度一致性,从而生成用于行人定位的精确点云。广泛的验证表明,我们的方法显著减少了人体建模过程中的噪声,优于先前的最先进基线。此外,据我们所知,DCHM是第一个在这种具有挑战性的环境中重建行人和执行多视角分割的方法。

🔬 方法详解

问题定义:多视角行人检测中的人体建模旨在利用来自多个摄像头的图像信息,在3D空间中准确地表示行人。现有方法的痛点在于,多视角信息融合过程中容易引入噪声,导致建模精度下降,进而影响行人检测的准确性。此外,一些方法依赖于昂贵的人工3D标注进行训练,限制了其在实际场景中的应用和泛化能力。

核心思路:DCHM的核心思路是通过深度一致性约束来减少多视角融合过程中的噪声。该方法利用超像素分割将图像划分为更小的区域,并在这些区域内进行深度估计和融合,从而提高深度估计的精度和一致性。此外,DCHM采用高斯溅射(Gaussian Splatting)技术,能够更精确地表示和渲染3D场景,从而提升人体建模的质量。

技术框架:DCHM框架主要包含以下几个阶段:1) 多视角图像输入;2) 基于超像素的深度估计:利用超像素分割将图像划分为更小的区域,并在每个区域内进行深度估计;3) 深度一致性约束:通过优化深度图,使得来自不同视角的深度估计在全局坐标系下保持一致;4) 多视角融合:将来自不同视角的深度信息融合到3D空间中,生成点云表示;5) 基于高斯溅射的人体建模:利用高斯溅射技术对点云进行渲染和优化,得到最终的人体模型。

关键创新:DCHM的关键创新在于:1) 提出了基于超像素的深度估计方法,提高了深度估计的精度;2) 引入了深度一致性约束,减少了多视角融合过程中的噪声;3) 采用了高斯溅射技术,能够更精确地表示和渲染3D场景。与现有方法相比,DCHM无需人工标注,且能够生成更精确、更鲁棒的人体模型。

关键设计:DCHM的关键设计包括:1) 超像素分割算法的选择:采用了SLIC算法进行超像素分割,该算法能够生成紧凑、规则的超像素;2) 深度一致性损失函数的设计:设计了一个损失函数,用于约束来自不同视角的深度估计在全局坐标系下保持一致;3) 高斯溅射的参数设置:对高斯溅射的参数进行了精细调整,以获得最佳的渲染效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DCHM在多视角行人检测任务中取得了显著的性能提升,优于现有的state-of-the-art方法。具体而言,DCHM在精度和召回率方面均有明显提升,且能够生成更精确、更鲁棒的人体模型。此外,DCHM首次实现了在该场景下的行人重建与分割。

🎯 应用场景

DCHM在多视角行人检测、自动驾驶、智能监控等领域具有广泛的应用前景。该方法能够提高行人检测的准确性和鲁棒性,从而提升相关系统的性能。此外,DCHM还可用于三维重建、虚拟现实等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Multiview pedestrian detection typically involves two stages: human modeling and pedestrian localization. Human modeling represents pedestrians in 3D space by fusing multiview information, making its quality crucial for detection accuracy. However, existing methods often introduce noise and have low precision. While some approaches reduce noise by fitting on costly multiview 3D annotations, they often struggle to generalize across diverse scenes. To eliminate reliance on human-labeled annotations and accurately model humans, we propose Depth-Consistent Human Modeling (DCHM), a framework designed for consistent depth estimation and multiview fusion in global coordinates. Specifically, our proposed pipeline with superpixel-wise Gaussian Splatting achieves multiview depth consistency in sparse-view, large-scaled, and crowded scenarios, producing precise point clouds for pedestrian localization. Extensive validations demonstrate that our method significantly reduces noise during human modeling, outperforming previous state-of-the-art baselines. Additionally, to our knowledge, DCHM is the first to reconstruct pedestrians and perform multiview segmentation in such a challenging setting. Code is available on the \href{https://jiahao-ma.github.io/DCHM/}{project page}.