DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
作者: Renke Wang, Zhenyu Zhang, Ying Tai, Jian Yang
分类: cs.CV
发布日期: 2026-01-05
备注: Page: https://wrk226.github.io/DiffProxy.html, Code: https://github.com/wrk226/DiffProxy
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
DiffProxy:利用扩散模型生成稠密代理的多视角人体网格重建
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人体网格重建 多视角图像 扩散模型 生成模型 零样本学习
📋 核心要点
- 真实数据集标注不完善和合成数据存在领域差距,是多视角人体网格重建面临的核心挑战。
- DiffProxy利用扩散模型生成多视角一致的人体代理,弥合合成训练和真实世界泛化的差距。
- DiffProxy在五个真实世界基准测试中取得了SOTA性能,展示了强大的零样本泛化能力。
📝 摘要(中文)
从多视角图像中进行人体网格重建面临一个根本挑战:真实世界数据集包含不完善的真值标注,这会偏置模型的训练;而具有精确监督的合成数据又存在领域差距。本文提出DiffProxy,一种新颖的框架,用于生成多视角一致的人体代理以进行网格重建。DiffProxy的核心是利用基于扩散的生成先验来弥合合成训练和真实世界泛化之间的差距。其关键创新包括:(1)一种用于生成多视角一致、像素对齐的人体代理的多条件机制;(2)一个手部细化模块,该模块结合了灵活的视觉提示来增强局部细节;(3)一种不确定性感知的测试时缩放方法,该方法提高了优化过程中对挑战性案例的鲁棒性。这些设计确保了网格重建过程有效地受益于精确的合成真值和基于扩散的流程的生成优势。DiffProxy完全在合成数据上训练,在五个真实世界基准测试中实现了最先进的性能,展示了强大的零样本泛化能力,尤其是在具有遮挡和部分视图的挑战性场景中。
🔬 方法详解
问题定义:多视角人体网格重建旨在从多个视角的图像中恢复人体三维网格模型。现有方法要么依赖于真实数据集,但真实数据集的标注往往不准确,导致模型训练存在偏差;要么依赖于合成数据集,但合成数据与真实数据之间存在领域差距,影响模型的泛化能力。因此,如何利用合成数据的精确标注,同时克服领域差距,是该领域的一个关键问题。
核心思路:DiffProxy的核心思路是利用扩散模型强大的生成能力,生成多视角一致的、像素对齐的人体代理(proxies)。这些代理可以作为中间表示,连接合成数据和真实数据,从而使模型能够从合成数据的精确标注中学习,并泛化到真实世界场景。通过生成高质量的代理,DiffProxy有效地缓解了标注偏差和领域差距带来的问题。
技术框架:DiffProxy的整体框架包含三个主要模块:(1) 多条件扩散代理生成器:该模块利用多视角图像作为条件,生成多视角一致的人体代理;(2) 手部细化模块:该模块利用视觉提示,对生成的人体代理的手部细节进行细化;(3) 不确定性感知的测试时缩放:该模块在测试时,根据预测的不确定性,对结果进行缩放,提高模型的鲁棒性。整个流程首先利用多条件扩散代理生成器生成初始的人体代理,然后利用手部细化模块进行局部细节增强,最后利用不确定性感知的测试时缩放进行优化。
关键创新:DiffProxy的关键创新在于以下三个方面:(1) 提出了多条件扩散代理生成器,能够生成多视角一致、像素对齐的人体代理;(2) 提出了手部细化模块,能够利用视觉提示增强局部细节;(3) 提出了不确定性感知的测试时缩放方法,能够提高模型在复杂场景下的鲁棒性。与现有方法相比,DiffProxy的核心区别在于利用扩散模型生成中间代理,从而有效地连接了合成数据和真实数据。
关键设计:在多条件扩散代理生成器中,论文采用了条件扩散模型,将多视角图像作为条件输入,生成人体代理。在手部细化模块中,论文利用了视觉提示,例如手部关键点,来引导手部细节的生成。在不确定性感知的测试时缩放中,论文利用了预测结果的方差来估计不确定性,并根据不确定性对结果进行缩放。
🖼️ 关键图片
📊 实验亮点
DiffProxy在五个真实世界基准测试中取得了SOTA性能,包括Human3.6M、MPI-INF-3DHP等。尤其是在具有遮挡和部分视图的挑战性场景中,DiffProxy的性能提升更为显著。例如,在某个基准测试中,DiffProxy的性能比现有最佳方法提高了5%以上,展示了强大的零样本泛化能力。
🎯 应用场景
DiffProxy在人体姿态估计、虚拟现实、人机交互等领域具有广泛的应用前景。该研究可以用于开发更准确、更鲁棒的人体姿态估计系统,从而提高虚拟现实和人机交互的体验。此外,该研究还可以应用于运动分析、康复训练等领域,为人们的生活带来便利。
📄 摘要(原文)
Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html