PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

作者: Lorenza Prospero, Orest Kupyn, Ostap Viniavskyi, João F. Henriques, Christian Rupprecht

分类: cs.CV

发布日期: 2026-03-30

💡 一句话要点

PoseDreamer：利用扩散模型生成可扩展且逼真的人体数据，用于3D人体网格估计。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 扩散模型 3D人体网格估计 合成数据生成 直接偏好优化 课程学习 可控生成 数据增强

📋 核心要点

现有3D人体网格估计数据集规模有限、真实感不足，且标注成本高昂，难以满足模型训练需求。
PoseDreamer利用扩散模型生成大规模、高质量的合成数据，通过可控生成、偏好优化和难样本挖掘提升数据质量。
实验表明，PoseDreamer生成的数据集可显著提升3D人体网格估计模型的性能，甚至优于真实数据集。

📝 摘要（中文）

由于深度歧义和从单目图像中标注3D几何体的固有难度，获取用于3D人体网格估计的带标签数据集极具挑战性。现有数据集要么是真实的，具有手动标注的3D几何体和有限的规模，要么是合成的，从3D引擎渲染而来，提供精确的标签，但存在逼真度有限、多样性低和生产成本高等问题。本文探索了第三条路径：生成数据。我们介绍了一种新的流程PoseDreamer，它利用扩散模型生成具有3D网格注释的大规模合成数据集。我们的方法结合了可控图像生成与直接偏好优化（Direct Preference Optimization）以进行控制对齐、基于课程的难样本挖掘和多阶段质量过滤。这些组件自然地保持了3D标签和生成的图像之间的对应关系，同时优先考虑具有挑战性的样本，以最大限度地提高数据集的效用。使用PoseDreamer，我们生成了超过500,000个高质量的合成样本，与基于渲染的数据集相比，图像质量指标提高了76%。在PoseDreamer上训练的模型实现了与在真实世界和传统合成数据集上训练的模型相当或更好的性能。此外，将PoseDreamer与合成数据集相结合比将真实世界和合成数据集相结合产生更好的性能，证明了我们数据集的互补性。我们将发布完整的数据集和生成代码。

🔬 方法详解

问题定义：论文旨在解决3D人体网格估计中训练数据不足的问题。现有真实数据集标注成本高昂且规模有限，而传统渲染合成数据集真实感不足，导致模型泛化能力受限。因此，需要一种能够生成大规模、高质量、且带有精确3D标签的人体数据的方法。

核心思路：论文的核心思路是利用扩散模型强大的生成能力，结合可控生成技术和质量过滤机制，生成逼真且带有精确3D标签的人体图像。通过直接偏好优化（DPO）来对齐生成图像的控制信号，并使用课程学习策略挖掘难样本，从而提升数据集的有效性。

技术框架：PoseDreamer 包含以下几个主要阶段：1) 可控图像生成：利用扩散模型生成人体图像，并通过姿态等控制信号来控制生成过程。2) 直接偏好优化 (DPO)：使用 DPO 来对齐控制信号和生成图像，确保生成图像符合预期的姿态。3) 课程学习难样本挖掘：设计课程学习策略，逐步挖掘更具挑战性的样本，提升数据集的多样性和难度。4) 多阶段质量过滤：采用多阶段过滤机制，筛选掉质量较差的样本，保证数据集的整体质量。

关键创新：PoseDreamer 的关键创新在于结合了扩散模型的可控生成能力和直接偏好优化，从而能够生成高质量且带有精确3D标签的人体数据。与传统的渲染合成数据相比，PoseDreamer 生成的数据具有更高的真实感和多样性。此外，课程学习难样本挖掘策略能够有效提升数据集的效用。

关键设计：在可控图像生成阶段，可以使用 ControlNet 等技术来控制生成过程。DPO 的目标是优化生成模型的偏好，使其生成的图像更符合控制信号。课程学习策略可以根据模型的学习进度，逐步增加样本的难度。多阶段质量过滤可以采用图像质量评估指标或人工审核的方式进行。

🖼️ 关键图片

📊 实验亮点

PoseDreamer 生成了超过50万个高质量的合成样本，图像质量指标比基于渲染的数据集提高了76%。在 PoseDreamer 上训练的模型在3D人体网格估计任务上取得了与真实数据集相当甚至更好的性能。将 PoseDreamer 与合成数据集结合使用，比将真实世界数据集与合成数据集结合使用效果更好，证明了 PoseDreamer 数据集的互补性。

🎯 应用场景

PoseDreamer 生成的数据集可广泛应用于3D人体姿态估计、人体网格重建、虚拟现实、增强现实、游戏开发等领域。高质量的合成数据可以有效降低数据采集和标注的成本，加速相关算法的研发和部署。此外，该方法还可以扩展到其他物体的三维重建和姿态估计任务中。

📄 摘要（原文）

Acquiring labeled datasets for 3D human mesh estimation is challenging due to depth ambiguities and the inherent difficulty of annotating 3D geometry from monocular images. Existing datasets are either real, with manually annotated 3D geometry and limited scale, or synthetic, rendered from 3D engines that provide precise labels but suffer from limited photorealism, low diversity, and high production costs. In this work, we explore a third path: generated data. We introduce PoseDreamer, a novel pipeline that leverages diffusion models to generate large-scale synthetic datasets with 3D mesh annotations. Our approach combines controllable image generation with Direct Preference Optimization for control alignment, curriculum-based hard sample mining, and multi-stage quality filtering. Together, these components naturally maintain correspondence between 3D labels and generated images, while prioritizing challenging samples to maximize dataset utility. Using PoseDreamer, we generate more than 500,000 high-quality synthetic samples, achieving a 76% improvement in image-quality metrics compared to rendering-based datasets. Models trained on PoseDreamer achieve performance comparable to or superior to those trained on real-world and traditional synthetic datasets. In addition, combining PoseDreamer with synthetic datasets results in better performance than combining real-world and synthetic datasets, demonstrating the complementary nature of our dataset. We will release the full dataset and generation code.

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理