DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization

📄 arXiv: 2502.04370v1 📥 PDF

作者: Zhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua

分类: cs.CL, cs.GR, cs.LG

发布日期: 2025-02-05

备注: 20 pages, 12 figures


💡 一句话要点

DreamDPO:通过直接偏好优化对齐文本到3D生成与人类偏好

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到3D生成 直接偏好优化 人类偏好对齐 3D内容创作 奖励模型

📋 核心要点

  1. 现有文本到3D生成方法难以与人类偏好对齐,限制了其应用性和灵活性,是当前面临的核心问题。
  2. DreamDPO通过直接偏好优化,将人类偏好融入3D生成过程,实现更符合人类期望的3D内容生成。
  3. 实验结果表明,DreamDPO在生成质量和可控性方面优于现有方法,具有较强的竞争力。

📝 摘要(中文)

本文提出DreamDPO,一个基于优化的框架,通过直接偏好优化将人类偏好融入到文本到3D的生成过程中。DreamDPO首先构建成对样本,然后使用奖励模型或大型多模态模型比较它们与人类偏好的一致性,最后使用偏好驱动的损失函数优化3D表示。通过利用成对比较来反映偏好,DreamDPO减少了对精确的逐点质量评估的依赖,同时通过偏好引导的优化实现了细粒度的可控性。实验表明,DreamDPO取得了有竞争力的结果,并提供了比现有方法更高质量和更可控的3D内容。代码和模型将会开源。

🔬 方法详解

问题定义:现有文本到3D生成方法生成的3D内容往往与人类的审美和偏好存在偏差,导致生成结果不尽如人意。现有方法依赖于精确的逐点质量评估,难以捕捉人类主观的偏好,并且缺乏细粒度的可控性。

核心思路:DreamDPO的核心思路是通过直接偏好优化(Direct Preference Optimization, DPO)来对齐文本到3D生成与人类偏好。DPO通过比较成对样本的优劣,学习一个奖励模型,从而指导3D内容的生成,避免了直接回归奖励值的困难。

技术框架:DreamDPO的整体框架包含以下几个主要阶段:1) 数据构建:构建成对的3D样本,这些样本基于相同的文本提示,但通过不同的生成方法或参数设置得到。2) 偏好标注:利用人类标注或大型多模态模型(如CLIP)对成对样本进行偏好排序,确定哪个样本更符合人类偏好。3) 奖励建模:基于偏好数据,训练一个奖励模型,该模型能够预测一个3D样本与人类偏好的一致性程度。4) 优化生成:使用偏好驱动的损失函数,优化3D表示(例如NeRF),使得生成的3D内容能够获得更高的奖励值,从而与人类偏好对齐。

关键创新:DreamDPO的关键创新在于将直接偏好优化(DPO)引入到文本到3D生成领域。与传统的基于强化学习的方法相比,DPO避免了复杂的策略梯度计算,可以直接优化生成模型,更加稳定和高效。此外,DreamDPO通过成对比较来反映偏好,降低了对精确的逐点质量评估的依赖。

关键设计:DreamDPO的关键设计包括:1) 成对样本构建策略:如何有效地生成具有差异性的成对样本,以提供足够的偏好信息。2) 奖励模型选择:选择合适的奖励模型,例如基于CLIP的奖励模型或专门训练的奖励模型,以准确捕捉人类偏好。3) 偏好驱动的损失函数:设计合适的损失函数,以有效地利用奖励模型的信息,指导3D表示的优化。例如,可以使用DPO损失函数,直接优化生成模型的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DreamDPO通过与现有文本到3D生成方法进行对比实验,证明了其在生成质量和可控性方面的优势。具体而言,DreamDPO生成的3D模型在视觉质量、细节丰富度和与文本描述的一致性方面均优于对比方法。此外,DreamDPO还展示了通过调整偏好可以实现对生成结果的细粒度控制。

🎯 应用场景

DreamDPO在游戏开发、虚拟现实、工业设计等领域具有广泛的应用前景。它可以帮助用户快速生成符合其个性化需求的3D模型,降低3D内容创作的门槛,提高创作效率。未来,DreamDPO有望成为3D内容创作的重要工具,推动相关产业的发展。

📄 摘要(原文)

Text-to-3D generation automates 3D content creation from textual descriptions, which offers transformative potential across various fields. However, existing methods often struggle to align generated content with human preferences, limiting their applicability and flexibility. To address these limitations, in this paper, we propose DreamDPO, an optimization-based framework that integrates human preferences into the 3D generation process, through direct preference optimization. Practically, DreamDPO first constructs pairwise examples, then compare their alignment with human preferences using reward or large multimodal models, and lastly optimizes the 3D representation with a preference-driven loss function. By leveraging pairwise comparison to reflect preferences, DreamDPO reduces reliance on precise pointwise quality evaluations while enabling fine-grained controllability through preference-guided optimization. Experiments demonstrate that DreamDPO achieves competitive results, and provides higher-quality and more controllable 3D content compared to existing methods. The code and models will be open-sourced.