DreamBoothDPO: Improving Personalized Generation using Direct Preference Optimization

作者: Shamil Ayupov, Maksim Nakhodnov, Anastasia Yaschenko, Andrey Kuznetsov, Aibek Alanov

分类: cs.CV

发布日期: 2025-05-27

备注: The first two authors contributed equally. The source code can be found at https://github.com/ControlGenAI/DreamBoothDPO

🔗 代码/项目: GITHUB

💡 一句话要点

DreamBoothDPO：利用直接偏好优化提升个性化图像生成效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 个性化生成 扩散模型 直接偏好优化 文本到图像 概念保真度

📋 核心要点

现有个性化文本到图像生成模型难以平衡概念保真度和上下文对齐，导致生成图像质量受限。
提出DreamBoothDPO，利用强化学习和直接偏好优化，通过合成数据对模型进行训练，无需人工标注。
实验表明，该方法在收敛速度和生成图像质量上均优于基线方法，并在多种架构和微调技术中表现出有效性。

📝 摘要（中文）

个性化扩散模型在文本到图像（T2I）生成中取得了显著成功，能够将用户自定义的概念注入到不同的上下文中。然而，平衡概念保真度与上下文对齐仍然是一个具有挑战性的开放问题。本文提出了一种基于强化学习的方法，该方法利用T2I模型的多样化输出以解决此问题。我们的方法通过使用外部质量指标为类DPO训练生成合成的配对数据集，从而消除了对人工标注分数的需求。这些更好-更差的配对专门用于提高概念保真度和提示对齐。此外，我们的方法支持图像保真度和文本对齐之间权衡的灵活调整。通过多步训练，我们的方法在收敛速度和输出质量方面优于简单的基线。我们进行了广泛的定性和定量分析，证明了我们的方法在各种架构和微调技术中的有效性。源代码可在https://github.com/ControlGenAI/DreamBoothDPO 找到。

🔬 方法详解

问题定义：个性化文本到图像生成旨在将用户提供的特定概念融入到各种场景中。然而，现有方法往往难以在保持概念的原始特征（概念保真度）的同时，保证生成图像与文本提示的一致性（上下文对齐）。这种平衡的缺失导致生成图像质量下降，用户体验不佳。

核心思路：DreamBoothDPO的核心思路是利用直接偏好优化（DPO）来训练个性化扩散模型，从而在概念保真度和上下文对齐之间取得更好的平衡。与传统的强化学习方法不同，DPO避免了显式地学习奖励函数，而是直接从偏好数据中学习策略。论文通过外部质量指标自动生成“更好-更差”的图像对，作为DPO的训练数据。

技术框架：DreamBoothDPO的整体框架包括以下几个主要阶段：1) 使用个性化扩散模型生成多个图像样本；2) 使用外部质量指标（例如CLIP score）评估这些样本的概念保真度和上下文对齐程度；3) 基于评估结果，构建“更好-更差”的图像对，形成DPO的训练数据集；4) 使用DPO算法，根据训练数据集微调个性化扩散模型。

关键创新：DreamBoothDPO的关键创新在于：1) 使用DPO算法，避免了显式奖励函数的设计，简化了训练过程；2) 提出了一种自动生成偏好数据的方法，无需人工标注，降低了训练成本；3) 实现了概念保真度和上下文对齐之间的灵活调整，允许用户根据需求调整生成图像的风格。

关键设计：在构建偏好数据时，论文使用了CLIP score来衡量图像与文本提示之间的相似度，以及图像中概念的保真度。DPO的损失函数采用标准的DPO loss，旨在最大化“更好”图像的概率，同时最小化“更差”图像的概率。训练过程采用多步训练策略，逐步提升模型的性能。

🖼️ 关键图片

📊 实验亮点

DreamBoothDPO在概念保真度和上下文对齐方面均优于基线方法。实验结果表明，该方法能够生成更符合文本描述且概念特征更明显的图像。通过多步训练，DreamBoothDPO在收敛速度和输出质量上均有显著提升。定性和定量分析均验证了该方法在不同架构和微调技术中的有效性。

🎯 应用场景

DreamBoothDPO可应用于各种需要个性化图像生成的场景，例如：定制化头像生成、产品设计、艺术创作等。该方法能够生成更符合用户需求和偏好的图像，提高用户满意度。未来，该技术有望在虚拟现实、增强现实、游戏等领域发挥重要作用，为用户提供更加个性化和沉浸式的体验。

📄 摘要（原文）

Personalized diffusion models have shown remarkable success in Text-to-Image (T2I) generation by enabling the injection of user-defined concepts into diverse contexts. However, balancing concept fidelity with contextual alignment remains a challenging open problem. In this work, we propose an RL-based approach that leverages the diverse outputs of T2I models to address this issue. Our method eliminates the need for human-annotated scores by generating a synthetic paired dataset for DPO-like training using external quality metrics. These better-worse pairs are specifically constructed to improve both concept fidelity and prompt adherence. Moreover, our approach supports flexible adjustment of the trade-off between image fidelity and textual alignment. Through multi-step training, our approach outperforms a naive baseline in convergence speed and output quality. We conduct extensive qualitative and quantitative analysis, demonstrating the effectiveness of our method across various architectures and fine-tuning techniques. The source code can be found at https://github.com/ControlGenAI/DreamBoothDPO.

DreamBoothDPO: Improving Personalized Generation using Direct Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理