OSPO: Object-centric Self-improving Preference Optimization for Text-to-Image Generation

作者: Yoonjin Oh, Yongjin Kim, Hyomin Kim, Donghwan Chi, Sungwoong Kim

分类: cs.CV

发布日期: 2025-05-28 (更新: 2025-09-19)

💡 一句话要点

提出OSPO：面向对象中心自提升偏好优化，解决文本到图像生成中的对象幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 对象中心优化 自提升学习 偏好优化 对象幻觉

📋 核心要点

现有自提升方法在文本到图像生成中，缺乏对对象级别细粒度视觉细节的关注，导致对象幻觉问题难以解决。
OSPO通过构建对象级别的困难负样本数据，并进行对象中心优化，从而提升对象级别的文本-图像对齐。
实验结果表明，OSPO在组合图像生成任务上显著提升了细粒度对齐效果，超越了现有自提升方法和专用图像生成模型。

📝 摘要（中文）

多模态大型语言模型(MLLM)的最新进展使得模型能够以统一的方式执行多模态数据的理解和生成。然而，实现输入提示和生成图像之间的细粒度对齐仍然是一个主要的挑战，尤其是在文本到图像生成中。因此，最近的研究引入了基于自生成数据和自反馈的自提升机制，以有效地缓解这一挑战，而无需依赖外部的大规模数据或模型。然而，现有的自提升方法并没有关注细粒度的视觉细节，尤其是在对象级别上生成训练数据或提供反馈，因此它们仍然难以解决文本到图像生成中的对象幻觉问题。为了解决这个问题，我们提出了一种对象中心自提升偏好优化(OSPO)，这是一种用于增强对象级别文本-图像对齐的自提升框架。OSPO旨在明确解决构建和利用对象级别困难负样本数据以及对象中心优化以提高对象特定保真度的需求。具体来说，OSPO包括：(1)初始提示生成；(2)困难偏好对生成；(3)过滤和选择；(4)具有条件偏好损失的对象中心偏好优化。在组合图像生成基准上的大量实验表明，OSPO显著提高了文本到图像生成中的细粒度对齐，不仅超过了先前的自提升方法，而且超过了基于扩散的专用图像生成模型。

🔬 方法详解

问题定义：论文旨在解决文本到图像生成中，由于缺乏对对象级别细粒度视觉细节的关注，导致的对象幻觉问题。现有自提升方法在生成训练数据或提供反馈时，未能充分利用对象级别的信息，从而难以有效解决该问题。

核心思路：论文的核心思路是构建一个对象中心的自提升框架，通过显式地生成和利用对象级别的困难负样本数据，并进行对象中心优化，从而提高生成图像中对象的保真度和与文本描述的对齐程度。这种方法旨在弥补现有方法在对象级别细节处理上的不足。

技术框架：OSPO框架包含四个主要阶段：(1)初始提示生成：生成用于训练的初始文本提示。(2)困难偏好对生成：针对每个提示，生成包含正确对象和错误对象的图像对，构成困难负样本。(3)过滤和选择：对生成的图像对进行过滤，选择高质量的困难负样本。(4)对象中心偏好优化：使用条件偏好损失，以对象为中心优化生成模型，使其更倾向于生成与文本描述一致的对象。

关键创新：OSPO的关键创新在于其对象中心的设计理念，以及显式地生成和利用对象级别的困难负样本数据。与现有方法相比，OSPO更加关注图像中对象的细节，并针对性地进行优化，从而能够更有效地解决对象幻觉问题。

关键设计：OSPO使用条件偏好损失函数，该损失函数基于生成的图像对的质量差异进行优化。具体来说，该损失函数鼓励模型生成更符合文本描述的对象，同时抑制生成与文本描述不一致的对象。此外，OSPO还可能涉及到对生成模型的特定层进行微调，以增强其对对象级别特征的提取和生成能力。具体的网络结构和参数设置可能依赖于所使用的基础文本到图像生成模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OSPO在组合图像生成基准上显著优于现有的自提升方法和基于扩散的专用图像生成模型。具体性能数据未知，但摘要强调了OSPO在细粒度对齐方面的显著提升，表明其在解决对象幻觉问题上具有明显优势。

🎯 应用场景

OSPO可应用于各种需要精确控制图像内容和细节的场景，例如：电商产品图像生成、游戏资产生成、广告设计、以及需要高度定制化图像的创意应用。该研究有助于提升生成图像的质量和可控性，减少人工干预，提高生产效率。

📄 摘要（原文）

Recent advances in Multimodal Large Language Models (MLLMs) have enabled models to perform both understanding and generation of multimodal data in a unified manner. However, achieving a fine-grained alignment between input prompts and generated images remains a major challenge especially in text-to-image generation. Therefore, recent works have introduced self-improving mechanisms based on self-generated data and self-feedback to efficiently mitigate this challenge without relying on external large-scale data or models. However, existing self-improving approaches have not focused on fine-grained visual details especially at the object level in generating training data or providing a feedback, and thus they still struggle to resolve the object hallucination problem in text-to-image generation. To tackle this problem, we propose an Object-centric Self-improving Preference Optimization (OSPO), a self-improving framework for enhancing object-level text-image alignment. OSPO is designed to explicitly address the need for constructing and leveraging object-level hard negative data and an object-centric optimization in improving object-specific fidelity. In specific, OSPO consists of: (1) Initial Prompt Generation (2) Hard Preference Pair Generation (3) Filtering and Selection (4) Object-centric Preference Optimization with Conditional Preference Loss. Extensive experiments on compositional image generation benchmarks demonstrate that OSPO significantly improves fine-grained alignment in text-to-image generation, surpassing not only prior self-improving methods but also diffusion-based specialized image generation models.

OSPO: Object-centric Self-improving Preference Optimization for Text-to-Image Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理