Multimodal LLMs as Customized Reward Models for Text-to-Image Generation

作者: Shijie Zhou, Ruiyi Zhang, Huaisheng Zhu, Branislav Kveton, Yufan Zhou, Jiuxiang Gu, Jian Chen, Changyou Chen

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-07-28 (更新: 2025-07-30)

备注: Accepted at ICCV 2025. Code available at https://github.com/sjz5202/LLaVA-Reward

💡 一句话要点

提出LLaVA-Reward，利用多模态LLM为文本到图像生成定制奖励模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大型语言模型 文本到图像生成 奖励模型 自动评估 交叉注意力

📋 核心要点

现有基于MLLM的文本到图像生成评估方法依赖指令数据微调和文本分析，效率低且训练困难。
LLaVA-Reward直接利用MLLM的隐藏状态，并通过SkipCA模块增强文本和图像特征的交互。
实验表明，LLaVA-Reward在文本-图像对齐、保真度、安全性和整体排名方面优于现有方法。

📝 摘要（中文）

本文提出LLaVA-Reward，一种高效的奖励模型，旨在利用预训练的多模态大型语言模型(MLLM)自动评估文本到图像(T2I)生成的多个方面。现有的基于MLLM的方法需要指令遵循数据进行监督微调，并通过分析文本响应来评估生成质量，这既耗时又难以训练。为了解决这个问题，我们提出了LLaVA-Reward，它直接利用MLLM在给定文本-图像对时的隐藏状态。为了增强仅解码器MLLM中视觉和文本表示之间的双向交互，我们进一步提出添加一个跳跃连接交叉注意力(SkipCA)模块。这种设计通过将早期视觉特征与后期隐藏表示连接起来，增强了文本-图像相关性推理。此外，LLaVA-Reward支持不同类型的偏好数据，以实现高效的微调，包括配对偏好数据和非配对数据。我们在四个评估角度上训练LLaVA-Reward：文本-图像对齐、保真度/伪影、安全性和整体排名。实验结果表明，LLaVA-Reward在生成与人类对齐的分数方面优于传统的和基于MLLM的方法，可用于文本到图像生成中的自动评估和推理时缩放。

🔬 方法详解

问题定义：现有基于多模态大型语言模型（MLLM）的文本到图像（T2I）生成评估方法，通常需要大量的指令遵循数据进行监督微调，并且主要通过分析生成的文本输出来评估图像质量。这种方式不仅训练成本高昂，而且文本分析的间接性也限制了评估的准确性。因此，如何更直接、更高效地利用MLLM的强大能力来评估T2I生成质量是一个关键问题。

核心思路：LLaVA-Reward的核心思路是直接利用预训练MLLM处理文本-图像对时的隐藏状态，避免了对大量指令数据的依赖。通过将文本和图像信息同时输入MLLM，并提取其内部的隐藏状态，可以更直接地捕捉文本和图像之间的关联性。此外，引入Skip-connection Cross Attention (SkipCA)模块，进一步增强了文本和图像特征之间的交互，从而提升了评估的准确性。

技术框架：LLaVA-Reward的整体框架包括以下几个主要部分：1) 文本编码器：将输入的文本描述转换为文本嵌入向量。2) 图像编码器：将生成的图像转换为图像嵌入向量。3) 多模态大型语言模型（MLLM）：将文本和图像嵌入向量输入MLLM，并提取其隐藏状态。4) SkipCA模块：增强文本和图像特征之间的交互。5) 奖励预测器：利用提取的隐藏状态预测奖励分数，用于评估图像质量。整个流程旨在直接从MLLM的内部表示中提取信息，从而实现高效且准确的T2I生成评估。

关键创新：LLaVA-Reward最重要的技术创新点在于其直接利用MLLM的隐藏状态进行评估，避免了对指令数据的依赖，并引入SkipCA模块增强了文本和图像特征的交互。与现有方法相比，LLaVA-Reward更加高效、直接，并且能够更准确地捕捉文本和图像之间的关联性。这种方法为T2I生成评估提供了一种新的思路，并具有广泛的应用前景。

关键设计：SkipCA模块的关键设计在于将早期视觉特征与后期隐藏表示连接起来，从而增强文本-图像相关性推理。具体来说，SkipCA模块将图像编码器早期层的输出与MLLM后期层的隐藏状态进行交叉注意力计算，从而使MLLM能够更好地利用图像的底层特征。此外，LLaVA-Reward支持不同类型的偏好数据进行微调，包括配对偏好数据和非配对数据，从而提高了模型的泛化能力。损失函数的设计也至关重要，需要根据具体的评估角度（如文本-图像对齐、保真度、安全性等）进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLaVA-Reward在生成与人类对齐的分数方面优于传统的和基于MLLM的方法。具体来说，LLaVA-Reward在文本-图像对齐、保真度、安全性和整体排名等多个评估指标上都取得了显著的提升。这些结果证明了LLaVA-Reward在T2I生成评估方面的有效性和优越性。

🎯 应用场景

LLaVA-Reward可广泛应用于文本到图像生成模型的自动评估、模型选择和优化。它能够帮助研究人员和开发者更高效地评估和改进T2I模型，从而提升生成图像的质量和用户体验。此外，该方法还可以应用于其他多模态生成任务，例如视频生成、3D模型生成等，具有重要的实际价值和未来影响。

📄 摘要（原文）

We introduce LLaVA-Reward, an efficient reward model designed to automatically evaluate text-to-image (T2I) generations across multiple perspectives, leveraging pretrained multimodal large language models (MLLMs). Existing MLLM-based approaches require instruction-following data for supervised fine-tuning and evaluate generation quality on analyzing text response, which is time-consuming and difficult to train. To address this problem, we propose LLaVA-Reward, which directly utilizes the hidden states of MLLMs given text-image pairs. To enhance the bidirectional interaction between visual and textual representations in decoder-only MLLMs, we further propose adding a Skip-connection Cross Attention (SkipCA) module. This design enhances text-image correlation reasoning by connecting early-layer visual features with later-layer hidden representations. In addition, LLaVA-Reward supports different types of preference data for efficient fine-tuning, including paired preference data and unpaired data. We train LLaVA-Reward on four evaluation perspectives: text-image alignment, fidelity/artifact, safety, and overall ranking. Empirical results demonstrate that LLaVA-Reward outperforms conventional and MLLM-based methods in generating human-aligned scores for automatic evaluations and inference-time scaling in text-to-image generations.

Multimodal LLMs as Customized Reward Models for Text-to-Image Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理