MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

📄 arXiv: 2407.04842v1 📥 PDF

作者: Zhaorun Chen, Yichao Du, Zichen Wen, Yiyang Zhou, Chenhang Cui, Zhenzhen Weng, Haoqin Tu, Chaoqi Wang, Zhengwei Tong, Qinglan Huang, Canyu Chen, Qinghao Ye, Zhihong Zhu, Yuqing Zhang, Jiawei Zhou, Zhuokai Zhao, Rafael Rafailov, Chelsea Finn, Huaxiu Yao

分类: cs.CV, cs.CL, cs.LG

发布日期: 2024-07-05

备注: 42 pages, 13 figures, 33 tables

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

MJ-Bench:评估多模态奖励模型在文本生成图像任务中的判断能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本生成图像 多模态奖励模型 判别器评估 基准测试 安全性 对齐 图像质量 偏见

📋 核心要点

  1. 文本生成图像模型面临幻觉、偏见和低质量输出等挑战,需要有效的多模态判别器进行对齐。
  2. 提出MJ-Bench基准,通过全面的偏好数据集,从对齐、安全、质量和偏见四个角度评估多模态判别器。
  3. 实验表明,闭源VLM(如GPT-4o)通常提供更好的反馈,且自然语言反馈比数值尺度更准确。

📝 摘要(中文)

随着DALLE-3和Stable Diffusion等文本生成图像模型的快速发展,幻觉、偏见和不安全、低质量的输出等问题日益突出。为了有效解决这些问题,至关重要的是根据多模态判别器的反馈来调整这些模型,使其符合期望的行为。然而,当前的多模态判别器在能力和局限性方面的评估往往不足,可能导致模型对齐不佳和不安全的微调结果。为了解决这个问题,我们引入了MJ-Bench,这是一个新的基准,它包含一个全面的偏好数据集,用于从四个关键角度评估多模态判别器为图像生成模型提供反馈的能力:对齐、安全性、图像质量和偏见。具体来说,我们在偏好数据集的每个分解子类别上评估了各种多模态判别器,包括较小尺寸的基于CLIP的评分模型、开源VLM(例如LLaVA系列)和闭源VLM(例如GPT-4o、Claude 3)。实验表明,闭源VLM通常提供更好的反馈,其中GPT-4o在平均水平上优于其他判别器。与开源VLM相比,较小尺寸的评分模型可以在文本-图像对齐和图像质量方面提供更好的反馈,而VLM由于其更强的推理能力,可以在安全性和生成偏见方面提供更准确的反馈。对反馈规模的进一步研究表明,VLM判别器通常可以提供比数值尺度更准确和稳定的自然语言(Likert尺度)反馈。值得注意的是,使用来自这些多模态判别器的独立反馈对端到端微调模型进行的人工评估得出了类似的结论,进一步证实了MJ-Bench的有效性。所有数据、代码和模型均可在https://huggingface.co/MJ-Bench上找到。

🔬 方法详解

问题定义:论文旨在解决多模态奖励模型(判别器)在文本生成图像任务中评估能力不足的问题。现有方法缺乏对判别器在对齐、安全、图像质量和偏见等多个维度上的全面评估,可能导致模型训练过程中的误导和不安全结果。

核心思路:核心思路是构建一个全面的基准测试集(MJ-Bench),该测试集包含各种偏好数据,用于评估多模态判别器在不同维度上的表现。通过比较不同类型的判别器(包括小型评分模型、开源VLM和闭源VLM)在MJ-Bench上的表现,可以揭示它们的优势和局限性,从而指导判别器的选择和改进。

技术框架:MJ-Bench包含一个偏好数据集,该数据集被分解为四个关键维度:对齐、安全性、图像质量和偏见。论文评估了各种多模态判别器,包括基于CLIP的评分模型、开源VLM(如LLaVA系列)和闭源VLM(如GPT-4o、Claude 3)。评估过程涉及让判别器对生成的图像进行评分或提供反馈,然后将这些反馈与人工标注的偏好进行比较。此外,论文还研究了反馈规模(数值尺度 vs. 自然语言)对判别器性能的影响。

关键创新:主要的创新点在于提出了一个全面的多模态判别器评估基准(MJ-Bench),该基准覆盖了文本生成图像任务中的关键维度(对齐、安全、质量和偏见)。与以往的研究相比,MJ-Bench更加关注判别器的能力评估,而不仅仅是生成模型的性能评估。

关键设计:MJ-Bench的关键设计包括:1) 偏好数据集的构建,确保数据集的多样性和代表性;2) 评估指标的选择,能够准确反映判别器在不同维度上的表现;3) 对比实验的设计,能够有效区分不同类型判别器的优劣;4) 反馈规模的研究,揭示了自然语言反馈的优势。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,闭源VLM(如GPT-4o)通常提供更好的反馈,尤其是在安全性和偏见方面。较小尺寸的评分模型在文本-图像对齐和图像质量方面表现良好。自然语言反馈(Likert尺度)通常比数值尺度更准确和稳定。使用不同判别器反馈微调的模型的人工评估结果与MJ-Bench的评估结果一致,验证了MJ-Bench的有效性。

🎯 应用场景

该研究成果可应用于文本生成图像模型的开发和评估,帮助开发者选择和优化多模态判别器,从而提高生成图像的质量、安全性和对齐性。此外,MJ-Bench可以作为评估和比较不同多模态判别器的标准平台,促进该领域的研究进展。

📄 摘要(原文)

While text-to-image models like DALLE-3 and Stable Diffusion are rapidly proliferating, they often encounter challenges such as hallucination, bias, and the production of unsafe, low-quality output. To effectively address these issues, it is crucial to align these models with desired behaviors based on feedback from a multimodal judge. Despite their significance, current multimodal judges frequently undergo inadequate evaluation of their capabilities and limitations, potentially leading to misalignment and unsafe fine-tuning outcomes. To address this issue, we introduce MJ-Bench, a novel benchmark which incorporates a comprehensive preference dataset to evaluate multimodal judges in providing feedback for image generation models across four key perspectives: alignment, safety, image quality, and bias. Specifically, we evaluate a large variety of multimodal judges including smaller-sized CLIP-based scoring models, open-source VLMs (e.g. LLaVA family), and close-source VLMs (e.g. GPT-4o, Claude 3) on each decomposed subcategory of our preference dataset. Experiments reveal that close-source VLMs generally provide better feedback, with GPT-4o outperforming other judges in average. Compared with open-source VLMs, smaller-sized scoring models can provide better feedback regarding text-image alignment and image quality, while VLMs provide more accurate feedback regarding safety and generation bias due to their stronger reasoning capabilities. Further studies in feedback scale reveal that VLM judges can generally provide more accurate and stable feedback in natural language (Likert-scale) than numerical scales. Notably, human evaluations on end-to-end fine-tuned models using separate feedback from these multimodal judges provide similar conclusions, further confirming the effectiveness of MJ-Bench. All data, code, models are available at https://huggingface.co/MJ-Bench.