VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation

📄 arXiv: 2312.14867v2 📥 PDF

作者: Max Ku, Dongfu Jiang, Cong Wei, Xiang Yue, Wenhu Chen

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2023-12-22 (更新: 2024-06-03)

备注: Accepted to ACL2024 main


💡 一句话要点

提出VIEScore,利用多模态大语言模型评估条件图像合成任务,无需训练。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 条件图像生成 图像合成评估 多模态大语言模型 可解释性 视觉指令

📋 核心要点

  1. 现有条件图像生成模型的评估缺乏可解释性,难以有效衡量模型性能和能力。
  2. VIEScore利用多模态大语言模型的通用知识,无需训练或微调,即可评估条件图像生成任务。
  3. 实验表明,VIEScore (GPT4-o) 与人类评估的相关性达到0.4,接近人与人之间的相关性0.45。

📝 摘要(中文)

在条件图像生成研究领域快速发展的同时,有效评估各种模型的性能和能力面临着挑战,其中一个限制是缺乏可解释性。本文介绍了一种视觉指令引导的可解释性指标VIEScore,用于评估任何条件图像生成任务。VIEScore利用多模态大语言模型(MLLM)的通用知识作为骨干,无需训练或微调。我们在条件图像任务的七个突出任务上评估了VIEScore,发现:(1)VIEScore(GPT4-o)与人类评估实现了0.4的高斯皮尔曼相关性,而人与人之间的相关性为0.45。(2)VIEScore(使用开源MLLM)在评估合成图像方面明显弱于GPT-4o和GPT-4v。(3)VIEScore在生成任务中实现了与人类评分相当的相关性,但在编辑任务中表现不佳。基于这些结果,我们认为VIEScore显示出在评估图像合成任务中取代人类评估者的巨大潜力。

🔬 方法详解

问题定义:条件图像生成任务的评估一直依赖于人工评估或一些难以解释的指标。现有方法缺乏可解释性,难以深入了解模型的优缺点,也难以指导模型改进。此外,训练专门的评估模型成本较高,泛化能力有限。

核心思路:VIEScore的核心思路是利用多模态大语言模型(MLLM)的强大理解和推理能力,将图像生成任务的评估转化为一个基于视觉指令的问答过程。通过向MLLM提出与生成图像相关的指令,并分析MLLM的回答,从而判断生成图像的质量。这种方法无需训练,且具有较好的可解释性。

技术框架:VIEScore的整体框架包括以下几个步骤:1) 输入条件和生成的图像;2) 构建基于视觉指令的提示(prompt),例如“这张图像是否符合给定的文本描述?”;3) 将图像和提示输入到MLLM中;4) 分析MLLM的输出,例如置信度得分或回答内容,作为评估指标。不同的任务可能需要设计不同的提示。

关键创新:VIEScore的关键创新在于将MLLM应用于条件图像生成任务的评估,并提出了一种基于视觉指令的可解释性评估方法。与传统的评估指标相比,VIEScore无需训练,具有更好的泛化能力和可解释性。此外,VIEScore可以灵活地适应不同的条件图像生成任务,只需调整视觉指令即可。

关键设计:VIEScore的关键设计包括:1) 选择合适的MLLM作为骨干网络,例如GPT-4o、GPT-4v或开源的MLLM;2) 设计有效的视觉指令,以准确捕捉生成图像的质量;3) 设计合理的指标来量化MLLM的输出,例如置信度得分或回答内容。论文中尝试了不同的MLLM和视觉指令,并分析了它们对评估结果的影响。

📊 实验亮点

VIEScore (GPT4-o) 在七个条件图像生成任务上取得了与人类评估接近的相关性(Spearman相关系数为0.4,人与人之间的相关性为0.45)。实验表明,VIEScore在生成任务中表现良好,但在编辑任务中仍有提升空间。此外,使用开源MLLM的VIEScore性能明显低于GPT-4o和GPT-4v,表明MLLM的选择对VIEScore的性能至关重要。

🎯 应用场景

VIEScore可广泛应用于各种条件图像生成任务的评估,例如文本到图像生成、图像编辑、图像修复等。它可以帮助研究人员快速评估不同模型的性能,指导模型改进,并促进条件图像生成领域的发展。此外,VIEScore还可以用于自动化评估生成图像的质量,从而减少对人工评估的依赖。

📄 摘要(原文)

In the rapidly advancing field of conditional image generation research, challenges such as limited explainability lie in effectively evaluating the performance and capabilities of various models. This paper introduces VIEScore, a Visual Instruction-guided Explainable metric for evaluating any conditional image generation tasks. VIEScore leverages general knowledge from Multimodal Large Language Models (MLLMs) as the backbone and does not require training or fine-tuning. We evaluate VIEScore on seven prominent tasks in conditional image tasks and found: (1) VIEScore (GPT4-o) achieves a high Spearman correlation of 0.4 with human evaluations, while the human-to-human correlation is 0.45. (2) VIEScore (with open-source MLLM) is significantly weaker than GPT-4o and GPT-4v in evaluating synthetic images. (3) VIEScore achieves a correlation on par with human ratings in the generation tasks but struggles in editing tasks. With these results, we believe VIEScore shows its great potential to replace human judges in evaluating image synthesis tasks.