Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark

作者: Rong-Cheng Tu, Zi-Ao Ma, Tian Lan, Yuehao Zhao, Heyan Huang, Xian-Ling Mao

分类: cs.CL, cs.AI, cs.CV

发布日期: 2024-11-23

💡 一句话要点

提出任务分解框架与蒸馏训练，提升开源MLLM在文图生成自动评估中的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文图生成 自动评估 多模态大语言模型 任务分解 知识蒸馏

📋 核心要点

现有文图生成自动评估方法依赖昂贵的商业MLLM，开源MLLM性能不足，难以满足大规模评估需求。
提出任务分解评估框架，利用GPT-4o自动构建训练数据集，将复杂评估任务分解为简单子任务。
设计蒸馏训练策略，将GPT-4o的评估能力迁移到7B开源MLLM，并在元评估基准上验证了性能提升。

📝 摘要（中文）

本文针对文图生成领域中自动评估方法对昂贵商业MLLM（如GPT-4o）的依赖问题，以及开源MLLM性能不足的现状，提出了一种新的解决方案。首先，利用GPT-4o构建了一个新的训练数据集，通过任务分解将复杂的评估任务分解为更简单的子任务，降低学习难度。然后，设计了创新的训练策略，将GPT-4o的评估能力有效蒸馏到一个7B的开源MLLM，MiniCPM-V-2.6中。此外，为了全面评估现有方法和提出的模型，手动标注了一个包含思维链解释和质量分数的元评估基准。实验结果表明，蒸馏后的开源MLLM显著优于当前最先进的GPT-4o-base基线VIEScore，在Spearman和Kendall相关性上与人类判断的匹配度分别提升了4.6%以上。

🔬 方法详解

问题定义：当前文图生成自动评估方法严重依赖于商业多模态大语言模型（MLLMs），如GPT-4o，虽然效果好，但成本高昂，限制了大规模应用。开源MLLMs虽然成本低，但由于在处理多模态数据方面的能力不足，性能远低于商业模型，无法满足高质量评估的需求。因此，如何利用开源MLLM实现媲美甚至超越商业MLLM的自动评估性能，是本文要解决的核心问题。

核心思路：本文的核心思路是通过任务分解和知识蒸馏，将商业MLLM的强大评估能力迁移到开源MLLM上。具体来说，首先将复杂的文图生成评估任务分解为多个更简单的子任务，降低学习难度。然后，利用商业MLLM（GPT-4o）对这些子任务进行标注，构建高质量的训练数据集。最后，设计专门的训练策略，将GPT-4o的知识蒸馏到开源MLLM中，使其具备强大的评估能力。

技术框架：整体框架包含三个主要阶段：1) 任务分解与数据构建：利用GPT-4o将文图生成评估任务分解为多个子任务，并生成相应的训练数据。2) 蒸馏训练：使用构建的数据集，采用设计的训练策略，将GPT-4o的评估能力蒸馏到开源MLLM（MiniCPM-V-2.6）中。3) 元评估：构建包含思维链解释和质量分数的元评估基准，用于全面评估现有方法和提出的模型。

关键创新：本文的关键创新在于：1) 任务分解评估框架：通过将复杂的评估任务分解为更简单的子任务，降低了学习难度，使得开源MLLM更容易学习到有效的评估能力。2) 蒸馏训练策略：设计了专门的训练策略，能够有效地将商业MLLM的知识迁移到开源MLLM中，提升其评估性能。3) 元评估基准：手动标注了包含思维链解释和质量分数的元评估基准，为全面评估文图生成自动评估方法提供了可靠的依据。

关键设计：在任务分解阶段，具体分解的子任务类型未知（论文未详细说明）。在蒸馏训练阶段，具体的损失函数和网络结构等技术细节未知（论文未详细说明）。关键在于利用GPT-4o生成高质量的训练数据，并设计有效的训练策略，使得开源MLLM能够学习到GPT-4o的评估能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，本文提出的方法显著优于当前最先进的GPT-4o-base基线VIEScore，在Spearman和Kendall相关性上与人类判断的匹配度分别提升了4.6%以上。这表明，通过任务分解和蒸馏训练，开源MLLM可以达到甚至超越商业MLLM的评估性能，为文图生成领域的自动评估提供了新的解决方案。

🎯 应用场景

该研究成果可广泛应用于文图生成模型的自动评估，降低评估成本，加速模型迭代。同时，该方法也为其他多模态任务的开源模型训练提供了借鉴，有助于推动开源人工智能的发展。未来，可以进一步探索更有效的任务分解方法和蒸馏训练策略，提升开源MLLM在多模态任务中的性能。

📄 摘要（原文）

Driven by the remarkable progress in diffusion models, text-to-image generation has made significant strides, creating a pressing demand for automatic quality evaluation of generated images. Current state-of-the-art automatic evaluation methods heavily rely on Multi-modal Large Language Models (MLLMs), particularly powerful commercial models like GPT-4o. While these models are highly effective, their substantial costs limit scalability in large-scale evaluations. Adopting open-source MLLMs is an alternative; however, their performance falls short due to significant limitations in processing multi-modal data compared to commercial MLLMs. To tackle these problems, we first propose a task decomposition evaluation framework based on GPT-4o to automatically construct a new training dataset, where the complex evaluation task is decoupled into simpler sub-tasks, effectively reducing the learning complexity. Based on this dataset, we design innovative training strategies to effectively distill GPT-4o's evaluation capabilities into a 7B open-source MLLM, MiniCPM-V-2.6. Furthermore, to reliably and comprehensively assess prior works and our proposed model, we manually annotate a meta-evaluation benchmark that includes chain-of-thought explanations alongside quality scores for generated images. Experimental results demonstrate that our distilled open-source MLLM significantly outperforms the current state-of-the-art GPT-4o-base baseline, VIEScore, with over 4.6\% improvement in Spearman and Kendall correlations with human judgments.

Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理