Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark
作者: Rong-Cheng Tu, Zi-Ao Ma, Tian Lan, Yuehao Zhao, Heyan Huang, Xian-Ling Mao
分类: cs.CL, cs.AI, cs.CV
发布日期: 2024-11-23
💡 一句话要点
提出任务分解框架与蒸馏训练,提升开源MLLM在文图生成自动评估中的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文图生成 自动评估 多模态大语言模型 任务分解 知识蒸馏
📋 核心要点
- 现有文图生成自动评估方法依赖昂贵的商业MLLM,开源MLLM性能不足,难以满足大规模评估需求。
- 提出任务分解评估框架,利用GPT-4o自动构建训练数据集,将复杂评估任务分解为简单子任务。
- 设计蒸馏训练策略,将GPT-4o的评估能力迁移到7B开源MLLM,并在元评估基准上验证了性能提升。
📝 摘要(中文)
本文针对文图生成领域中自动评估方法对昂贵商业MLLM(如GPT-4o)的依赖问题,以及开源MLLM性能不足的现状,提出了一种新的解决方案。首先,利用GPT-4o构建了一个新的训练数据集,通过任务分解将复杂的评估任务分解为更简单的子任务,降低学习难度。然后,设计了创新的训练策略,将GPT-4o的评估能力有效蒸馏到一个7B的开源MLLM,MiniCPM-V-2.6中。此外,为了全面评估现有方法和提出的模型,手动标注了一个包含思维链解释和质量分数的元评估基准。实验结果表明,蒸馏后的开源MLLM显著优于当前最先进的GPT-4o-base基线VIEScore,在Spearman和Kendall相关性上与人类判断的匹配度分别提升了4.6%以上。
🔬 方法详解
问题定义:当前文图生成自动评估方法严重依赖于商业多模态大语言模型(MLLMs),如GPT-4o,虽然效果好,但成本高昂,限制了大规模应用。开源MLLMs虽然成本低,但由于在处理多模态数据方面的能力不足,性能远低于商业模型,无法满足高质量评估的需求。因此,如何利用开源MLLM实现媲美甚至超越商业MLLM的自动评估性能,是本文要解决的核心问题。
核心思路:本文的核心思路是通过任务分解和知识蒸馏,将商业MLLM的强大评估能力迁移到开源MLLM上。具体来说,首先将复杂的文图生成评估任务分解为多个更简单的子任务,降低学习难度。然后,利用商业MLLM(GPT-4o)对这些子任务进行标注,构建高质量的训练数据集。最后,设计专门的训练策略,将GPT-4o的知识蒸馏到开源MLLM中,使其具备强大的评估能力。
技术框架:整体框架包含三个主要阶段:1) 任务分解与数据构建:利用GPT-4o将文图生成评估任务分解为多个子任务,并生成相应的训练数据。2) 蒸馏训练:使用构建的数据集,采用设计的训练策略,将GPT-4o的评估能力蒸馏到开源MLLM(MiniCPM-V-2.6)中。3) 元评估:构建包含思维链解释和质量分数的元评估基准,用于全面评估现有方法和提出的模型。
关键创新:本文的关键创新在于:1) 任务分解评估框架:通过将复杂的评估任务分解为更简单的子任务,降低了学习难度,使得开源MLLM更容易学习到有效的评估能力。2) 蒸馏训练策略:设计了专门的训练策略,能够有效地将商业MLLM的知识迁移到开源MLLM中,提升其评估性能。3) 元评估基准:手动标注了包含思维链解释和质量分数的元评估基准,为全面评估文图生成自动评估方法提供了可靠的依据。
关键设计:在任务分解阶段,具体分解的子任务类型未知(论文未详细说明)。在蒸馏训练阶段,具体的损失函数和网络结构等技术细节未知(论文未详细说明)。关键在于利用GPT-4o生成高质量的训练数据,并设计有效的训练策略,使得开源MLLM能够学习到GPT-4o的评估能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,本文提出的方法显著优于当前最先进的GPT-4o-base基线VIEScore,在Spearman和Kendall相关性上与人类判断的匹配度分别提升了4.6%以上。这表明,通过任务分解和蒸馏训练,开源MLLM可以达到甚至超越商业MLLM的评估性能,为文图生成领域的自动评估提供了新的解决方案。
🎯 应用场景
该研究成果可广泛应用于文图生成模型的自动评估,降低评估成本,加速模型迭代。同时,该方法也为其他多模态任务的开源模型训练提供了借鉴,有助于推动开源人工智能的发展。未来,可以进一步探索更有效的任务分解方法和蒸馏训练策略,提升开源MLLM在多模态任务中的性能。
📄 摘要(原文)
Driven by the remarkable progress in diffusion models, text-to-image generation has made significant strides, creating a pressing demand for automatic quality evaluation of generated images. Current state-of-the-art automatic evaluation methods heavily rely on Multi-modal Large Language Models (MLLMs), particularly powerful commercial models like GPT-4o. While these models are highly effective, their substantial costs limit scalability in large-scale evaluations. Adopting open-source MLLMs is an alternative; however, their performance falls short due to significant limitations in processing multi-modal data compared to commercial MLLMs. To tackle these problems, we first propose a task decomposition evaluation framework based on GPT-4o to automatically construct a new training dataset, where the complex evaluation task is decoupled into simpler sub-tasks, effectively reducing the learning complexity. Based on this dataset, we design innovative training strategies to effectively distill GPT-4o's evaluation capabilities into a 7B open-source MLLM, MiniCPM-V-2.6. Furthermore, to reliably and comprehensively assess prior works and our proposed model, we manually annotate a meta-evaluation benchmark that includes chain-of-thought explanations alongside quality scores for generated images. Experimental results demonstrate that our distilled open-source MLLM significantly outperforms the current state-of-the-art GPT-4o-base baseline, VIEScore, with over 4.6\% improvement in Spearman and Kendall correlations with human judgments.