AtelierEval: Agentic Evaluation of Humans & LLMs as Text-to-Image Prompters

📄 arXiv: 2605.22645v1 📥 PDF

作者: Hanjun Luo, Zhimu Huang, Sylvia Chung, Yiran Wang, Yingbin Jin, Jialin Li, Jiang Li, Xinfeng Li, Hanan Salam

分类: cs.AI

发布日期: 2026-05-21

备注: Accepted by ICML 2026


💡 一句话要点

提出AtelierEval,用于评估人类和LLM作为文本到图像提示词生成器的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 提示词工程 多模态学习 基准测试 Agentic评估

📋 核心要点

  1. 现有基准测试忽略了对文本到图像(T2I)系统中上游提示词生成器(人类或MLLM)的提示能力的评估。
  2. 提出AtelierEval,一个统一的基准测试,用于量化人类和MLLM在360个专家设计任务中的提示能力。
  3. 引入AtelierJudge,一个基于技能、具有记忆增强的agentic评估器,与人类专家的Spearman相关性达到0.79。

📝 摘要(中文)

文本到图像(T2I)系统越来越依赖上游的提示词生成器,包括人类或多模态大型语言模型(MLLM),将用户意图转化为详细的提示词。然而,目前的基准测试固定提示词,仅评估T2I模型,完全忽略了对上游组件提示能力的评估。我们推出了AtelierEval,这是首个统一的基准测试,用于量化360个专家设计的任务中的提示能力。它基于认知视角,涵盖三个任务类别,并使用真实世界挑战的分类法来实例化任务,为人类和MLLM提供双重界面。为了实现可扩展和可靠的评估,我们提出了AtelierJudge,一种基于技能、具有记忆增强的agentic评估器。它为提示词-图像对生成主观和客观分数,与人类专家的Spearman相关性达到0.79,接近人类表现。广泛的实验在4个T2I后端上对8个MLLM和48个人类用户进行了基准测试,验证了AtelierEval作为一个强大的诊断工具,并揭示了模仿优于规划,倡导了未来提示词生成器的图像增强方向。我们的工作已发布,以支持未来的研究。

🔬 方法详解

问题定义:现有文本到图像(T2I)评估主要集中在图像生成质量上,忽略了上游提示词生成器(人类或多模态大型语言模型MLLM)的提示能力。缺乏一个统一的基准来评估不同提示词生成器在将用户意图转化为高质量提示词方面的表现。现有方法无法诊断提示词生成器的优缺点,阻碍了该领域的发展。

核心思路:AtelierEval的核心思路是构建一个全面的基准测试,包含多样化的任务和评估指标,以量化提示词生成器的能力。通过引入AtelierJudge,一个agentic评估器,可以自动且可靠地评估提示词-图像对的质量,从而实现对提示词生成器的有效评估。这种设计允许研究人员诊断不同提示词生成器的优势和劣势,并推动该领域的发展。

技术框架:AtelierEval包含以下主要组成部分:1) 360个专家设计的任务,涵盖三个任务类别,基于真实世界挑战的分类法实例化;2) 一个双重界面,支持人类和MLLM作为提示词生成器;3) AtelierJudge,一个基于技能、具有记忆增强的agentic评估器,用于评估提示词-图像对的质量。AtelierJudge生成主观和客观分数,并与人类专家的评估结果进行比较。

关键创新:AtelierEval的关键创新在于:1) 它是首个统一的基准测试,用于量化提示词生成器的能力;2) AtelierJudge是一个基于技能、具有记忆增强的agentic评估器,能够自动且可靠地评估提示词-图像对的质量,并与人类专家的评估结果高度相关;3) 该研究揭示了模仿优于规划,倡导了未来提示词生成器的图像增强方向。

关键设计:AtelierJudge的设计包括:1) 基于技能的评估,根据不同的任务类型和挑战,使用不同的评估技能;2) 记忆增强,允许评估器利用历史信息来提高评估的准确性;3) 主观和客观评分,综合考虑了图像的视觉质量和与提示词的相关性。具体的参数设置和网络结构等技术细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AtelierJudge与人类专家的Spearman相关性达到0.79,接近人类表现。通过在4个T2I后端上对8个MLLM和48个人类用户进行基准测试,验证了AtelierEval作为一个强大的诊断工具。研究还发现,模仿策略在提示词生成方面优于规划策略,为未来的提示词生成器设计提供了新的方向。

🎯 应用场景

AtelierEval可应用于评估和比较不同提示词生成器的性能,例如人类用户和多模态大型语言模型。它可以帮助研究人员和开发者了解不同提示词生成器的优势和劣势,从而改进提示词生成技术,提高文本到图像生成系统的整体性能。此外,该基准测试还可以用于诊断和优化特定应用场景下的提示词生成策略。

📄 摘要(原文)

Text-to-image (T2I) systems increasingly rely on upstream prompters, either humans or multimodal large language models (MLLMs), to translate user intent into detailed prompts. Yet current benchmarks fix the prompt and only evaluate T2I models, leaving the prompting proficiency of this upstream component entirely unmeasured. We introduce AtelierEval, the first unified benchmark that quantifies prompting proficiency across 360 expert-crafted tasks. Grounded in a cognitive view, it spans three task categories and instantiates tasks using a taxonomy of real-world challenges, with a dual interface for both humans and MLLMs. To enable scalable and reliable evaluation, we propose AtelierJudge, a skill-based, memory-augmented agentic evaluator. It produces subjective and objective scores for prompt-image pairs, achieving a Spearman correlation of 0.79 with human experts, approaching human performance. Extensive experiments benchmark 8 MLLMs against 48 human users across 4 T2I backends, validate AtelierEval as a robust diagnostic tool, and reveal the superiority of mimicry over planning, advocating for an image-augmented direction for future prompters. Our work is released to support future research.