Draw ALL Your Imagine: A Holistic Benchmark and Agent Framework for Complex Instruction-based Image Generation
作者: Yucheng Zhou, Jiahao Yuan, Qianning Wang
分类: cs.CV, cs.CL
发布日期: 2025-05-30
🔗 代码/项目: GITHUB
💡 一句话要点
提出LongBench-T2I基准与Plan2Gen框架,用于评估和提升复杂指令下的图像生成。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 复杂指令 基准测试 大型语言模型 图像评估 代理框架 多模态学习
📋 核心要点
- 现有T2I模型难以处理包含多对象、属性和空间关系的复杂指令,缺乏针对性评估基准。
- 提出Plan2Gen框架,利用大语言模型分解复杂指令,指导现有T2I模型生成图像,无需额外训练。
- 构建LongBench-T2I基准,包含500个复杂指令,覆盖九个视觉维度,并提供多维评估工具包。
📝 摘要(中文)
本文针对文本到图像(T2I)生成模型在处理复杂指令时表现不佳的问题,提出了LongBench-T2I基准,用于全面评估模型在复杂、多方面提示下的性能。该基准包含500个精心设计的提示,涵盖九个不同的视觉评估维度。此外,本文还提出了一个名为Plan2Gen的代理框架,无需额外模型训练即可促进复杂指令驱动的图像生成。该框架与现有的T2I模型无缝集成,利用大型语言模型来解释和分解复杂提示,从而更有效地指导生成过程。由于现有的评估指标(如CLIPScore)无法充分捕捉复杂指令的细微之处,本文还引入了一个评估工具包,该工具包使用一组多维指标自动评估生成图像的质量。数据和代码已在https://github.com/yczhou001/LongBench-T2I上发布。
🔬 方法详解
问题定义:现有的文本到图像生成模型在处理复杂指令时表现不佳,难以准确地理解和生成符合指令要求的图像。现有的评估基准主要关注文本-图像的整体对齐,而忽略了复杂指令中细粒度的语义信息和空间关系,无法全面评估模型的能力。
核心思路:本文的核心思路是利用大型语言模型(LLM)的强大语义理解和推理能力,将复杂的文本指令分解为更简单、更易于处理的子任务或步骤。通过这种分解,T2I模型可以逐步生成图像,从而更好地满足复杂指令的要求。同时,设计专门的评估基准来衡量模型在复杂指令下的生成质量。
技术框架:Plan2Gen框架包含以下主要模块:1) 指令解析模块:使用LLM将复杂指令分解为一系列子任务或步骤,例如,确定场景中的对象、属性和空间关系。2) 图像生成模块:利用现有的T2I模型,根据解析后的子任务逐步生成图像。3) 图像合成模块:将生成的各个部分组合成最终的完整图像。整个流程无需对T2I模型进行额外的训练。
关键创新:主要创新点在于提出了一个基于LLM的代理框架,能够将复杂指令分解为更易于处理的子任务,从而指导T2I模型生成更符合要求的图像。这种方法无需对T2I模型进行额外的训练,即可显著提升其在复杂指令下的生成能力。此外,LongBench-T2I基准的构建也填补了现有评估体系的空白。
关键设计:Plan2Gen框架的关键设计包括:1) 使用特定的prompt engineering来指导LLM进行指令分解,确保分解后的子任务能够准确反映原始指令的语义信息。2) 设计了多维评估指标,用于全面评估生成图像的质量,包括对象的存在性、属性的准确性、空间关系的正确性等。3) 针对不同的T2I模型,可以灵活调整Plan2Gen框架的参数,以获得最佳的生成效果。
🖼️ 关键图片
📊 实验亮点
论文提出了LongBench-T2I基准,包含500个复杂指令,覆盖九个视觉维度,为评估T2I模型在复杂场景下的性能提供了标准。提出的Plan2Gen框架在不训练T2I模型的情况下,显著提升了复杂指令下的图像生成质量。实验结果表明,Plan2Gen框架在LongBench-T2I基准上优于现有方法,并在多个维度上取得了显著提升。
🎯 应用场景
该研究成果可应用于各种需要根据复杂指令生成图像的场景,例如:定制化产品设计、虚拟现实内容生成、教育领域的图像辅助教学、以及艺术创作等。通过提升T2I模型在复杂指令下的生成能力,可以更高效、更精确地满足用户的个性化需求,并推动相关领域的发展。
📄 摘要(原文)
Recent advancements in text-to-image (T2I) generation have enabled models to produce high-quality images from textual descriptions. However, these models often struggle with complex instructions involving multiple objects, attributes, and spatial relationships. Existing benchmarks for evaluating T2I models primarily focus on general text-image alignment and fail to capture the nuanced requirements of complex, multi-faceted prompts. Given this gap, we introduce LongBench-T2I, a comprehensive benchmark specifically designed to evaluate T2I models under complex instructions. LongBench-T2I consists of 500 intricately designed prompts spanning nine diverse visual evaluation dimensions, enabling a thorough assessment of a model's ability to follow complex instructions. Beyond benchmarking, we propose an agent framework (Plan2Gen) that facilitates complex instruction-driven image generation without requiring additional model training. This framework integrates seamlessly with existing T2I models, using large language models to interpret and decompose complex prompts, thereby guiding the generation process more effectively. As existing evaluation metrics, such as CLIPScore, fail to adequately capture the nuances of complex instructions, we introduce an evaluation toolkit that automates the quality assessment of generated images using a set of multi-dimensional metrics. The data and code are released at https://github.com/yczhou001/LongBench-T2I.