T2I-Copilot: A Training-Free Multi-Agent Text-to-Image System for Enhanced Prompt Interpretation and Interactive Generation

📄 arXiv: 2507.20536v2 📥 PDF

作者: Chieh-Yun Chen, Min Shi, Gong Zhang, Humphrey Shi

分类: cs.CV, cs.AI, cs.HC

发布日期: 2025-07-28 (更新: 2025-07-29)

备注: ICCV 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出T2I-Copilot,一种无需训练的多智能体文本到图像系统,增强提示理解和交互式生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 多智能体系统 提示工程 零样本学习 大型语言模型 图像质量评估 交互式生成

📋 核心要点

  1. 现有文本到图像生成模型对提示语的细微变化非常敏感,用户需要多次调整提示语,缺乏明确的反馈。
  2. T2I-Copilot利用多智能体协作,无需额外训练,自动优化提示语、选择模型并迭代改进生成结果。
  3. 实验表明,T2I-Copilot在GenAI-Bench上取得了显著的性能提升,在VQA指标上超越多个基线模型。

📝 摘要(中文)

本文提出T2I-Copilot,一个无需训练的多智能体系统,旨在解决文本到图像(T2I)生成模型对提示语敏感的问题。该系统通过(多模态)大型语言模型的协作,自动完成提示语优化、模型选择和迭代改进,简化了提示工程,提高了生成质量和文本图像对齐度。T2I-Copilot包含三个智能体:输入解释器,解析输入提示并生成标准化报告;生成引擎,选择合适的T2I模型并组织视觉和文本提示以启动生成;质量评估器,评估美学质量和文本图像对齐度,提供评分和反馈以进行潜在的重新生成。T2I-Copilot可以完全自主运行,并支持人机交互以进行细粒度控制。在GenAI-Bench上,使用开源生成模型,T2I-Copilot的VQA得分与商业模型RecraftV3和Imagen 3相当,超过FLUX1.1-pro 6.17%,成本仅为其16.59%,并且优于FLUX.1-dev和SD 3.5 Large,分别提升9.11%和6.36%。

🔬 方法详解

问题定义:文本到图像生成模型对提示语的质量高度敏感,即使是细微的措辞变化也可能导致生成结果的显著差异。用户通常需要反复调整提示语,缺乏有效的反馈机制来指导优化过程。现有方法,如自动提示工程和受控文本嵌入,虽然有所缓解,但往往缺乏足够的控制力或需要额外的训练,限制了泛化能力。

核心思路:T2I-Copilot的核心思路是利用多智能体协作,模拟人类专家在文本到图像生成过程中的角色。通过将复杂的生成任务分解为多个子任务,并分配给不同的智能体,每个智能体专注于特定的方面,从而提高生成质量和用户控制力。无需训练的设计使得该系统具有良好的泛化能力,可以应用于不同的文本到图像生成模型。

技术框架:T2I-Copilot包含三个主要智能体:输入解释器、生成引擎和质量评估器。输入解释器负责解析用户输入的提示语,消除歧义,并生成标准化的报告。生成引擎根据报告选择合适的文本到图像生成模型,并组织视觉和文本提示以启动生成过程。质量评估器评估生成图像的美学质量和文本图像对齐度,并提供评分和反馈,用于指导后续的迭代改进。整个系统可以自主运行,也支持人工干预,允许用户进行细粒度的控制。

关键创新:T2I-Copilot的关键创新在于其多智能体协作的架构和无需训练的设计。通过将复杂的文本到图像生成任务分解为多个子任务,并分配给不同的智能体,该系统能够更有效地利用大型语言模型的知识和能力。无需训练的设计使得该系统具有良好的泛化能力,可以应用于不同的文本到图像生成模型,而无需进行额外的训练。

关键设计:T2I-Copilot的关键设计包括智能体的角色定义、智能体之间的协作机制以及质量评估器的评估指标。智能体的角色定义明确了每个智能体的职责和功能,确保了整个系统的有效运行。智能体之间的协作机制,例如信息传递和反馈循环,实现了智能体之间的协同工作,提高了生成质量。质量评估器的评估指标,例如美学质量和文本图像对齐度,用于评估生成图像的质量,并指导后续的迭代改进。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

T2I-Copilot在GenAI-Bench上取得了显著的性能提升。其VQA得分与商业模型RecraftV3和Imagen 3相当,超过FLUX1.1-pro 6.17%,且成本仅为其16.59%。同时,T2I-Copilot也优于FLUX.1-dev和SD 3.5 Large,分别提升9.11%和6.36%。这些结果表明,T2I-Copilot能够有效地提高文本到图像生成模型的性能。

🎯 应用场景

T2I-Copilot可应用于多种场景,包括艺术创作、内容生成、产品设计和教育等。它可以帮助用户更轻松地生成高质量的图像,无需专业的提示工程技能。该系统还可以用于自动化内容生成,例如广告素材和社交媒体内容。未来,T2I-Copilot可以集成到各种应用程序中,为用户提供更强大的图像生成能力。

📄 摘要(原文)

Text-to-Image (T2I) generative models have revolutionized content creation but remain highly sensitive to prompt phrasing, often requiring users to repeatedly refine prompts multiple times without clear feedback. While techniques such as automatic prompt engineering, controlled text embeddings, denoising, and multi-turn generation mitigate these issues, they offer limited controllability, or often necessitate additional training, restricting the generalization abilities. Thus, we introduce T2I-Copilot, a training-free multi-agent system that leverages collaboration between (Multimodal) Large Language Models to automate prompt phrasing, model selection, and iterative refinement. This approach significantly simplifies prompt engineering while enhancing generation quality and text-image alignment compared to direct generation. Specifically, T2I-Copilot consists of three agents: (1) Input Interpreter, which parses the input prompt, resolves ambiguities, and generates a standardized report; (2) Generation Engine, which selects the appropriate model from different types of T2I models and organizes visual and textual prompts to initiate generation; and (3) Quality Evaluator, which assesses aesthetic quality and text-image alignment, providing scores and feedback for potential regeneration. T2I-Copilot can operate fully autonomously while also supporting human-in-the-loop intervention for fine-grained control. On GenAI-Bench, using open-source generation models, T2I-Copilot achieves a VQA score comparable to commercial models RecraftV3 and Imagen 3, surpasses FLUX1.1-pro by 6.17% at only 16.59% of its cost, and outperforms FLUX.1-dev and SD 3.5 Large by 9.11% and 6.36%. Code will be released at: https://github.com/SHI-Labs/T2I-Copilot.