Text to Image Generation and Editing: A Survey

作者: Pengfei Yang, Ngai-Man Cheung, Xinda Ma

分类: cs.CV

发布日期: 2025-05-05

备注: 49 pages,3 figures,3 tables

💡 一句话要点

全面综述文本到图像生成与编辑技术，洞察未来发展方向

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 扩散模型 GAN 自回归模型 图像编辑 深度学习 计算机视觉

📋 核心要点

现有T2I方法在生成高质量、高保真图像方面仍面临挑战，尤其是在处理复杂文本描述时。
本文通过系统梳理T2I领域的研究进展，深入分析各类方法的优缺点，为研究者提供全面的技术参考。
该综述对比了不同方法在数据集、评估指标等方面的性能，并探讨了T2I的社会影响和未来发展方向。

📝 摘要（中文）

本文全面综述了2021年至2024年间141篇关于文本到图像生成（T2I）的研究工作。首先，介绍了T2I的四种基础模型架构（自回归、非自回归、GAN和扩散模型）以及常用的关键技术（自编码器、注意力机制和无分类器引导）。其次，系统地比较了这些研究在T2I生成和T2I编辑两个方向上的方法，包括编码器和它们使用的关键技术。此外，还从数据集、评估指标、训练资源和推理速度等方面对这些研究的性能进行了并排比较。除了四种基础模型外，还调研了关于T2I的其他工作，如基于能量的模型以及最近的Mamba和多模态方法。同时，探讨了T2I潜在的社会影响，并提供了一些解决方案。最后，提出了改进T2I模型性能的独特见解和可能的未来发展方向。总而言之，本综述是对T2I的首次系统和全面的概述，旨在为未来的研究人员提供有价值的指导，并激发该领域的持续进步。

🔬 方法详解

问题定义：文本到图像生成（T2I）旨在根据给定的文本描述生成对应的图像。现有方法在处理复杂场景、生成高保真图像以及保证生成图像与文本描述的一致性方面仍存在挑战。此外，如何有效利用有限的计算资源进行模型训练和推理也是一个重要问题。

核心思路：本文的核心思路是对现有T2I方法进行系统性的分类和比较，从模型架构、关键技术、性能评估等多个维度进行分析，从而帮助研究者更好地理解该领域的研究现状和发展趋势。通过分析不同方法的优缺点，为未来的研究提供指导。

技术框架：本文首先介绍了T2I的四种基础模型架构：自回归模型、非自回归模型、GAN和扩散模型。然后，分别从T2I生成和T2I编辑两个方向，对现有方法进行分类和比较。对于每种方法，都详细介绍了其使用的编码器和关键技术。此外，还对不同方法在数据集、评估指标、训练资源和推理速度等方面进行了比较。最后，探讨了T2I的社会影响和未来发展方向。

关键创新：本文的创新之处在于其系统性和全面性。它不仅涵盖了T2I领域的主流方法，还包括了一些新兴的研究方向，如基于能量的模型和Mamba模型。此外，本文还对T2I的社会影响进行了深入的探讨，并提出了相应的解决方案。

关键设计：本文对各种T2I方法的技术细节进行了详细的描述，包括编码器的选择、注意力机制的使用、损失函数的设计以及网络结构的搭建等。例如，对于扩散模型，本文介绍了不同的采样策略和噪声调度方法。对于GAN，本文介绍了不同的判别器结构和对抗训练技巧。

📊 实验亮点

该综述对比了141篇T2I相关论文，涵盖了自回归、非自回归、GAN和扩散模型等多种架构。通过对数据集、评估指标、训练资源和推理速度的详细对比，为研究者提供了全面的性能参考。例如，综述中对比了不同扩散模型在FID和Inception Score等指标上的表现，并分析了不同模型在生成速度和图像质量之间的权衡。

🎯 应用场景

文本到图像生成技术具有广泛的应用前景，包括艺术创作、游戏开发、广告设计、虚拟现实等领域。该技术可以帮助用户快速生成符合需求的图像，提高创作效率和降低成本。此外，T2I还可以用于生成训练数据，从而提高其他计算机视觉任务的性能。

📄 摘要（原文）

Text-to-image generation (T2I) refers to the text-guided generation of high-quality images. In the past few years, T2I has attracted widespread attention and numerous works have emerged. In this survey, we comprehensively review 141 works conducted from 2021 to 2024. First, we introduce four foundation model architectures of T2I (autoregression, non-autoregression, GAN and diffusion) and the commonly used key technologies (autoencoder, attention and classifier-free guidance). Secondly, we systematically compare the methods of these studies in two directions, T2I generation and T2I editing, including the encoders and the key technologies they use. In addition, we also compare the performance of these researches side by side in terms of datasets, evaluation metrics, training resources, and inference speed. In addition to the four foundation models, we survey other works on T2I, such as energy-based models and recent Mamba and multimodality. We also investigate the potential social impact of T2I and provide some solutions. Finally, we propose unique insights of improving the performance of T2I models and possible future development directions. In summary, this survey is the first systematic and comprehensive overview of T2I, aiming to provide a valuable guide for future researchers and stimulate continued progress in this field.

Text to Image Generation and Editing: A Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理