LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation

📄 arXiv: 2502.18302v1 📥 PDF

作者: Pengzhi Li, Pengfei Yu, Zide Liu, Wei He, Xuhao Pan, Xudong Rao, Tao Wei, Wei Chen

分类: cs.CV

发布日期: 2025-02-25

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

LDGen:通过大语言模型驱动的语言表示增强文本到图像的合成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 大型语言模型 多语言处理 扩散模型 跨模态学习

📋 核心要点

  1. 现有文本到图像模型在多语言处理上存在局限性,CLIP和T5等编码器无法很好地处理多种语言。
  2. LDGen利用大语言模型,通过分层标题优化和人工指导,提取更精确的语义信息。
  3. LDGen通过轻量级适配器和跨模态精炼器,实现了高效的特征对齐和交互,提升了图像质量和多语言支持。

📝 摘要(中文)

本文介绍了一种名为LDGen的新方法,旨在将大型语言模型(LLMs)集成到现有的文本到图像扩散模型中,同时最大限度地降低计算需求。传统的文本编码器,如CLIP和T5,在多语言处理方面存在局限性,阻碍了跨多种语言的图像生成。我们通过利用LLMs的先进能力来解决这些挑战。我们的方法采用了一种语言表示策略,该策略应用分层标题优化和人工指导技术来获得精确的语义信息。随后,我们结合了一个轻量级适配器和一个跨模态精炼器,以促进LLMs和图像特征之间的高效特征对齐和交互。LDGen减少了训练时间,并实现了零样本多语言图像生成。实验结果表明,我们的方法在提示遵循度和图像美学质量方面均优于基线模型,同时无缝支持多种语言。

🔬 方法详解

问题定义:现有的文本到图像生成模型,如基于CLIP或T5的模型,在处理多语言文本时存在局限性。这些模型在不同语言之间的泛化能力较弱,导致生成的图像在语义一致性和美学质量上表现不佳。此外,训练这些模型通常需要大量的计算资源和时间。

核心思路:LDGen的核心思路是利用大型语言模型(LLMs)强大的语言理解和生成能力,来改善文本到图像的合成过程。通过将LLMs集成到现有的扩散模型中,LDGen可以更准确地捕捉文本的语义信息,并生成更符合用户意图的图像。同时,通过轻量级适配器和跨模态精炼器,降低了计算成本。

技术框架:LDGen的整体框架包含以下几个主要模块:1) 语言表示模块:利用LLMs对输入文本进行编码,并通过分层标题优化和人工指导技术,提取更精确的语义信息。2) 轻量级适配器:将LLMs的特征表示与图像特征进行对齐,实现跨模态的特征融合。3) 跨模态精炼器:进一步优化融合后的特征,提高图像的生成质量。4) 扩散模型:利用融合后的特征作为条件,生成最终的图像。

关键创新:LDGen的关键创新在于其利用LLMs进行语言表示,并结合轻量级适配器和跨模态精炼器,实现了高效的多语言文本到图像生成。与传统的文本编码器相比,LLMs能够更好地理解和生成不同语言的文本,从而提高了图像的语义一致性和美学质量。此外,轻量级适配器和跨模态精炼器降低了计算成本,使得LDGen可以在资源有限的环境下运行。

关键设计:LDGen的关键设计包括:1) 分层标题优化:通过多层次的标题生成和筛选,提取更精确的语义信息。2) 人工指导:利用人工标注的数据,指导LLMs生成更符合用户意图的文本描述。3) 轻量级适配器:采用低秩分解等技术,降低适配器的参数量,提高训练效率。4) 跨模态精炼器:利用注意力机制,实现跨模态特征的精细化融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LDGen在提示遵循度和图像美学质量方面均优于基线模型。具体而言,LDGen在多语言图像生成任务中,能够生成更符合用户意图的图像,并且在图像的清晰度、色彩和细节等方面表现更好。此外,LDGen还实现了零样本多语言图像生成,无需针对特定语言进行额外训练。

🎯 应用场景

LDGen具有广泛的应用前景,包括但不限于:多语言内容创作、个性化图像生成、虚拟现实和增强现实、教育和娱乐等领域。该方法可以帮助用户轻松地生成各种语言的图像,从而促进跨文化交流和理解。此外,LDGen还可以用于生成具有特定风格和主题的图像,满足用户的个性化需求。未来,LDGen有望成为一种重要的图像生成工具,为各行各业带来创新和价值。

📄 摘要(原文)

In this paper, we introduce LDGen, a novel method for integrating large language models (LLMs) into existing text-to-image diffusion models while minimizing computational demands. Traditional text encoders, such as CLIP and T5, exhibit limitations in multilingual processing, hindering image generation across diverse languages. We address these challenges by leveraging the advanced capabilities of LLMs. Our approach employs a language representation strategy that applies hierarchical caption optimization and human instruction techniques to derive precise semantic information,. Subsequently, we incorporate a lightweight adapter and a cross-modal refiner to facilitate efficient feature alignment and interaction between LLMs and image features. LDGen reduces training time and enables zero-shot multilingual image generation. Experimental results indicate that our method surpasses baseline models in both prompt adherence and image aesthetic quality, while seamlessly supporting multiple languages. Project page: https://zrealli.github.io/LDGen.