Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers
作者: Yuxuan Yao, Yuxuan Chen, Hui Li, Kaihui Cheng, Qipeng Guo, Yuwei Sun, Zilong Dong, Jingdong Wang, Siyu Zhu
分类: cs.CV
发布日期: 2026-02-06 (更新: 2026-02-17)
备注: 18 pages
💡 一句话要点
提出Prompt Reinjection,缓解多模态扩散Transformer中的Prompt遗忘问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态扩散模型 文本到图像生成 Prompt遗忘 Prompt Reinjection Transformer 指令遵循 图像质量
📋 核心要点
- 多模态扩散模型存在prompt遗忘问题,即文本信息在深层网络中逐渐丢失,影响生成质量。
- Prompt Reinjection方法将浅层prompt信息重新注入深层,保持文本语义的连贯性,无需额外训练。
- 实验表明,该方法在多个数据集上提升了文本到图像生成的指令遵循能力和图像质量。
📝 摘要(中文)
本文研究了用于文本到图像生成的多模态扩散Transformer (MMDiT) 中的prompt遗忘现象。MMDiT维护独立的文本和图像分支,并在去噪过程中实现文本token和视觉潜在变量之间的双向信息流动。研究发现,随着网络深度的增加,文本分支中prompt表示的语义逐渐被遗忘。通过对SD3、SD3.5和FLUX.1等代表性MMDiT的文本分支中各层的语言属性进行探测,验证了这一现象。为此,本文提出了一种无需训练的方法——prompt reinjection,将早期层的prompt表示重新注入到后面的层中,以缓解这种遗忘。在GenEval、DPG和T2I-CompBench++上的实验表明,该方法在指令遵循能力方面取得了持续的提升,同时改进了偏好、美学和整体文本-图像生成质量的指标。
🔬 方法详解
问题定义:论文旨在解决多模态扩散Transformer(MMDiT)在文本到图像生成过程中出现的prompt遗忘问题。现有的MMDiT模型,如SD3、SD3.5和FLUX.1,在深层网络中会逐渐丢失prompt的语义信息,导致生成的图像与prompt的关联性降低。这种prompt遗忘现象是现有方法的一个显著痛点。
核心思路:论文的核心思路是通过将早期层的prompt表示重新注入到后面的层中,从而缓解prompt遗忘问题。这种“prompt reinjection”的思想类似于残差连接,旨在保持文本语义的连贯性,确保深层网络能够充分利用prompt信息。
技术框架:Prompt Reinjection方法主要包含以下几个阶段:1) 使用MMDiT模型进行文本到图像生成;2) 在文本分支中,提取早期层的prompt表示;3) 将提取的prompt表示注入到后续的层中;4) 利用修改后的MMDiT模型进行图像生成。整个过程无需修改原有的MMDiT架构,也无需额外的训练。
关键创新:该方法最重要的技术创新点在于提出了prompt reinjection的概念,并将其应用于缓解多模态扩散模型中的prompt遗忘问题。与现有方法相比,prompt reinjection无需额外的训练,易于集成到现有的MMDiT模型中,并且能够有效地提升文本到图像生成的质量。
关键设计:Prompt reinjection的具体实现方式是将早期层的prompt表示直接加到后续层的prompt表示上。论文中并没有详细说明选择哪些层进行注入,这可能需要根据具体的模型和数据集进行调整。此外,论文也没有引入额外的参数或损失函数,保持了方法的简洁性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Prompt Reinjection方法在GenEval、DPG和T2I-CompBench++等数据集上均取得了显著的性能提升。该方法在指令遵循能力、图像偏好、美学质量和整体文本-图像生成质量等方面均有改进,证明了其有效性。具体提升幅度未知,论文中没有给出量化数据。
🎯 应用场景
该研究成果可广泛应用于文本到图像生成领域,提升图像生成质量和文本遵循度。例如,可以应用于创意设计、艺术创作、虚拟现实等领域,帮助用户更精准地生成符合需求的图像内容。未来,该方法有望扩展到其他多模态生成任务中,例如文本到视频生成等。
📄 摘要(原文)
Multimodal Diffusion Transformers (MMDiTs) for text-to-image generation maintain separate text and image branches, with bidirectional information flow between text tokens and visual latents throughout denoising. In this setting, we observe a prompt forgetting phenomenon: the semantics of the prompt representation in the text branch is progressively forgotten as depth increases. We further verify this effect on three representative MMDiTs--SD3, SD3.5, and FLUX.1 by probing linguistic attributes of the representations over the layers in the text branch. Motivated by these findings, we introduce a training-free approach, prompt reinjection, which reinjects prompt representations from early layers into later layers to alleviate this forgetting. Experiments on GenEval, DPG, and T2I-CompBench++ show consistent gains in instruction-following capability, along with improvements on metrics capturing preference, aesthetics, and overall text--image generation quality.