Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision

📄 arXiv: 2504.21423v1 📥 PDF

作者: Weicai Yan, Wang Lin, Zirun Guo, Ye Wang, Fangming Feng, Xiaoda Yang, Zehan Wang, Tao Jin

分类: cs.CV

发布日期: 2025-04-30

备注: Accepted at ICLR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

Diff-Prompt:利用扩散模型和掩码监督生成细粒度Prompt,提升多模态模型在复杂任务上的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Prompt学习 扩散模型 多模态学习 指代表达式理解 掩码监督 生成模型 参数高效微调

📋 核心要点

  1. 现有Prompt学习方法在复杂和细粒度任务中表现受限,因为它们直接通过损失反向传播优化Prompt参数,限制了Prompt表示的丰富性和特异性。
  2. Diff-Prompt利用扩散模型生成丰富的Prompt信息,通过Mask-VAE压缩掩码,并使用改进的扩散Transformer在潜在空间训练Prompt生成器,以掩码作为监督。
  3. 在指代表达式理解任务上的实验表明,Diff-Prompt显著优于现有方法,在R@1和R@5等指标上均取得了显著提升,验证了方法的有效性。

📝 摘要(中文)

本文提出了一种基于扩散模型的Prompt生成器Diff-Prompt,旨在为复杂下游任务生成丰富且细粒度的Prompt信息。该方法包含三个阶段:首先,训练一个Mask-VAE将掩码压缩到潜在空间;其次,利用改进的扩散Transformer(DiT)在潜在空间训练一个Prompt生成器,并使用掩码进行监督;最后,将Prompt生成器的去噪过程与预训练模型在语义空间中对齐,并使用生成的Prompt来微调模型。在指代表达式理解这一复杂的像素级下游任务上进行了实验,结果表明,与基础模型相比,Diff-Prompt在R@1指标上取得了8.87,R@5指标上取得了14.05的最大提升,并且优于其他最先进的方法。实验结果验证了该方法的有效性,并突出了使用生成模型进行Prompt生成的潜力。

🔬 方法详解

问题定义:现有的Prompt学习方法在处理复杂和细粒度任务时面临挑战。这些方法通常直接通过损失反向传播来优化Prompt参数,这限制了Prompt表示的丰富性和特异性,导致模型无法充分捕捉任务的细节信息。因此,如何生成更具表达力和针对性的Prompt,以提升模型在复杂任务上的性能,是本文要解决的核心问题。

核心思路:本文的核心思路是利用扩散模型强大的生成能力,生成更丰富和细粒度的Prompt信息。通过将掩码信息编码到潜在空间,并使用扩散模型学习从噪声到Prompt的生成过程,可以克服传统方法中Prompt表示能力不足的问题。同时,使用掩码作为监督信号,可以引导扩散模型生成与任务相关的Prompt。

技术框架:Diff-Prompt包含三个主要阶段:1) Mask-VAE训练:使用Mask-VAE将掩码压缩到低维潜在空间,提取掩码的关键特征。2) 扩散Transformer(DiT)训练:在潜在空间中,使用改进的DiT训练Prompt生成器,以掩码作为监督信号,学习从噪声到Prompt的生成过程。3) 语义空间对齐与微调:将Prompt生成器的去噪过程与预训练模型在语义空间中对齐,确保生成的Prompt与预训练模型的语义空间一致,然后使用生成的Prompt微调预训练模型。

关键创新:Diff-Prompt的关键创新在于使用扩散模型生成Prompt,并引入掩码监督。与传统的基于梯度优化的Prompt学习方法相比,扩散模型能够生成更丰富和细粒度的Prompt信息,从而提升模型在复杂任务上的性能。掩码监督则能够引导扩散模型生成与任务相关的Prompt,提高Prompt的有效性。

关键设计:在Mask-VAE阶段,使用了标准的VAE结构,并针对掩码数据的特点进行了优化。在DiT阶段,采用了改进的Transformer结构,并引入了条件输入,以掩码作为条件引导Prompt生成。在语义空间对齐阶段,使用了对比学习损失,将Prompt生成器的去噪过程与预训练模型的语义空间对齐。具体的损失函数权重和网络结构参数等细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Diff-Prompt在指代表达式理解任务上取得了显著的性能提升。与基础模型相比,Diff-Prompt在R@1指标上取得了8.87的提升,在R@5指标上取得了14.05的提升。此外,Diff-Prompt还优于其他最先进的参数高效微调方法,证明了其在复杂任务上的有效性。这些实验结果充分验证了使用扩散模型生成Prompt的潜力。

🎯 应用场景

Diff-Prompt具有广泛的应用前景,可应用于各种需要细粒度理解的多模态任务,例如图像分割、目标检测、视觉问答等。该方法能够有效提升模型在复杂场景下的性能,具有重要的实际应用价值。未来,可以将Diff-Prompt扩展到其他模态,例如文本和音频,以实现更强大的多模态理解能力。

📄 摘要(原文)

Prompt learning has demonstrated promising results in fine-tuning pre-trained multimodal models. However, the performance improvement is limited when applied to more complex and fine-grained tasks. The reason is that most existing methods directly optimize the parameters involved in the prompt generation process through loss backpropagation, which constrains the richness and specificity of the prompt representations. In this paper, we propose Diffusion-Driven Prompt Generator (Diff-Prompt), aiming to use the diffusion model to generate rich and fine-grained prompt information for complex downstream tasks. Specifically, our approach consists of three stages. In the first stage, we train a Mask-VAE to compress the masks into latent space. In the second stage, we leverage an improved Diffusion Transformer (DiT) to train a prompt generator in the latent space, using the masks for supervision. In the third stage, we align the denoising process of the prompt generator with the pre-trained model in the semantic space, and use the generated prompts to fine-tune the model. We conduct experiments on a complex pixel-level downstream task, referring expression comprehension, and compare our method with various parameter-efficient fine-tuning approaches. Diff-Prompt achieves a maximum improvement of 8.87 in R@1 and 14.05 in R@5 compared to the foundation model and also outperforms other state-of-the-art methods across multiple metrics. The experimental results validate the effectiveness of our approach and highlight the potential of using generative models for prompt generation. Code is available at https://github.com/Kelvin-ywc/diff-prompt.