Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval

📄 arXiv: 2501.15379v2 📥 PDF

作者: Zijun Long, Kangheng Liang, Gerardo Aragon-Camarasa, Richard Mccreadie, Paul Henderson

分类: cs.IR, cs.AI, cs.CV

发布日期: 2025-01-26 (更新: 2025-07-10)

DOI: 10.1145/3726302.3729950


💡 一句话要点

提出Diffusion Augmented Retrieval (DAR),无需微调即可实现交互式文本到图像检索。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交互式图像检索 文本到图像生成 扩散模型 大型语言模型 多模态学习

📋 核心要点

  1. 现有交互式文本到图像检索方法依赖微调的多模态大模型,存在训练成本高、泛化性差的问题。
  2. DAR利用扩散模型进行文本到图像映射,通过LLM对话和扩散模型生成中间表示,增强用户意图的表达。
  3. 实验表明,DAR在简单查询上与微调模型性能相当,在复杂查询上显著优于微调模型,提升高达7.61%。

📝 摘要(中文)

交互式文本到图像检索(I-TIR)在电子商务和教育等领域具有广泛的应用前景。然而,当前的方法依赖于微调的多模态大型语言模型(MLLM),这不仅训练和更新成本高昂,而且泛化能力较差。由于微调缩小了MLLM的预训练分布,降低了泛化能力,并且I-TIR引入了越来越多的查询多样性和复杂性,因此I-TIR解决方案很可能遇到训练数据集中未充分表示的查询和图像。为了解决这个问题,我们提出利用扩散模型(DM)进行文本到图像的映射,以避免微调MLLM,同时保持在复杂查询上的鲁棒性能。具体来说,我们引入了Diffusion Augmented Retrieval (DAR),该框架通过基于LLM的对话改进和DM生成多个中间表示,从而更丰富地描述用户的信息需求。这种增强的表示有助于更准确地识别语义和视觉相关的图像。在四个基准上的大量实验表明,对于简单查询,DAR实现了与微调I-TIR模型相当的结果,但没有产生它们的调整开销。此外,随着查询通过额外的对话轮次变得更加复杂,DAR在十轮后超过了微调I-TIR模型高达7.61%的Hits@10,这说明了它对更复杂查询的改进泛化。

🔬 方法详解

问题定义:论文旨在解决交互式文本到图像检索(I-TIR)中,现有方法依赖微调多模态大模型(MLLM)所带来的泛化性差和训练成本高的问题。现有方法在面对复杂或未见过的查询时,性能会显著下降,限制了其在实际场景中的应用。

核心思路:论文的核心思路是利用扩散模型(DM)的强大生成能力,将文本描述转化为图像表示,从而避免对MLLM进行微调。通过结合大型语言模型(LLM)进行对话式的查询优化,逐步细化用户意图,并利用扩散模型生成更丰富的中间表示,最终提升检索的准确性。

技术框架:DAR框架主要包含两个阶段:1) 基于LLM的对话式查询优化:利用LLM与用户进行多轮对话,逐步细化用户意图,生成更精确的文本描述。2) 基于扩散模型的图像表示生成:将优化后的文本描述输入扩散模型,生成多个中间图像表示,这些表示捕捉了用户意图的不同方面。最后,将这些图像表示与候选图像进行匹配,选择最相关的图像。

关键创新:DAR的关键创新在于它是一种无需微调的交互式文本到图像检索方法。它通过结合LLM和扩散模型,实现了对复杂查询的鲁棒处理,避免了微调MLLM带来的泛化性问题。此外,DAR利用多轮对话和多个中间图像表示,更全面地捕捉了用户的信息需求。

关键设计:DAR框架中,LLM用于对话式查询优化,可以选择不同的LLM模型。扩散模型用于生成图像表示,可以选择不同的扩散模型架构。关键参数包括对话轮数、生成的中间图像表示的数量等。损失函数主要用于训练扩散模型,可以选择常用的扩散模型损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DAR在四个基准数据集上进行了评估,结果表明,对于简单查询,DAR的性能与微调的I-TIR模型相当,但无需微调。对于复杂查询,DAR的性能显著优于微调的I-TIR模型,在十轮对话后,Hits@10指标提升高达7.61%,证明了DAR在处理复杂查询方面的优越性。

🎯 应用场景

该研究成果可应用于电商、教育、设计等领域。在电商领域,用户可以通过自然语言描述找到想要的商品;在教育领域,可以根据文本描述生成相应的图像,辅助教学;在设计领域,可以根据文本描述快速生成设计稿,提高设计效率。该方法有望推动交互式图像检索技术的发展,提升用户体验。

📄 摘要(原文)

Interactive Text-to-image retrieval (I-TIR) is an important enabler for a wide range of state-of-the-art services in domains such as e-commerce and education. However, current methods rely on finetuned Multimodal Large Language Models (MLLMs), which are costly to train and update, and exhibit poor generalizability. This latter issue is of particular concern, as: 1) finetuning narrows the pretrained distribution of MLLMs, thereby reducing generalizability; and 2) I-TIR introduces increasing query diversity and complexity. As a result, I-TIR solutions are highly likely to encounter queries and images not well represented in any training dataset. To address this, we propose leveraging Diffusion Models (DMs) for text-to-image mapping, to avoid finetuning MLLMs while preserving robust performance on complex queries. Specifically, we introduce Diffusion Augmented Retrieval (DAR), a framework that generates multiple intermediate representations via LLM-based dialogue refinements and DMs, producing a richer depiction of the user's information needs. This augmented representation facilitates more accurate identification of semantically and visually related images. Extensive experiments on four benchmarks show that for simple queries, DAR achieves results on par with finetuned I-TIR models, yet without incurring their tuning overhead. Moreover, as queries become more complex through additional conversational turns, DAR surpasses finetuned I-TIR models by up to 7.61% in Hits@10 after ten turns, illustrating its improved generalization for more intricate queries.