Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models

📄 arXiv: 2603.17677 📥 PDF

作者: Jaemin Kim, Jong Chul Ye

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-06


💡 一句话要点

提出ARAM自适应引导框架,解决检索增强扩散模型中的检索先验冲突问题。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 检索增强生成 掩码扩散模型 自适应引导 信噪比 知识密集型问答

📋 核心要点

  1. 检索增强生成在扩散模型中面临检索先验冲突,即检索信息可能噪声大或与模型知识矛盾。
  2. ARAM框架通过信噪比动态调整引导尺度,可靠时加强引导,噪声大时抑制引导。
  3. 实验表明,ARAM在知识密集型问答任务中,性能优于其他检索增强生成基线方法。

📝 摘要(中文)

检索增强生成(RAG)通过将外部知识融入语言模型生成过程来提高事实依据。然而,当检索到的上下文存在噪声、不可靠或与模型的参数知识不一致时,会引入检索先验冲突,从而降低生成质量。虽然这个问题已经在自回归语言模型中得到研究,但在基于扩散的语言模型中仍然很大程度上未被探索,因为迭代去噪过程为整合检索到的上下文带来了独特的挑战。本文提出了自适应检索增强掩码扩散(ARAM),这是一个用于RAG设置中掩码扩散模型(MDM)的免训练自适应引导框架。ARAM根据检索上下文引起的分布偏移的信噪比(SNR)动态校准去噪过程中的引导尺度。直观地说,当检索到的上下文提供可靠的修正证据时,模型会加强引导,而当上下文信号嘈杂或不支持时,则会抑制引导。在多个知识密集型QA基准上的大量实验表明,ARAM优于具有竞争力的RAG基线,提高了整体QA性能。

🔬 方法详解

问题定义:论文旨在解决检索增强的掩码扩散模型(MDM)在处理知识密集型任务时,由于检索到的上下文信息可能存在噪声、不准确或与模型自身知识冲突而导致的生成质量下降问题。现有方法难以有效区分和利用检索到的上下文,导致检索先验冲突。

核心思路:论文的核心思路是根据检索到的上下文的可靠性动态调整引导强度。具体来说,通过估计检索上下文引入的分布偏移的信噪比(SNR),来判断检索信息的质量。当SNR高时,表明检索信息可靠,增强引导;当SNR低时,表明检索信息不可靠,减弱引导。

技术框架:ARAM框架主要包含以下几个步骤:1) 使用检索模型获取外部知识;2) 将检索到的上下文信息与输入文本一起输入到掩码扩散模型(MDM);3) 在MDM的去噪过程中,根据检索上下文引起的分布偏移的信噪比(SNR)动态调整引导尺度;4) 通过调整后的引导,控制模型生成过程,从而提高生成质量。

关键创新:ARAM的关键创新在于提出了一种免训练的自适应引导机制,该机制能够根据检索上下文的质量动态调整引导强度。与现有方法相比,ARAM不需要额外的训练,并且能够更有效地利用检索到的上下文信息。

关键设计:ARAM的关键设计包括:1) 使用信噪比(SNR)来衡量检索上下文的质量;2) 设计了一种基于SNR的自适应引导函数,该函数能够根据SNR动态调整引导强度。具体来说,引导尺度被设计为SNR的函数,SNR越高,引导尺度越大;SNR越低,引导尺度越小。论文中没有明确提及具体的SNR计算方法和引导函数的具体形式,这部分信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARAM在多个知识密集型问答基准测试中,显著优于现有的检索增强生成方法。具体性能提升数据未知,但摘要中明确指出ARAM优于具有竞争力的RAG基线,提高了整体QA性能。这表明ARAM能够更有效地利用检索到的外部知识,从而提高问答系统的准确性。

🎯 应用场景

该研究成果可应用于各种需要知识增强的自然语言生成任务,例如问答系统、对话系统、文本摘要等。通过自适应地利用外部知识,可以提高生成内容的准确性和信息量,从而提升用户体验。此外,该方法无需额外训练,易于集成到现有系统中,具有很高的实用价值。未来,该技术有望在智能客服、知识图谱问答等领域发挥重要作用。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) improves factual grounding by incorporating external knowledge into language model generation. However, when retrieved context is noisy, unreliable, or inconsistent with the model's parametric knowledge, it introduces retrieval-prior conflicts that can degrade generation quality. While this problem has been studied in autoregressive language models, it remains largely unexplored in diffusion-based language models, where the iterative denoising process introduces unique challenges for integrating retrieved context. In this work, we propose Adaptive Retrieval-Augmented Masked Diffusion (ARAM), a training-free adaptive guidance framework for Masked Diffusion Models (MDMs) in RAG settings. ARAM dynamically calibrates the guidance scale during denoising according to the Signal-to-Noise Ratio (SNR) of the distributional shift induced by retrieved context. Intuitively, the model strengthens guidance when the retrieved context provides reliable corrective evidence and suppresses it when the contextual signal is noisy or non-supportive. Extensive experiments on multiple knowledge-intensive QA benchmarks show that ARAM improves overall QA performance over competitive RAG baselines.