Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models

📄 arXiv: 2603.17677v1 📥 PDF

作者: Jaemin Kim, Jong Chul Ye

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-03-18


💡 一句话要点

提出ARAM框架,通过自适应指导解决检索增强扩散模型中的检索先验冲突问题。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 检索增强生成 扩散模型 自适应指导 信噪比 知识密集型问答

📋 核心要点

  1. RAG在扩散模型中面临检索先验冲突,即检索上下文的噪声会降低生成质量。
  2. ARAM框架通过信噪比动态调整指导尺度,增强可靠信息,抑制噪声信息。
  3. 实验表明,ARAM在知识密集型QA任务上优于现有RAG基线方法。

📝 摘要(中文)

检索增强生成(RAG)通过将外部知识融入语言模型生成过程来提高事实依据。然而,当检索到的上下文存在噪声、不可靠或与模型的参数知识不一致时,会引入检索先验冲突,从而降低生成质量。虽然这个问题已经在自回归语言模型中得到了研究,但在基于扩散的语言模型中,它在很大程度上仍未被探索,因为迭代去噪过程为整合检索到的上下文带来了独特的挑战。本文提出了一种自适应检索增强掩码扩散(ARAM)框架,这是一种用于RAG设置中掩码扩散模型(MDM)的免训练自适应指导框架。ARAM根据检索到的上下文引起的分布偏移的信噪比(SNR)动态校准去噪过程中的指导尺度。直观地说,当检索到的上下文提供可靠的修正证据时,模型会加强指导,而当上下文信号嘈杂或不支持时,则会抑制指导。在多个知识密集型QA基准上的大量实验表明,ARAM提高了相对于竞争性RAG基线的整体QA性能。

🔬 方法详解

问题定义:论文旨在解决检索增强扩散模型(MDM)在RAG场景下,由于检索到的上下文可能包含噪声、不准确或与模型自身知识冲突的信息,从而导致生成质量下降的问题。现有方法难以有效区分和利用检索到的上下文,容易受到噪声信息的干扰。

核心思路:论文的核心思路是根据检索到的上下文的可靠性动态调整指导强度。具体来说,通过评估检索上下文引入的分布偏移的信噪比(SNR),来判断检索信息的质量。当SNR高时,表明检索信息可靠,增强指导;当SNR低时,表明检索信息不可靠,减弱指导。

技术框架:ARAM框架主要包含以下几个阶段:1) 使用检索模型获取外部知识;2) 将检索到的上下文与输入文本进行拼接;3) 使用掩码扩散模型(MDM)进行迭代去噪生成;4) 在去噪过程中,根据检索上下文的SNR动态调整指导尺度。整体框架是训练自由的,即不需要额外的训练过程。

关键创新:ARAM的关键创新在于提出了一种自适应的指导机制,能够根据检索上下文的质量动态调整指导强度。与传统的RAG方法不同,ARAM不是简单地将检索到的上下文作为先验信息,而是根据其可靠性进行加权,从而更好地利用外部知识,并减少噪声信息的干扰。

关键设计:ARAM的关键设计包括:1) 使用信噪比(SNR)作为衡量检索上下文质量的指标;2) 设计了一种基于SNR的指导尺度调整函数,用于动态调整去噪过程中的指导强度;3) 该方法是训练自由的,不需要额外的训练数据或参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARAM在多个知识密集型QA基准测试中优于现有的RAG基线方法。具体来说,ARAM在QA性能上取得了显著提升,证明了其有效性。该方法无需额外训练,易于部署和应用。

🎯 应用场景

该研究成果可应用于各种需要利用外部知识的文本生成任务,例如问答系统、对话系统、文本摘要等。通过自适应地利用检索到的信息,可以提高生成文本的事实准确性和相关性,从而提升用户体验。未来,该方法还可以扩展到其他类型的生成模型和知识源。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) improves factual grounding by incorporating external knowledge into language model generation. However, when retrieved context is noisy, unreliable, or inconsistent with the model's parametric knowledge, it introduces retrieval-prior conflicts that can degrade generation quality. While this problem has been studied in autoregressive language models, it remains largely unexplored in diffusion-based language models, where the iterative denoising process introduces unique challenges for integrating retrieved context. In this work, we propose Adaptive Retrieval-Augmented Masked Diffusion (ARAM), a training-free adaptive guidance framework for Masked Diffusion Models (MDMs) in RAG settings. ARAM dynamically calibrates the guidance scale during denoising according to the Signal-to-Noise Ratio (SNR) of the distributional shift induced by retrieved context. Intuitively, the model strengthens guidance when the retrieved context provides reliable corrective evidence and suppresses it when the contextual signal is noisy or non-supportive. Extensive experiments on multiple knowledge-intensive QA benchmarks show that ARAM improves overall QA performance over competitive RAG baselines.