DynHD: Hallucination Detection for Diffusion Large Language Models via Denoising Dynamics Deviation Learning

📄 arXiv: 2603.16459v1 📥 PDF

作者: Yanyu Qian, Yue Tan, Yixin Liu, Wang Yu, Shirui Pan

分类: cs.CL

发布日期: 2026-03-17

备注: 15 pages, 8 figures, 5 tables


💡 一句话要点

DynHD:通过去噪动态偏差学习检测扩散大语言模型的幻觉

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 大语言模型 幻觉检测 去噪动态 语义感知

📋 核心要点

  1. 扩散大语言模型存在幻觉问题,降低了模型的可靠性,需要有效的方法来检测和缓解。
  2. DynHD通过语义感知的证据构建和去噪动态建模,从空间和时间两个维度提升幻觉检测的准确性。
  3. 实验表明,DynHD在多个基准测试和骨干模型上,性能优于现有方法,并具有更高的效率。

📝 摘要(中文)

扩散大语言模型(D-LLMs)因其迭代改进能力而成为自回归模型的有希望的替代方案。然而,幻觉仍然是阻碍其可靠性的一个关键问题。为了检测模型输出中的幻觉响应,token级别的uncertainty(例如,熵)已被广泛用作指示潜在事实错误的有效信号。然而,D-LLMs的固定长度生成范式意味着token对幻觉检测的贡献不均衡,只有一小部分提供有意义的信号。此外,uncertainty在扩散过程中的演变趋势也可以提供重要的信号,突出了对去噪动态进行建模以进行幻觉检测的必要性。在本文中,我们提出了DynHD,从空间(token序列)和时间(去噪动态)两个角度弥合了这些差距。为了解决token间的信息密度不平衡问题,我们提出了一个语义感知的证据构建模块,通过过滤掉非信息性token并强调语义上有意义的token来提取指示幻觉的信号。为了对去噪动态进行建模以进行幻觉检测,我们引入了一个参考证据生成器,该生成器学习uncertainty证据的预期演变轨迹,以及一个基于偏差的幻觉检测器,该检测器通过测量观察到的轨迹和参考轨迹之间的差异来进行预测。大量的实验表明,DynHD始终优于最先进的基线,同时在多个基准和骨干模型上实现了更高的效率。

🔬 方法详解

问题定义:扩散大语言模型(D-LLMs)生成的文本中存在幻觉现象,即生成不真实或与事实相悖的内容。现有的基于token级别uncertainty(如熵)的幻觉检测方法,无法有效区分不同token对幻觉检测的贡献,且忽略了去噪过程中uncertainty动态变化的信息。

核心思路:DynHD的核心思路是从空间(token序列)和时间(去噪动态)两个维度入手,更精准地捕捉幻觉发生的信号。通过语义感知的证据构建模块,关注信息量大的token;通过建模去噪过程中的uncertainty变化,学习正常文本的演变轨迹,并检测与该轨迹的偏差。

技术框架:DynHD主要包含两个核心模块:语义感知的证据构建模块和基于偏差的幻觉检测器。语义感知的证据构建模块负责提取token序列中与幻觉相关的信号,过滤掉不重要的token,并突出语义信息丰富的token。基于偏差的幻觉检测器则通过比较观察到的uncertainty演变轨迹与参考轨迹之间的差异,来判断是否存在幻觉。参考轨迹由参考证据生成器学习得到,代表了正常文本的uncertainty演变模式。

关键创新:DynHD的关键创新在于同时考虑了token序列的空间信息和去噪过程的时间信息,并设计了相应的模块来提取和利用这些信息。与现有方法相比,DynHD能够更准确地识别出与幻觉相关的token,并捕捉到去噪过程中uncertainty的异常变化。

关键设计:语义感知的证据构建模块可能使用了注意力机制或类似的权重分配方法,来区分不同token的重要性。参考证据生成器可能采用了循环神经网络(RNN)或Transformer等序列模型,来学习uncertainty的演变轨迹。基于偏差的幻觉检测器可能使用了某种距离度量方法(如KL散度或欧氏距离),来衡量观察到的轨迹与参考轨迹之间的差异。损失函数的设计可能包括对比损失或类似的目标,以鼓励参考证据生成器学习到鲁棒的正常文本演变模式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DynHD在多个基准测试和骨干模型上,均优于现有的最先进方法。具体而言,DynHD在幻觉检测的准确率、召回率和F1值等指标上均取得了显著提升,并且在保持性能的同时,实现了更高的效率。这些结果验证了DynHD在幻觉检测方面的有效性和优越性。

🎯 应用场景

DynHD可应用于各种基于扩散模型的文本生成任务,例如文本摘要、机器翻译、对话生成等。通过提高生成文本的真实性和可靠性,DynHD能够提升用户体验,并降低因幻觉内容带来的风险。该研究对于推动扩散模型在实际应用中的落地具有重要意义。

📄 摘要(原文)

Diffusion large language models (D-LLMs) have emerged as a promising alternative to auto-regressive models due to their iterative refinement capabilities. However, hallucinations remain a critical issue that hinders their reliability. To detect hallucination responses from model outputs, token-level uncertainty (e.g., entropy) has been widely used as an effective signal to indicate potential factual errors. Nevertheless, the fixed-length generation paradigm of D-LLMs implies that tokens contribute unevenly to hallucination detection, with only a small subset providing meaningful signals. Moreover, the evolution trend of uncertainty throughout the diffusion process can also provide important signals, highlighting the necessity of modeling its denoising dynamics for hallucination detection. In this paper, we propose DynHD that bridge these gaps from both spatial (token sequence) and temporal (denoising dynamics) perspectives. To address the information density imbalance across tokens, we propose a semantic-aware evidence construction module that extracts hallucination-indicative signals by filtering out non-informative tokens and emphasizing semantically meaningful ones. To model denoising dynamics for hallucination detection, we introduce a reference evidence generator that learns the expected evolution trajectory of uncertainty evidence, along with a deviation-based hallucination detector that makes predictions by measuring the discrepancy between the observed and reference trajectories. Extensive experiments demonstrate that DynHD consistently outperforms state-of-the-art baselines while achieving higher efficiency across multiple benchmarks and backbone models.