TraceDet: Hallucination Detection from the Decoding Trace of Diffusion Large Language Models
作者: Shenxu Chang, Junchi Yu, Weixing Wang, Yongqiang Chen, Jialin Yu, Philip Torr, Jindong Gu
分类: cs.CL, cs.LG
发布日期: 2025-09-30
💡 一句话要点
TraceDet:利用扩散大语言模型解码轨迹进行幻觉检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散大语言模型 幻觉检测 去噪过程 动作轨迹 中间步骤
📋 核心要点
- 现有的幻觉检测方法主要针对自回归模型,无法有效利用扩散模型多步去噪过程中的信息。
- TraceDet将扩散模型的去噪过程建模为动作轨迹,通过分析中间步骤预测来检测幻觉。
- 实验表明,TraceDet在幻觉检测方面显著优于现有方法,AUROC平均提升15.2%。
📝 摘要(中文)
扩散大语言模型(D-LLMs)最近作为自回归LLM(AR-LLMs)的一种有前景的替代方案出现。然而,D-LLM中的幻觉问题仍未被充分探索,限制了它们在实际应用中的可靠性。现有的幻觉检测方法是为AR-LLM设计的,依赖于单步生成中的信号,这使得它们不适合D-LLM,因为幻觉信号通常在多步去噪过程中出现。为了弥补这一差距,我们提出了TraceDet,这是一个新颖的框架,它显式地利用D-LLM的中间去噪步骤进行幻觉检测。TraceDet将去噪过程建模为一个动作轨迹,每个动作被定义为模型对清理后的响应的预测,并以先前的中间输出为条件。通过识别对幻觉响应信息量最大的子轨迹,TraceDet利用D-LLM多步去噪过程中的关键幻觉信号进行幻觉检测。在各种开源D-LLM上进行的大量实验表明,与基线相比,TraceDet始终提高了幻觉检测能力,AUROC平均提高了15.2%。
🔬 方法详解
问题定义:论文旨在解决扩散大语言模型(D-LLMs)中存在的幻觉问题。现有的幻觉检测方法主要针对自回归模型(AR-LLMs),无法有效利用D-LLMs多步去噪过程中的中间信息,导致检测效果不佳。D-LLMs的幻觉信号往往在多步去噪过程中逐渐显现,单步生成信号无法捕捉到这些信息。
核心思路:论文的核心思路是将D-LLMs的去噪过程视为一个动作轨迹,每个动作代表模型在当前去噪步骤中对最终输出的预测。通过分析这个轨迹,可以识别出对幻觉响应贡献最大的子轨迹,从而更准确地检测幻觉。这种方法充分利用了D-LLMs多步去噪过程中的信息,避免了仅依赖单步生成信号的局限性。
技术框架:TraceDet框架主要包含以下几个阶段:1) 将D-LLM的去噪过程记录为一系列中间输出;2) 将每个中间输出视为一个动作,构建动作轨迹;3) 使用一个模型(例如,分类器)来评估每个动作对最终输出的影响,并识别出对幻觉响应信息量最大的子轨迹;4) 基于识别出的子轨迹进行幻觉检测。
关键创新:TraceDet的关键创新在于它将D-LLMs的去噪过程建模为动作轨迹,并利用中间步骤的信息进行幻觉检测。与现有方法相比,TraceDet能够更全面地捕捉D-LLMs中的幻觉信号,从而提高检测准确率。此外,TraceDet还提出了一种识别关键子轨迹的方法,进一步提升了检测效率。
关键设计:TraceDet的关键设计包括:1) 如何定义动作轨迹,即如何表示每个中间去噪步骤的状态;2) 如何评估每个动作对最终输出的影响,可以使用分类器或回归器等模型;3) 如何选择信息量最大的子轨迹,可以使用各种搜索算法或启发式方法。论文中具体使用的参数设置、损失函数和网络结构等细节未明确给出,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TraceDet在各种开源D-LLMs上均能有效提高幻觉检测能力,AUROC平均提升15.2%。这一显著的提升表明TraceDet能够有效利用D-LLMs多步去噪过程中的信息,从而更准确地检测幻觉。相较于基线方法,TraceDet在幻觉检测性能上取得了显著的进步。
🎯 应用场景
TraceDet可应用于各种基于扩散大语言模型的应用场景,例如文本生成、机器翻译、对话系统等。通过提高D-LLMs的可靠性,TraceDet可以减少错误信息的传播,提升用户体验,并促进D-LLMs在实际场景中的广泛应用。未来,该技术还可以扩展到其他类型的生成模型,例如图像生成模型。
📄 摘要(原文)
Diffusion large language models (D-LLMs) have recently emerged as a promising alternative to auto-regressive LLMs (AR-LLMs). However, the hallucination problem in D-LLMs remains underexplored, limiting their reliability in real-world applications. Existing hallucination detection methods are designed for AR-LLMs and rely on signals from single-step generation, making them ill-suited for D-LLMs where hallucination signals often emerge throughout the multi-step denoising process. To bridge this gap, we propose TraceDet, a novel framework that explicitly leverages the intermediate denoising steps of D-LLMs for hallucination detection. TraceDet models the denoising process as an action trace, with each action defined as the model's prediction over the cleaned response, conditioned on the previous intermediate output. By identifying the sub-trace that is maximally informative to the hallucinated responses, TraceDet leverages the key hallucination signals in the multi-step denoising process of D-LLMs for hallucination detection. Extensive experiments on various open source D-LLMs demonstrate that TraceDet consistently improves hallucination detection, achieving an average gain in AUROC of 15.2% compared to baselines.