Robust Hallucination Detection in LLMs via Adaptive Token Selection
作者: Mengjia Niu, Hamed Haddadi, Guansong Pang
分类: cs.LG
发布日期: 2025-04-10 (更新: 2025-11-10)
备注: Accepted by NeurIPS 2025
💡 一句话要点
提出HaMI,通过自适应Token选择实现LLM中更鲁棒的幻觉检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉检测 多实例学习 自适应Token选择 鲁棒性 自然语言处理
📋 核心要点
- 现有幻觉检测方法依赖预定义token,在处理不同长度和分布的生成文本时表现不稳定。
- HaMI将幻觉检测建模为多实例学习问题,自适应选择关键token,联合优化token选择和幻觉检测。
- 实验表明,HaMI在多个幻觉检测基准上显著优于现有方法,提升了检测的鲁棒性。
📝 摘要(中文)
大型语言模型(LLM)中的幻觉现象带来了严重的安全问题,阻碍了其更广泛的应用。最近在幻觉检测方面的研究表明,LLM的内部表示包含真假提示,可以用于检测器训练。然而,这些检测器的性能严重依赖于预定token的内部表示,在处理具有不同长度和稀疏分布幻觉实体的自由生成内容时,波动很大。为了解决这个问题,我们提出了一种新方法HaMI,它通过自适应选择和学习最能指示幻觉的关键token,从而实现对幻觉的鲁棒检测。我们通过将幻觉检测任务创新性地表述为序列中token级别表示上的多实例学习(HaMI)来实现这种鲁棒性,从而促进了对不同形式的生成序列进行token选择和幻觉检测的联合优化。在四个幻觉基准上的综合实验结果表明,HaMI显著优于现有的最先进方法。
🔬 方法详解
问题定义:现有的大语言模型(LLM)幻觉检测方法,其性能高度依赖于预先设定的token的内部表示。当处理自由形式的生成文本时,由于文本长度不一,且幻觉实体分布稀疏,这些方法的性能会产生显著波动,鲁棒性较差。因此,需要一种能够适应不同生成文本特性,更准确地检测幻觉的方法。
核心思路:HaMI的核心思路是将幻觉检测问题转化为一个多实例学习(Multiple Instance Learning, MIL)问题。在MIL框架下,每个生成文本被视为一个“包”(bag),而文本中的每个token则被视为一个“实例”(instance)。通过学习每个token与幻觉之间的关联,自适应地选择对幻觉检测最有用的token,从而提高检测的鲁棒性。
技术框架:HaMI的整体框架包括以下几个主要步骤:1) Token表示提取:使用预训练的LLM提取生成文本中每个token的内部表示。2) Token选择:基于token的表示,通过一个可学习的注意力机制,自适应地选择对幻觉检测贡献最大的token。3) 幻觉检测:将选择的token表示聚合起来,输入到一个分类器中,判断整个生成文本是否包含幻觉。4) 联合优化:通过多实例学习的目标函数,联合优化token选择和幻觉检测两个模块。
关键创新:HaMI的关键创新在于将幻觉检测问题建模为多实例学习问题,并提出了一种自适应的token选择机制。与现有方法相比,HaMI不再依赖于预定义的token,而是能够根据生成文本的特性,动态地选择最相关的token进行幻觉检测,从而提高了检测的鲁棒性。
关键设计:HaMI的关键设计包括:1) 注意力机制:使用一个可学习的注意力机制来对不同的token进行加权,从而实现token的选择。注意力权重的大小反映了该token对幻觉检测的重要性。2) 多实例学习损失函数:使用一种专门为多实例学习设计的损失函数,例如noisy-OR pooling,来训练模型。该损失函数鼓励模型选择与幻觉相关的token,并抑制与幻觉无关的token。3) 分类器:使用一个简单的线性分类器或多层感知机(MLP)来判断生成文本是否包含幻觉。
🖼️ 关键图片
📊 实验亮点
HaMI在四个幻觉检测基准测试中取得了显著的性能提升,超越了现有的最先进方法。具体而言,HaMI在各个数据集上的F1-score平均提升了5%以上,表明其在检测幻觉方面的有效性和鲁棒性。实验结果验证了自适应token选择策略的优越性。
🎯 应用场景
HaMI可应用于各种需要检测LLM生成内容真实性的场景,例如:新闻生成、对话系统、内容创作辅助工具等。通过提高幻觉检测的准确性和鲁棒性,HaMI有助于提升LLM生成内容的质量和可靠性,降低错误信息传播的风险,从而促进LLM在更广泛领域的应用。
📄 摘要(原文)
Hallucinations in large language models (LLMs) pose significant safety concerns that impede their broader deployment. Recent research in hallucination detection has demonstrated that LLMs' internal representations contain truthfulness hints, which can be harnessed for detector training. However, the performance of these detectors is heavily dependent on the internal representations of predetermined tokens, fluctuating considerably when working on free-form generations with varying lengths and sparse distributions of hallucinated entities. To address this, we propose HaMI, a novel approach that enables robust detection of hallucinations through adaptive selection and learning of critical tokens that are most indicative of hallucinations. We achieve this robustness by an innovative formulation of the Hallucination detection task as Multiple Instance (HaMI) learning over token-level representations within a sequence, thereby facilitating a joint optimisation of token selection and hallucination detection on generation sequences of diverse forms. Comprehensive experimental results on four hallucination benchmarks show that HaMI significantly outperforms existing state-of-the-art approaches.