Scalable Token-Level Hallucination Detection in Large Language Models
作者: Rui Min, Tianyu Pang, Chao Du, Minhao Cheng, Yi R. Fung
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-12
💡 一句话要点
提出TokenHD,实现大规模语言模型中token级别幻觉检测,无需步骤分割。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉检测 token级别 数据合成 重要性加权
📋 核心要点
- 现有步骤级幻觉检测方法依赖步骤分割,导致粒度不足且难以扩展,限制了其在复杂推理任务中的应用。
- TokenHD通过合成大规模token级别幻觉标注数据,并采用重要性加权训练策略,直接在自由文本上训练幻觉检测器。
- 实验表明,TokenHD训练的小型检测器(0.6B)性能超越大型推理模型(QwQ-32B),且检测性能随模型增大而提升。
📝 摘要(中文)
大型语言模型(LLMs)展示了卓越的能力,但仍然频繁产生幻觉。这些幻觉在推理密集型任务中难以检测,因为内容看起来连贯,但包含逻辑缺陷和不可靠的中间结果等错误。虽然步骤级分析常用于检测内部幻觉,但由于依赖于步骤分割,因此存在粒度有限和可扩展性差的问题。为了解决这些限制,我们提出了TokenHD,一个用于训练token级别幻觉检测器的整体流程。具体来说,TokenHD包含一个可扩展的数据引擎,用于合成大规模幻觉注释,以及一个具有重要性加权策略的训练方案,用于实现稳健的模型训练。为了系统地评估检测性能,我们还提供了一个严格的评估协议。通过在TokenHD中训练,我们的检测器可以直接在自由文本上运行以识别幻觉,无需预定义的步骤分割或额外的文本重新格式化。实验表明,即使是一个小型检测器(0.6B)在训练后也能获得显著的性能提升,超过了更大的推理模型(例如,QwQ-32B),并且检测性能随着模型大小从0.6B到8B的增加而持续提升。最后,我们表明我们的检测器可以很好地泛化到不同的实际场景中,并探索了进一步增强其跨领域泛化能力的策略。
🔬 方法详解
问题定义:论文旨在解决大型语言模型中token级别的幻觉检测问题。现有方法,特别是步骤级分析,依赖于预先定义的步骤分割,这限制了检测的粒度,并且难以扩展到复杂的、非结构化的文本中。此外,标注幻觉数据成本高昂,阻碍了token级别检测器的训练。
核心思路:TokenHD的核心思路是通过大规模合成token级别的幻觉标注数据,并结合重要性加权训练策略,直接训练一个token级别的幻觉检测器。这种方法避免了对步骤分割的依赖,提高了检测的粒度,并且通过数据合成降低了标注成本。
技术框架:TokenHD包含一个数据引擎和一个训练流程。数据引擎负责合成大规模的token级别幻觉标注数据。训练流程采用重要性加权策略,以确保模型能够稳健地学习到幻觉的特征。此外,论文还提出了一个严格的评估协议,用于系统地评估检测器的性能。整体流程无需预定义的步骤分割或额外的文本重新格式化,可以直接在自由文本上运行。
关键创新:TokenHD的关键创新在于其token级别的幻觉检测能力,以及大规模数据合成方法。与传统的步骤级方法相比,TokenHD能够更精细地定位幻觉,并且通过数据合成降低了标注成本,使得训练大规模的token级别检测器成为可能。
关键设计:TokenHD的关键设计包括:1) 数据引擎的设计,用于生成高质量的token级别幻觉标注数据;2) 重要性加权策略,用于平衡不同类型token的损失,提高模型的鲁棒性;3) 评估协议的设计,用于全面评估检测器的性能,包括准确率、召回率和F1值等指标。具体的网络结构和损失函数等细节未在摘要中明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
TokenHD训练的小型检测器(0.6B)在幻觉检测任务中表现出色,超越了更大的推理模型(例如QwQ-32B)。实验结果表明,检测性能随着模型大小从0.6B到8B的增加而持续提升,并且该检测器在不同的实际场景中具有良好的泛化能力。
🎯 应用场景
TokenHD可应用于各种需要高可靠性的自然语言处理任务中,例如问答系统、机器翻译和文本摘要等。通过检测和纠正LLM产生的幻觉,可以提高这些系统的准确性和可靠性,从而增强用户信任度,并促进LLM在更广泛领域的应用。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable capabilities, but they still frequently produce hallucinations. These hallucinations are difficult to detect in reasoning-intensive tasks, where the content appears coherent but contains errors like logical flaws and unreliable intermediate results. While step-level analysis is commonly used to detect internal hallucinations, it suffers from limited granularity and poor scalability due to its reliance on step segmentation. To address these limitations, we propose TokenHD, a holistic pipeline for training token-level hallucination detectors. Specifically, TokenHD consists of a scalable data engine for synthesizing large-scale hallucination annotations along with a training recipe featuring an importance-weighted strategy for robust model training. To systematically assess the detection performance, we also provide a rigorous evaluation protocol. Through training within TokenHD, our detector operates directly on free-form text to identify hallucinations, eliminating the need for predefined step segmentation or additional text reformatting. Our experiments show that even a small detector (0.6B) achieves substantial performance gains after training, surpassing much larger reasoning models (e.g., QwQ-32B), and detection performance scales consistently with model size from 0.6B to 8B. Finally, we show that our detector can generalize well across diverse practical scenarios and explore strategies to further enhance its cross-domain generalization capability.