Token-Guard: Towards Token-Level Hallucination Control via Self-Checking Decoding

📄 arXiv: 2601.21969v1 📥 PDF

作者: Yifan Zhu, Huiqiang Rong, Haoran Luo

分类: cs.CL, cs.AI

发布日期: 2026-01-29

备注: 26 pages and 11 figures,this work has been accepted for presentation at ICLR 2026


💡 一句话要点

Token-Guard:提出一种基于自校验解码的token级别幻觉控制方法,提升LLM生成可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉控制 自校验解码 token级别 可靠性 检索增强生成 风险评估

📋 核心要点

  1. 现有LLM容易产生幻觉,RAG和RLHF虽能缓解,但成本高昂,解码方法缺乏有效幻觉控制。
  2. Token-Guard通过自校验解码,在token级别进行幻觉检测和纠正,防止错误传播。
  3. 实验表明,Token-Guard显著降低了LLM的幻觉,提高了生成内容的准确性和可靠性。

📝 摘要(中文)

大型语言模型(LLMs)常常产生幻觉,生成与输入不一致的内容。检索增强生成(RAG)和基于人类反馈的强化学习(RLHF)可以缓解幻觉,但需要资源密集型的检索或大规模微调。基于解码的方法虽然更轻量,但缺乏明确的幻觉控制。为了解决这个问题,我们提出了Token-Guard,一种基于自校验解码的token级别幻觉控制方法。Token-Guard在每个推理步骤执行内部验证,以在幻觉token传播之前检测它们。候选片段在潜在空间中进一步评估,并进行显式的幻觉风险评分,同时迭代修剪和再生动态地纠正检测到的错误。在HALU数据集上的实验表明,Token-Guard显著减少了幻觉并提高了生成准确性,为可靠的LLM输出提供了一种可扩展的模块化解决方案。我们的代码已公开。

🔬 方法详解

问题定义:大型语言模型在生成文本时,经常会产生与输入不一致或不真实的“幻觉”内容。现有的缓解方法,如RAG和RLHF,要么需要大量的外部知识检索,要么需要大规模的微调,计算成本很高。而基于解码的方法虽然轻量,但缺乏对幻觉的显式控制,难以保证生成内容的可靠性。

核心思路:Token-Guard的核心思想是在解码过程中,对每一个生成的token进行内部验证,判断其是否可能产生幻觉。如果检测到潜在的幻觉token,则对其进行修正或替换,从而避免幻觉的传播。这种方法类似于在生产线上进行质量检测,及时发现并纠正错误。

技术框架:Token-Guard主要包含以下几个阶段:1) 候选片段生成:使用LLM生成多个候选的token片段。2) 幻觉风险评分:在潜在空间中评估每个候选片段的幻觉风险,例如通过计算与知识库的相似度或使用预训练的幻觉检测模型。3) 迭代修剪和再生:根据幻觉风险评分,对候选片段进行修剪,并使用LLM重新生成更可靠的token。这个过程可以迭代进行,直到生成满足要求的token。4) 最终token选择:从剩余的候选片段中选择最佳的token作为最终输出。

关键创新:Token-Guard的关键创新在于其token级别的自校验解码机制。与传统的解码方法不同,Token-Guard不是简单地选择概率最高的token,而是对每个token进行幻觉风险评估,并进行动态纠正。这种方法能够更有效地控制幻觉的产生,提高生成内容的可靠性。

关键设计:Token-Guard的关键设计包括:1) 潜在空间表示:如何有效地将token片段映射到潜在空间,以便进行幻觉风险评分。可以使用预训练的语言模型或知识图谱嵌入等技术。2) 幻觉风险评分函数:如何设计一个准确的幻觉风险评分函数,能够区分真实和虚假的内容。可以使用基于相似度的度量、预训练的幻觉检测模型或人工标注的数据进行训练。3) 迭代修剪和再生策略:如何有效地修剪候选片段,并使用LLM重新生成更可靠的token。可以使用基于阈值的修剪方法、强化学习或生成对抗网络等技术。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Token-Guard在HALU数据集上显著降低了LLM的幻觉。具体来说,Token-Guard在减少幻觉方面取得了显著的性能提升,同时提高了生成内容的准确性。这些结果表明,Token-Guard是一种有效的幻觉控制方法,能够提高LLM的可靠性。

🎯 应用场景

Token-Guard可应用于各种需要高可靠性LLM输出的场景,如自动问答、内容生成、机器翻译等。通过减少幻觉,提高生成内容的准确性和可信度,有助于提升用户体验,降低错误信息带来的风险。未来,该技术有望在医疗、金融等对信息准确性要求极高的领域发挥重要作用。

📄 摘要(原文)

Large Language Models (LLMs) often hallucinate, generating content inconsistent with the input. Retrieval-Augmented Generation (RAG) and Reinforcement Learning with Human Feedback (RLHF) can mitigate hallucinations but require resource-intensive retrieval or large-scale fine-tuning. Decoding-based methods are lighter yet lack explicit hallucination control. To address this, we present Token-Guard, a token-level hallucination control method based on self-checking decoding. Token-Guard performs internal verification at each reasoning step to detect hallucinated tokens before they propagate. Candidate fragments are further evaluated in a latent space with explicit hallucination risk scoring, while iterative pruning and regeneration dynamically correct detected errors. Experiments on HALU datasets show Token-Guard substantially reduces hallucinations and improves generation accuracy, offering a scalable, modular solution for reliable LLM outputs. Our code is publicly available.