Token-Guard: Towards Token-Level Hallucination Control via Self-Checking Decoding

作者: Yifan Zhu, Huiqiang Rong, Haoran Luo

分类: cs.CL, cs.AI

发布日期: 2026-01-29

备注: 26 pages and 11 figures,this work has been accepted for presentation at ICLR 2026

💡 一句话要点

Token-Guard：提出一种基于自校验解码的token级别幻觉控制方法，提升LLM生成可靠性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉控制 自校验解码 token级别 可靠性 检索增强生成 风险评估

📋 核心要点

现有LLM容易产生幻觉，RAG和RLHF虽能缓解，但成本高昂，解码方法缺乏有效幻觉控制。
Token-Guard通过自校验解码，在token级别进行幻觉检测和纠正，防止错误传播。
实验表明，Token-Guard显著降低了LLM的幻觉，提高了生成内容的准确性和可靠性。

📝 摘要（中文）

大型语言模型（LLMs）常常产生幻觉，生成与输入不一致的内容。检索增强生成（RAG）和基于人类反馈的强化学习（RLHF）可以缓解幻觉，但需要资源密集型的检索或大规模微调。基于解码的方法虽然更轻量，但缺乏明确的幻觉控制。为了解决这个问题，我们提出了Token-Guard，一种基于自校验解码的token级别幻觉控制方法。Token-Guard在每个推理步骤执行内部验证，以在幻觉token传播之前检测它们。候选片段在潜在空间中进一步评估，并进行显式的幻觉风险评分，同时迭代修剪和再生动态地纠正检测到的错误。在HALU数据集上的实验表明，Token-Guard显著减少了幻觉并提高了生成准确性，为可靠的LLM输出提供了一种可扩展的模块化解决方案。我们的代码已公开。

🔬 方法详解

问题定义：大型语言模型在生成文本时，经常会产生与输入不一致或不真实的“幻觉”内容。现有的缓解方法，如RAG和RLHF，要么需要大量的外部知识检索，要么需要大规模的微调，计算成本很高。而基于解码的方法虽然轻量，但缺乏对幻觉的显式控制，难以保证生成内容的可靠性。

核心思路：Token-Guard的核心思想是在解码过程中，对每一个生成的token进行内部验证，判断其是否可能产生幻觉。如果检测到潜在的幻觉token，则对其进行修正或替换，从而避免幻觉的传播。这种方法类似于在生产线上进行质量检测，及时发现并纠正错误。

技术框架：Token-Guard主要包含以下几个阶段：1) 候选片段生成：使用LLM生成多个候选的token片段。2) 幻觉风险评分：在潜在空间中评估每个候选片段的幻觉风险，例如通过计算与知识库的相似度或使用预训练的幻觉检测模型。3) 迭代修剪和再生：根据幻觉风险评分，对候选片段进行修剪，并使用LLM重新生成更可靠的token。这个过程可以迭代进行，直到生成满足要求的token。4) 最终token选择：从剩余的候选片段中选择最佳的token作为最终输出。

关键创新：Token-Guard的关键创新在于其token级别的自校验解码机制。与传统的解码方法不同，Token-Guard不是简单地选择概率最高的token，而是对每个token进行幻觉风险评估，并进行动态纠正。这种方法能够更有效地控制幻觉的产生，提高生成内容的可靠性。

关键设计：Token-Guard的关键设计包括：1) 潜在空间表示：如何有效地将token片段映射到潜在空间，以便进行幻觉风险评分。可以使用预训练的语言模型或知识图谱嵌入等技术。2) 幻觉风险评分函数：如何设计一个准确的幻觉风险评分函数，能够区分真实和虚假的内容。可以使用基于相似度的度量、预训练的幻觉检测模型或人工标注的数据进行训练。3) 迭代修剪和再生策略：如何有效地修剪候选片段，并使用LLM重新生成更可靠的token。可以使用基于阈值的修剪方法、强化学习或生成对抗网络等技术。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Token-Guard在HALU数据集上显著降低了LLM的幻觉。具体来说，Token-Guard在减少幻觉方面取得了显著的性能提升，同时提高了生成内容的准确性。这些结果表明，Token-Guard是一种有效的幻觉控制方法，能够提高LLM的可靠性。

🎯 应用场景

Token-Guard可应用于各种需要高可靠性LLM输出的场景，如自动问答、内容生成、机器翻译等。通过减少幻觉，提高生成内容的准确性和可信度，有助于提升用户体验，降低错误信息带来的风险。未来，该技术有望在医疗、金融等对信息准确性要求极高的领域发挥重要作用。

📄 摘要（原文）

Large Language Models (LLMs) often hallucinate, generating content inconsistent with the input. Retrieval-Augmented Generation (RAG) and Reinforcement Learning with Human Feedback (RLHF) can mitigate hallucinations but require resource-intensive retrieval or large-scale fine-tuning. Decoding-based methods are lighter yet lack explicit hallucination control. To address this, we present Token-Guard, a token-level hallucination control method based on self-checking decoding. Token-Guard performs internal verification at each reasoning step to detect hallucinated tokens before they propagate. Candidate fragments are further evaluated in a latent space with explicit hallucination risk scoring, while iterative pruning and regeneration dynamically correct detected errors. Experiments on HALU datasets show Token-Guard substantially reduces hallucinations and improves generation accuracy, offering a scalable, modular solution for reliable LLM outputs. Our code is publicly available.

Token-Guard: Towards Token-Level Hallucination Control via Self-Checking Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理