Decoding Memories: An Efficient Pipeline for Self-Consistency Hallucination Detection
作者: Weizhi Gao, Xiaorui Liu, Feiyi Wang, Dan Lu, Junqi Yin
分类: cs.CL, cs.AI
发布日期: 2025-08-28
备注: 14 pages, under review
💡 一句话要点
提出解码记忆流水线DMP,加速自洽性幻觉检测并降低计算成本
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉检测 自洽性 解码效率 选择性推理
📋 核心要点
- 现有幻觉检测方法在句子级别生成效果差,或依赖领域知识,自洽性方法虽有帮助,但计算成本高。
- 论文提出解码记忆流水线(DMP),通过识别并利用生成过程中的冗余信息,加速自洽性幻觉检测。
- 实验表明,DMP在不损失AUROC性能的前提下,实现了高达3倍的推理加速,具有显著的效率提升。
📝 摘要(中文)
大型语言模型(LLMs)在研究和实际应用中表现出令人印象深刻的性能,但仍然存在幻觉问题。现有的幻觉检测方法在句子级别的生成上表现不佳,或者过度依赖于特定领域的知识。自洽性方法有助于解决这些局限性,但由于重复生成而导致计算成本高昂。本文首次研究了自洽性方法中的冗余,表现为生成过程中共享的前缀token。我们观察到,非精确答案token对语义内容的贡献很小。基于这些见解,我们提出了一种新颖的解码记忆流水线(DMP),通过选择性推理和退火解码来加速生成。DMP与模型、数据集、解码策略和自洽性基线正交,能够持续提高多响应生成的效率,并有望扩展到对齐和推理任务。大量实验表明,我们的方法在不牺牲AUROC性能的情况下,实现了高达3倍的加速。
🔬 方法详解
问题定义:论文旨在解决大型语言模型中自洽性幻觉检测方法计算成本高昂的问题。现有的自洽性方法通过多次生成答案并进行一致性判断来检测幻觉,但重复生成导致计算资源的大量消耗,限制了其在实际应用中的部署。
核心思路:论文的核心思路是观察到自洽性方法在多次生成过程中存在大量冗余信息,尤其是在共享的前缀token上。此外,非精确答案token对语义内容的贡献较小。因此,可以通过选择性地进行推理,避免对冗余信息进行重复计算,从而加速生成过程。
技术框架:解码记忆流水线(DMP)主要包含以下几个阶段:1. 前缀识别:识别多次生成结果中的共享前缀token。2. 选择性推理:仅对非共享的token进行推理,避免重复计算。3. 退火解码:在生成过程中,逐渐降低对冗余信息的关注度,进一步提高效率。
关键创新:DMP的关键创新在于其对自洽性方法中冗余信息的识别和利用。与现有方法不同,DMP不是简单地进行多次完整生成,而是通过选择性推理和退火解码,显著减少了计算量。这种方法与具体的模型、数据集和解码策略无关,具有很强的通用性。
关键设计:DMP的关键设计包括:1. 前缀长度的动态调整:根据生成过程中的一致性程度,动态调整共享前缀的长度。2. 退火系数的设置:通过调整退火系数,控制对冗余信息的关注度,避免过度抑制新信息的生成。3. 选择性推理的策略:设计合理的选择性推理策略,确保在减少计算量的同时,不影响生成质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DMP在不牺牲AUROC性能的情况下,实现了高达3倍的推理加速。与现有的自洽性基线方法相比,DMP在效率上具有显著优势。此外,DMP的性能提升具有一致性,适用于不同的模型、数据集和解码策略,表明其具有良好的通用性和鲁棒性。
🎯 应用场景
该研究成果可广泛应用于需要高效率和低延迟的大型语言模型应用场景,例如在线问答系统、对话机器人、内容生成平台等。通过降低自洽性幻觉检测的计算成本,可以更有效地提高生成内容的可靠性和质量,从而提升用户体验和应用价值。未来,该方法有望扩展到其他需要多轮交互和推理的任务中。
📄 摘要(原文)
Large language models (LLMs) have demonstrated impressive performance in both research and real-world applications, but they still struggle with hallucination. Existing hallucination detection methods often perform poorly on sentence-level generation or rely heavily on domain-specific knowledge. While self-consistency approaches help address these limitations, they incur high computational costs due to repeated generation. In this paper, we conduct the first study on identifying redundancy in self-consistency methods, manifested as shared prefix tokens across generations, and observe that non-exact-answer tokens contribute minimally to the semantic content. Based on these insights, we propose a novel Decoding Memory Pipeline (DMP) that accelerates generation through selective inference and annealed decoding. Being orthogonal to the model, dataset, decoding strategy, and self-consistency baseline, our DMP consistently improves the efficiency of multi-response generation and holds promise for extension to alignment and reasoning tasks. Extensive experiments show that our method achieves up to a 3x speedup without sacrificing AUROC performance.