Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation

📄 arXiv: 2505.23657v3 📥 PDF

作者: Hongxiang Zhang, Hao Chen, Muhao Chen, Tianyi Zhang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-29 (更新: 2025-09-15)

备注: 19 pages, 3 figures, EMNLP 2025


💡 一句话要点

提出主动层对比解码(ActLCD)以减少大语言模型生成中的幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉抑制 对比解码 强化学习 序列决策 事实性 文本生成

📋 核心要点

  1. 现有解码方法在token级别抑制表面模式,但长文本中LLM仍易产生幻觉。
  2. ActLCD将解码视为序列决策,用强化学习策略优化token级别以上的事实性。
  3. 实验表明,ActLCD在多个基准测试中优于现有方法,有效缓解了幻觉。

📝 摘要(中文)

本文提出了一种新的解码策略——主动层对比解码(ActLCD),旨在提高大语言模型(LLMs)生成的事实性。现有的解码方法通常在token级别操作,利用内部表示来抑制表面模式,但LLMs仍然容易产生幻觉,尤其是在较长的上下文中。ActLCD将解码过程视为一个序列决策问题,采用强化学习策略,由一个奖励感知的分类器引导,以优化token级别以上的事实性。实验结果表明,ActLCD在五个基准测试中超越了最先进的方法,展示了其在各种生成场景中减轻幻觉的有效性。

🔬 方法详解

问题定义:大语言模型在生成文本时,尤其是在处理长上下文时,容易产生与事实不符的内容,即“幻觉”现象。现有的解码方法主要集中在token级别,通过调整token的选择概率来减少幻觉,但缺乏对全局事实性的优化,无法有效解决长文本中的幻觉问题。

核心思路:ActLCD的核心思想是将解码过程建模为一个序列决策问题,通过强化学习来学习一个策略,该策略决定在何时应用对比层,从而在token级别之上优化生成文本的事实性。这种方法允许模型根据上下文动态地调整解码策略,以更好地平衡生成文本的流畅性和事实性。

技术框架:ActLCD的整体框架包含以下几个主要模块:1) LLM:作为基础的文本生成模型。2) 对比层:用于增强生成文本的事实性,通过对比不同层的表示来抑制幻觉。3) 奖励感知分类器:用于评估生成文本的事实性,并提供奖励信号。4) 强化学习策略:用于学习何时应用对比层,以最大化奖励信号。整个流程如下:LLM生成token,强化学习策略决定是否应用对比层,奖励感知分类器评估生成文本的事实性,并提供奖励信号,强化学习策略根据奖励信号更新策略。

关键创新:ActLCD的关键创新在于主动地决定何时应用对比层。与以往方法不同,ActLCD不是在每个token生成时都应用对比层,而是通过强化学习来学习一个策略,该策略根据上下文动态地决定是否应用对比层。这种方法可以更有效地利用对比层,并在保证生成文本流畅性的同时,提高其事实性。

关键设计:ActLCD的关键设计包括:1) 奖励函数:奖励函数的设计至关重要,它直接影响强化学习策略的学习效果。论文中使用了基于事实性评估的奖励函数,例如使用预训练的知识库问答模型来评估生成文本的事实性。2) 强化学习算法:论文中使用了Policy Gradient算法来训练强化学习策略。3) 对比层的选择:论文中探索了不同的对比层选择策略,例如选择中间层或最后一层作为对比层。

📊 实验亮点

ActLCD在五个基准测试中超越了现有最先进的方法,证明了其在减轻LLM幻觉方面的有效性。具体性能提升数据未知,但论文强调了ActLCD在不同生成场景下的泛化能力。

🎯 应用场景

ActLCD可应用于各种需要高事实性的文本生成场景,如新闻报道生成、科技文档撰写、医疗报告生成等。通过减少LLM生成中的幻觉,ActLCD可以提高生成文本的可靠性和实用性,降低信息传播的风险,并为用户提供更准确的信息。

📄 摘要(原文)

Recent decoding methods improve the factuality of large language models (LLMs) by refining how the next token is selected during generation. These methods typically operate at the token level, leveraging internal representations to suppress superficial patterns. Nevertheless, LLMs remain prone to hallucinations, especially over longer contexts. In this paper, we propose Active Layer-Contrastive Decoding (ActLCD), a novel decoding strategy that actively decides when to apply contrasting layers during generation. By casting decoding as a sequential decision-making problem, ActLCD employs a reinforcement learning policy guided by a reward-aware classifier to optimize factuality beyond the token level. Our experiments demonstrate that ActLCD surpasses state-of-the-art methods across five benchmarks, showcasing its effectiveness in mitigating hallucinations in diverse generation scenarios.