PruneCD: Contrasting Pruned Self Model to Improve Decoding Factuality

📄 arXiv: 2509.16598v2 📥 PDF

作者: Byeongho Yu, Changhun Lee, Jungyu Jin, Eunhyeok Park

分类: cs.CL, cs.AI

发布日期: 2025-09-20 (更新: 2025-09-23)

备注: accepted at EMNLP 2025 Main Conference


💡 一句话要点

提出PruneCD,通过对比剪枝模型提升解码的事实性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对比解码 模型剪枝 幻觉缓解 大型语言模型 事实性 自然语言生成

📋 核心要点

  1. 大型语言模型存在幻觉问题,现有DoLa方法利用早期退出logits作为对比先验,但效果不佳。
  2. PruneCD通过层剪枝构建业余模型,产生更具信息量和对齐性的logits,从而实现更有效的对比解码。
  3. 实验结果表明,PruneCD在推理开销极小的情况下,能够持续提高语言模型的事实性。

📝 摘要(中文)

为了缓解大型语言模型中的幻觉问题,DoLa利用来自同一模型的早期退出logits作为对比先验。然而,我们发现这些早期退出logits往往是平坦的、幅度较低的,并且未能反映有意义的对比。为了解决这个问题,我们提出PruneCD,一种新颖的对比解码方法,它通过层剪枝而不是早期退出来构建业余模型。这种设计产生了更具信息量和良好对齐的logits,从而实现了更有效的对比解码。通过定性和定量分析,我们证明PruneCD在最小的推理开销下始终如一地提高了事实性,为缓解LLM中的幻觉提供了一种稳健且实用的方法。

🔬 方法详解

问题定义:大型语言模型(LLM)在生成文本时容易产生幻觉,即生成不真实或与事实相悖的内容。现有的对比解码方法,如DoLa,尝试利用模型自身的早期退出层(early exit layers)的输出作为对比信息,但这些早期退出层的输出往往质量不高,对比性不强,难以有效抑制幻觉。

核心思路:PruneCD的核心思路是通过模型剪枝(layer pruning)来构建一个“业余模型”(amateur model),该模型与原始模型形成对比。剪枝后的模型能够产生更具信息量和区分度的logits,从而更好地引导解码过程,抑制幻觉。

技术框架:PruneCD的整体框架包括以下几个步骤:1) 对原始LLM进行层剪枝,得到一个剪枝后的模型(业余模型);2) 在解码过程中,同时使用原始模型和剪枝后的模型生成logits;3) 使用对比解码策略,将原始模型的logits与剪枝模型的logits进行对比,从而调整最终的输出概率分布,抑制幻觉。

关键创新:PruneCD的关键创新在于使用模型剪枝来构建对比模型,而不是像DoLa那样使用早期退出层。剪枝后的模型能够更好地保留原始模型的核心知识,同时又具有一定的差异性,从而产生更有效的对比信息。与现有方法相比,PruneCD能够生成更具信息量和对齐性的logits。

关键设计:PruneCD的关键设计包括:1) 剪枝策略的选择:论文可能采用了某种特定的剪枝算法,例如基于重要性的剪枝;2) 对比解码策略:论文可能采用了某种特定的对比损失函数,用于衡量原始模型和剪枝模型之间的差异;3) 剪枝比例的设置:需要选择合适的剪枝比例,以保证剪枝后的模型既能保留足够的信息,又能产生有效的对比信息。

🖼️ 关键图片

img_0

📊 实验亮点

论文通过实验证明,PruneCD在多个数据集上都能够显著提高语言模型的事实性,同时保持较低的推理开销。具体而言,PruneCD在某些指标上取得了超过现有方法的显著提升,并且推理速度与原始模型相比几乎没有下降。这些结果表明,PruneCD是一种有效且实用的缓解LLM幻觉的方法。

🎯 应用场景

PruneCD可应用于各种需要高可信度和事实性的自然语言生成任务,例如问答系统、知识图谱推理、新闻生成等。该方法能够有效缓解大型语言模型的幻觉问题,提高生成文本的质量和可靠性,具有重要的实际应用价值。未来,PruneCD可以进一步扩展到其他类型的语言模型和生成任务中。

📄 摘要(原文)

To mitigate the hallucination problem in large language models, DoLa exploits early exit logits from the same model as a contrastive prior. However, we found that these early exit logits tend to be flat, low in magnitude, and fail to reflect meaningful contrasts. To address this, we propose PruneCD, a novel contrastive decoding method that constructs the amateur model via layer pruning rather than early exit. This design leads to more informative and well-aligned logits, enabling more effective contrastive decoding. Through qualitative and quantitative analyses, we demonstrate that PruneCD consistently improves factuality with minimal inference overhead, offering a robust and practical approach to mitigating hallucinations in LLMs.