Reducing Hallucinations in Summarization via Reinforcement Learning with Entity Hallucination Index

📄 arXiv: 2507.22744v1 📥 PDF

作者: Praveenkumar Katwe, Rakesh Chandra, Balabantaray Kali, Prasad Vittala

分类: cs.CL, cs.AI

发布日期: 2025-07-30

备注: 8


💡 一句话要点

提出基于强化学习和实体幻觉指标的摘要生成方法,减少摘要中的幻觉问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 摘要生成 幻觉抑制 强化学习 实体幻觉指数 自然语言处理

📋 核心要点

  1. 现有摘要生成模型容易产生幻觉,即生成内容与原文不符,严重影响实际应用。
  2. 利用强化学习,以实体幻觉指数(EHI)作为奖励,微调模型,引导生成更忠实于原文实体的摘要。
  3. 实验表明,该方法能有效降低摘要中的实体幻觉,同时保持摘要的流畅性和信息量。

📝 摘要(中文)

在抽象式摘要生成中减少幻觉仍然是将语言模型(LMs)部署到实际环境中的一个关键挑战。本文介绍了一个奖励驱动的微调框架,该框架显式地优化了实体幻觉指数(EHI),该指标旨在量化生成摘要中命名实体的存在性、正确性和可信度。给定会议记录语料库,我们首先使用预训练的LM生成基线摘要,并通过自动实体提取和匹配来计算EHI分数。然后,我们应用强化学习来微调模型参数,使用EHI作为奖励信号,以使生成偏向于实体忠实的输出。我们的方法不依赖于人工编写的事实性注释,从而实现了可扩展的微调。实验表明,在数据集上EHI得到了持续的改进,定性分析表明,实体级别的幻觉显著减少,而流畅性和信息量没有降低。我们发布了一个可复现的Colab pipeline,方便使用轻量级的幻觉指标(如EHI)进一步研究幻觉感知模型微调。

🔬 方法详解

问题定义:论文旨在解决抽象式摘要生成中存在的幻觉问题,特别是实体幻觉,即生成的摘要中包含原文中不存在或不正确的实体信息。现有方法通常依赖于人工标注的事实性数据,成本高昂且难以扩展。

核心思路:论文的核心思路是利用强化学习,通过自动计算的实体幻觉指数(EHI)作为奖励信号,引导模型生成更符合原文事实的摘要。EHI能够量化摘要中实体的存在性、正确性和可信度,从而无需人工标注即可进行模型微调。

技术框架:整体框架包括以下几个步骤:1) 使用预训练语言模型生成基线摘要;2) 通过自动实体提取和匹配计算EHI分数;3) 使用强化学习算法(如策略梯度)微调模型参数,将EHI作为奖励信号;4) 迭代优化模型,直至EHI达到期望水平。

关键创新:该方法最重要的创新点在于使用自动计算的EHI作为奖励信号,避免了对人工标注数据的依赖,从而实现了可扩展的幻觉感知模型微调。此外,将EHI与强化学习相结合,能够更有效地引导模型生成实体忠实的摘要。

关键设计:EHI的计算涉及实体提取、实体匹配和可信度评估等步骤。具体而言,首先从原文和摘要中提取命名实体,然后进行实体匹配,判断摘要中的实体是否在原文中出现。对于出现在原文中的实体,进一步评估其在摘要中的可信度,例如,实体之间的关系是否正确。EHI的最终得分综合考虑了实体的存在性、正确性和可信度。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在多个数据集上均能显著提高EHI指标,表明摘要中的实体幻觉得到了有效抑制。定性分析也证实,生成的摘要在实体层面的准确性得到了显著提升,同时保持了摘要的流畅性和信息量。该方法无需人工标注,具有良好的可扩展性。

🎯 应用场景

该研究成果可应用于各种需要高质量摘要生成的场景,例如会议记录摘要、新闻摘要、法律文档摘要等。通过减少摘要中的幻觉,可以提高摘要的可信度和实用性,从而更好地辅助决策和信息获取。未来,该方法可以扩展到其他类型的幻觉问题,例如关系幻觉和属性幻觉。

📄 摘要(原文)

Reducing hallucinations in abstractive summarization remains a critical challenge for deploying language models (LMs) in real-world settings. In this work, we introduce a rewarddriven fine-tuning framework that explicitly optimizes for Entity Hallucination Index (EHI), a metric designed to quantify the presence, correctness, and grounding of named entities in generated summaries. Given a corpus of meeting transcripts, we first generate baseline summaries using a pre-trained LM and compute EHI scores via automatic entity extraction and matching. We then apply reinforcement learning to fine-tune the model parameters, using EHI as a reward signal to bias generation toward entity-faithful outputs. Our approach does not rely on human-written factuality annotations, enabling scalable fine-tuning. Experiments demonstrate consistent improvements in EHI across datasets, with qualitative analysis revealing a significant reduction in entity-level hallucinations without degradation in fluency or informativeness. We release a reproducible Colab pipeline, facilitating further research on hallucination-aware model fine-tuning using lightweight, hallucintion metrics like EHI.