Optimising Factual Consistency in Summarisation via Preference Learning from Multiple Imperfect Metrics

📄 arXiv: 2605.26840v1 📥 PDF

作者: Yuxuan Ye, Raul Santos-Rodriguez, Edwin Simpson

分类: cs.CL

发布日期: 2026-05-26

备注: EMNLP 2025 Findings

DOI: 10.18653/v1/2025.findings-emnlp.940


💡 一句话要点

提出基于多重不完美指标偏好学习的摘要事实一致性优化方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本摘要 事实一致性 强化学习 偏好学习 自然语言生成

📋 核心要点

  1. 现有摘要事实一致性指标不完善,难以有效指导模型训练,是当前面临的核心问题。
  2. 通过聚合多个弱事实性指标,并结合偏好学习,构建高质量训练数据,提升模型的事实一致性。
  3. 实验证明,该方法能有效提升多种模型的事实一致性,甚至使小模型达到与大模型相当的水平。

📝 摘要(中文)

强化学习通常利用评估指标作为奖励来增强语言模型的特定能力。然而,在事实一致性摘要等任务中,现有指标仍不完善,限制了其作为塑造模型行为信号的有效性。虽然单个事实性指标不可靠,但它们的组合可以更有效地捕捉各种事实错误。我们利用这一洞察力,引入了一种自动训练流程,通过聚合来自不同弱指标的分数来提高摘要的事实一致性。我们的方法避免了复杂的奖励塑造,而是将分数映射到偏好,并过滤掉指标之间存在高度不一致的情况。对于每个源文档,我们通过改变解码策略生成词汇相似的摘要对,使模型能够从细微词汇差异引起的事实差异中学习。这种方法仅使用源文档即可构建高质量的偏好数据集。实验表明,该方法在各种模型(从早期的编码器-解码器架构到现代大型语言模型)中都能实现一致的事实性提升,并且较小的模型能够达到与较大模型相当的事实性。

🔬 方法详解

问题定义:论文旨在解决摘要生成任务中,模型生成摘要的事实一致性问题。现有方法依赖于单一的事实性评估指标作为奖励信号,但这些指标本身并不完美,存在噪声和偏差,导致模型训练不稳定,难以达到理想的事实一致性水平。

核心思路:论文的核心思路是利用多个不同的、可能不完美的评估指标,通过偏好学习的方式,让模型学习区分不同摘要的事实一致性程度。关键在于,与其依赖单一指标的绝对分数,不如学习摘要之间的相对优劣关系,从而降低对单一指标准确性的依赖。

技术框架:整体框架包含以下几个主要步骤:1) 使用不同的解码策略,为每个源文档生成多个词汇相似的摘要对;2) 使用多个不同的事实性评估指标对每个摘要进行评分;3) 基于多个指标的评分,构建偏好数据集,即确定哪些摘要比其他摘要更符合事实;4) 使用偏好数据集训练模型,使其能够预测摘要之间的偏好关系。

关键创新:该方法最重要的创新点在于,它避免了直接使用不完美的事实性指标作为奖励信号,而是通过偏好学习的方式,让模型学习摘要之间的相对优劣关系。此外,通过生成词汇相似的摘要对,可以更有效地捕捉细微的词汇差异对事实一致性的影响。

关键设计:关键设计包括:1) 使用多种不同的事实性评估指标,例如基于NLI的模型、基于知识图谱的模型等,以捕捉不同类型的事实错误;2) 设计合理的偏好学习损失函数,例如pairwise ranking loss,以鼓励模型学习正确的偏好关系;3) 使用数据过滤策略,例如只保留多个指标之间意见一致的样本,以提高训练数据的质量。

📊 实验亮点

实验结果表明,该方法能够显著提升各种模型的事实一致性,包括早期的编码器-解码器架构和现代的大型语言模型。更重要的是,该方法能够使较小的模型达到与较大模型相当的事实一致性水平,这表明该方法具有很高的效率和实用价值。具体的性能提升幅度未知,但论文强调了“consistent factuality gains across models”。

🎯 应用场景

该研究成果可应用于各种需要保证事实一致性的文本摘要生成场景,例如新闻摘要、文档摘要、会议记录摘要等。通过提高摘要的事实一致性,可以增强用户对摘要内容的信任度,并减少因错误信息带来的负面影响。未来,该方法还可以扩展到其他需要保证信息准确性的自然语言生成任务中。

📄 摘要(原文)

Reinforcement learning with evaluation metrics as rewards is widely used to enhance specific capabilities of language models. However, for tasks such as factually consistent summarisation, existing metrics remain underdeveloped, limiting their effectiveness as signals for shaping model behaviour.While individual factuality metrics are unreliable, their combination can more effectively capture diverse factual errors. We leverage this insight to introduce an automated training pipeline that improves factual consistency in summaries by aggregating scores from different weak metrics. Our approach avoids the need for complex reward shaping by mapping scores to preferences and filtering out cases with high disagreement between metrics. For each source document, we generate lexically similar summary pairs by varying decoding strategies, enabling the model to learn from factual differences caused by subtle lexical differences. This approach constructs a high-quality preference dataset using only source documents.Experiments demonstrate consistent factuality gains across models, ranging from early encoder-decoder architectures to modern large language models, with smaller models reaching comparable factuality to larger ones.