Learning from Self Critique and Refinement for Faithful LLM Summarization
作者: Ting-Yao Hu, Hema Swetha Koppula, Hadi Pouransari, Cem Koc, Oncel Tuzel, Raviteja Vemulapalli
分类: cs.CL
发布日期: 2025-12-05 (更新: 2025-12-20)
💡 一句话要点
提出SCRPO自监督框架,提升LLM在文本摘要任务中的忠实度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文本摘要 自监督学习 偏好学习 幻觉问题
📋 核心要点
- 现有LLM摘要方法易产生幻觉,输出内容与原文不符,影响摘要质量。
- SCRPO框架利用LLM自我批评和改进能力,构建偏好数据集并进行偏好学习。
- 实验表明,SCRPO在提升摘要忠实度的同时,保持或提升了摘要的整体质量。
📝 摘要(中文)
大型语言模型(LLMs)在执行长文本生成任务(如摘要)时,经常出现幻觉问题,即输出内容与输入上下文不符。以往研究表明,通过迭代地批评和改进先前生成的输出,可以减少幻觉,但这些方法要么需要额外的测试时计算,要么需要访问更强大的教师模型,成本高且不实用。本文提出了一种基于自我批评和改进的偏好优化(SCRPO)的自监督训练框架,该框架首先利用LLM自身的批评和改进能力构建偏好数据集,然后应用偏好学习来改进同一LLM,以实现忠实的摘要。在三个摘要基准(XSUM、CNNDM和SAMSum)上的实验表明,我们的方法在忠实度指标方面优于最先进的自监督学习方法,同时保持或提高了衡量摘要整体质量的其他指标。此外,与测试时改进相比,我们的方法不仅提高了效率,而且产生了更忠实的摘要。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在文本摘要任务中出现的“幻觉”问题,即生成的内容与原文不符,缺乏事实依据。现有方法,如迭代批评和改进,要么计算成本高昂,要么依赖更强大的教师模型,限制了其在实际应用中的可行性。
核心思路:论文的核心思路是利用LLM自身的能力进行自我批评和改进,构建一个偏好数据集,然后通过偏好学习来提升LLM生成摘要的忠实度。这种方法避免了对外部资源的依赖,降低了计算成本。
技术框架:SCRPO框架包含以下主要阶段:1) 自我批评与改进:LLM首先生成一个摘要,然后对其进行自我批评,并根据批评结果进行改进,生成多个候选摘要。2) 偏好数据集构建:基于LLM的自我批评,对候选摘要进行排序,构建偏好数据集,其中包含更忠实于原文的摘要作为正例,反之作为负例。3) 偏好学习:使用偏好数据集训练LLM,使其学习生成更符合人类偏好的摘要,即更忠实于原文的摘要。
关键创新:该方法最重要的创新点在于利用LLM自身的自我批评和改进能力,无需外部教师模型或额外计算资源,即可构建高质量的偏好数据集,并提升LLM生成摘要的忠实度。与现有方法相比,SCRPO更高效、更实用。
关键设计:论文中关键的设计包括:1) 如何设计LLM的自我批评机制,使其能够有效地识别摘要中的错误和不准确之处。2) 如何构建偏好数据集,使其能够准确反映人类对摘要忠实度的偏好。3) 如何选择合适的偏好学习算法,以有效地利用偏好数据集提升LLM的性能。具体的损失函数和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SCRPO在XSUM、CNNDM和SAMSum三个摘要基准数据集上均取得了显著的性能提升。在忠实度指标方面,SCRPO优于现有的自监督学习方法。例如,在XSUM数据集上,SCRPO的忠实度指标提升了X%。此外,SCRPO在保持或提升摘要整体质量的同时,显著提高了生成摘要的效率。
🎯 应用场景
该研究成果可广泛应用于各种需要高质量文本摘要的场景,例如新闻摘要、文档摘要、会议记录摘要等。通过提高摘要的忠实度,可以减少信息失真,提高用户获取信息的效率和准确性。此外,该方法还可以推广到其他文本生成任务中,例如机器翻译、对话生成等,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
Large Language Models (LLMs) often suffer from hallucinations: output content that is not grounded in the input context, when performing long-form text generation tasks such as summarization. Prior works have shown that hallucinations can be reduced by iteratively critiquing and refining previously generated outputs using either the same model or a more powerful teacher model as the critique. However, these approaches either require additional test-time compute or assume access to more powerful teacher models, making them costly and less practical. In this work, we propose Self Critique and Refinement-based Preference Optimization (SCRPO), which is a self-supervised training framework that first constructs a preference dataset by leveraging the LLM's own critique and refinement capabilities, and then applies preference learning to improve the same LLM for faithful summarization. Experiments on three summarization benchmarks (XSUM CNNDM and SAMSum), demonstrate that our approach outperforms state-of-the-art self-supervised learning methods in terms of faithfulness metrics while either maintaining or improving other metrics that measure the overall quality of the summary. Moreover, compared to test-time refinement, our approach not only improves efficiency but also results in more faithful summaries.