LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation
作者: Huyen Nguyen, Haoxuan Zhang, Yang Zhang, Junhua Ding, Haihua Chen
分类: cs.CL, cs.AI, cs.DL, cs.IR
发布日期: 2026-04-28
备注: 15 pages, 3 figures, 5 tables
💡 一句话要点
提出LLM-ReSum框架,通过自评估提升LLM生成摘要的质量和准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM 自动摘要 自评估 闭环反馈 法律文档摘要 摘要评估指标 文本生成
📋 核心要点
- 现有自动摘要评估指标在异构领域和不同长度文档上表现不佳,难以准确反映摘要质量。
- LLM-ReSum通过闭环反馈,利用LLM进行自评估和摘要改进,无需模型微调。
- 实验表明,LLM-ReSum显著提升了摘要的事实准确性和覆盖率,并获得了人类评估者的青睐。
📝 摘要(中文)
大型语言模型(LLM)生成摘要的可靠评估仍然是一个开放的挑战,尤其是在异构领域和不同文档长度的情况下。我们对14种自动摘要指标和基于LLM的评估器进行了全面的元评估,涵盖了五个领域的七个数据集,包括从短篇新闻文章到长篇科学、政府和法律文本(2K-27K字)的文档,以及超过1500个人工标注的摘要。结果表明,传统的词汇重叠指标(如ROUGE、BLEU)与人类判断的相关性较弱或呈负相关,而特定于任务的神经指标和基于LLM的评估器实现了更高的对齐,尤其是在语言质量评估方面。基于这些发现,我们提出了LLM-ReSum,一个自反思摘要框架,它在没有模型微调的情况下,将基于LLM的评估和生成集成在一个闭环反馈中。在三个领域中,LLM-ReSum将低质量摘要的事实准确性提高了高达33%,覆盖率提高了39%,人类评估者在89%的情况下更喜欢改进后的摘要。此外,我们还推出了PatentSumEval,这是一个新的人工标注的法律文档摘要基准,包含180个专家评估的摘要。所有代码和数据集将在GitHub上发布。
🔬 方法详解
问题定义:现有自动摘要评估指标,如ROUGE和BLEU,主要依赖于词汇重叠,无法有效评估LLM生成摘要的质量,尤其是在长文档和特定领域(如法律、科学)中。这些指标与人类判断的相关性较低,难以指导LLM生成更高质量的摘要。因此,需要一种更可靠的摘要评估方法,并将其融入到摘要生成过程中,以提升LLM的摘要能力。
核心思路:LLM-ReSum的核心思路是利用LLM自身强大的语言理解和生成能力,构建一个自反思的摘要生成框架。该框架通过LLM对生成的摘要进行评估,并根据评估结果对摘要进行迭代改进,从而在没有人工干预的情况下提升摘要的质量。这种自评估和改进的闭环反馈机制,使得LLM能够不断学习和优化其摘要生成策略。
技术框架:LLM-ReSum框架包含两个主要模块:摘要生成模块和摘要评估模块。首先,摘要生成模块利用LLM生成初始摘要。然后,摘要评估模块使用另一个LLM对初始摘要进行评估,生成评估报告。评估报告包含摘要的事实准确性、覆盖率、语言质量等方面的评估结果。最后,摘要生成模块根据评估报告对初始摘要进行修改和改进,生成新的摘要。这个过程可以迭代多次,直到摘要的质量达到预定的标准。
关键创新:LLM-ReSum的关键创新在于将LLM的评估能力融入到摘要生成过程中,构建了一个自反思的闭环反馈系统。与传统的摘要生成方法相比,LLM-ReSum不需要人工标注的评估数据,而是利用LLM自身进行评估和改进,从而降低了成本,并提高了摘要生成的效率。此外,LLM-ReSum还能够根据不同的评估指标对摘要进行优化,从而生成更符合用户需求的摘要。
关键设计:LLM-ReSum的关键设计包括:(1) 使用不同的LLM分别进行摘要生成和评估,以避免评估偏差。(2) 设计合理的评估提示词,引导LLM进行全面和客观的评估。(3) 使用迭代改进策略,逐步提升摘要的质量。(4) 采用多种评估指标,综合评估摘要的各个方面。具体的参数设置和网络结构取决于所使用的LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM-ReSum在三个领域中,将低质量摘要的事实准确性提高了高达33%,覆盖率提高了39%,人类评估者在89%的情况下更喜欢改进后的摘要。此外,论文还提出了一个新的法律文档摘要基准PatentSumEval,包含180个专家评估的摘要,为法律领域的自动摘要研究提供了宝贵的数据资源。
🎯 应用场景
LLM-ReSum可应用于多个领域,如新闻摘要、科研论文摘要、法律文档摘要等。该框架能够自动生成高质量的摘要,节省人工摘要的时间和成本。此外,LLM-ReSum还可以用于评估和改进现有的摘要生成系统,提升其性能和可靠性。未来,该研究有望推动自动摘要技术的发展,并为各行各业提供更高效的信息服务。
📄 摘要(原文)
Reliable evaluation of large language model (LLM)-generated summaries remains an open challenge, particularly across heterogeneous domains and document lengths. We conduct a comprehensive meta-evaluation of 14 automatic summarization metrics and LLM-based evaluators across seven datasets spanning five domains, covering documents from short news articles to long scientific, governmental, and legal texts (2K-27K words) with over 1,500 human-annotated summaries. Our results show that traditional lexical overlap metrics (e.g., ROUGE, BLEU) exhibit weak or negative correlation with human judgments, while task-specific neural metrics and LLM-based evaluators achieve substantially higher alignment, especially for linguistic quality assessment. Leveraging these findings, we propose LLM-ReSum, a self-reflective summarization framework that integrates LLM-based evaluation and generation in a closed feedback loop without model finetuning. Across three domains, LLM-ReSum improves low-quality summaries by up to 33% in factual accuracy and 39% in coverage, with human evaluators preferring refined summaries in 89% of cases. We additionally introduce PatentSumEval, a new human-annotated benchmark for legal document summarization comprising 180 expert-evaluated summaries. All code and datasets will be released in GitHub.