LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

作者: Huyen Nguyen, Haoxuan Zhang, Yang Zhang, Junhua Ding, Haihua Chen

分类: cs.CL, cs.AI, cs.DL, cs.IR

发布日期: 2026-04-28

备注: 15 pages, 3 figures, 5 tables

💡 一句话要点

提出LLM-ReSum框架，通过自评估提升LLM生成摘要的质量和准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM 自动摘要 自评估 闭环反馈 法律文档摘要 摘要评估指标 文本生成

📋 核心要点

现有自动摘要评估指标在异构领域和不同长度文档上表现不佳，难以准确反映摘要质量。
LLM-ReSum通过闭环反馈，利用LLM进行自评估和摘要改进，无需模型微调。
实验表明，LLM-ReSum显著提升了摘要的事实准确性和覆盖率，并获得了人类评估者的青睐。

📝 摘要（中文）

大型语言模型（LLM）生成摘要的可靠评估仍然是一个开放的挑战，尤其是在异构领域和不同文档长度的情况下。我们对14种自动摘要指标和基于LLM的评估器进行了全面的元评估，涵盖了五个领域的七个数据集，包括从短篇新闻文章到长篇科学、政府和法律文本（2K-27K字）的文档，以及超过1500个人工标注的摘要。结果表明，传统的词汇重叠指标（如ROUGE、BLEU）与人类判断的相关性较弱或呈负相关，而特定于任务的神经指标和基于LLM的评估器实现了更高的对齐，尤其是在语言质量评估方面。基于这些发现，我们提出了LLM-ReSum，一个自反思摘要框架，它在没有模型微调的情况下，将基于LLM的评估和生成集成在一个闭环反馈中。在三个领域中，LLM-ReSum将低质量摘要的事实准确性提高了高达33%，覆盖率提高了39%，人类评估者在89%的情况下更喜欢改进后的摘要。此外，我们还推出了PatentSumEval，这是一个新的人工标注的法律文档摘要基准，包含180个专家评估的摘要。所有代码和数据集将在GitHub上发布。

🔬 方法详解

问题定义：现有自动摘要评估指标，如ROUGE和BLEU，主要依赖于词汇重叠，无法有效评估LLM生成摘要的质量，尤其是在长文档和特定领域（如法律、科学）中。这些指标与人类判断的相关性较低，难以指导LLM生成更高质量的摘要。因此，需要一种更可靠的摘要评估方法，并将其融入到摘要生成过程中，以提升LLM的摘要能力。

核心思路：LLM-ReSum的核心思路是利用LLM自身强大的语言理解和生成能力，构建一个自反思的摘要生成框架。该框架通过LLM对生成的摘要进行评估，并根据评估结果对摘要进行迭代改进，从而在没有人工干预的情况下提升摘要的质量。这种自评估和改进的闭环反馈机制，使得LLM能够不断学习和优化其摘要生成策略。

技术框架：LLM-ReSum框架包含两个主要模块：摘要生成模块和摘要评估模块。首先，摘要生成模块利用LLM生成初始摘要。然后，摘要评估模块使用另一个LLM对初始摘要进行评估，生成评估报告。评估报告包含摘要的事实准确性、覆盖率、语言质量等方面的评估结果。最后，摘要生成模块根据评估报告对初始摘要进行修改和改进，生成新的摘要。这个过程可以迭代多次，直到摘要的质量达到预定的标准。

关键创新：LLM-ReSum的关键创新在于将LLM的评估能力融入到摘要生成过程中，构建了一个自反思的闭环反馈系统。与传统的摘要生成方法相比，LLM-ReSum不需要人工标注的评估数据，而是利用LLM自身进行评估和改进，从而降低了成本，并提高了摘要生成的效率。此外，LLM-ReSum还能够根据不同的评估指标对摘要进行优化，从而生成更符合用户需求的摘要。

关键设计：LLM-ReSum的关键设计包括：(1) 使用不同的LLM分别进行摘要生成和评估，以避免评估偏差。(2) 设计合理的评估提示词，引导LLM进行全面和客观的评估。(3) 使用迭代改进策略，逐步提升摘要的质量。(4) 采用多种评估指标，综合评估摘要的各个方面。具体的参数设置和网络结构取决于所使用的LLM。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM-ReSum在三个领域中，将低质量摘要的事实准确性提高了高达33%，覆盖率提高了39%，人类评估者在89%的情况下更喜欢改进后的摘要。此外，论文还提出了一个新的法律文档摘要基准PatentSumEval，包含180个专家评估的摘要，为法律领域的自动摘要研究提供了宝贵的数据资源。

🎯 应用场景

LLM-ReSum可应用于多个领域，如新闻摘要、科研论文摘要、法律文档摘要等。该框架能够自动生成高质量的摘要，节省人工摘要的时间和成本。此外，LLM-ReSum还可以用于评估和改进现有的摘要生成系统，提升其性能和可靠性。未来，该研究有望推动自动摘要技术的发展，并为各行各业提供更高效的信息服务。

📄 摘要（原文）

Reliable evaluation of large language model (LLM)-generated summaries remains an open challenge, particularly across heterogeneous domains and document lengths. We conduct a comprehensive meta-evaluation of 14 automatic summarization metrics and LLM-based evaluators across seven datasets spanning five domains, covering documents from short news articles to long scientific, governmental, and legal texts (2K-27K words) with over 1,500 human-annotated summaries. Our results show that traditional lexical overlap metrics (e.g., ROUGE, BLEU) exhibit weak or negative correlation with human judgments, while task-specific neural metrics and LLM-based evaluators achieve substantially higher alignment, especially for linguistic quality assessment. Leveraging these findings, we propose LLM-ReSum, a self-reflective summarization framework that integrates LLM-based evaluation and generation in a closed feedback loop without model finetuning. Across three domains, LLM-ReSum improves low-quality summaries by up to 33% in factual accuracy and 39% in coverage, with human evaluators preferring refined summaries in 89% of cases. We additionally introduce PatentSumEval, a new human-annotated benchmark for legal document summarization comprising 180 expert-evaluated summaries. All code and datasets will be released in GitHub.

LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理