Re-FRAME the Meeting Summarization SCOPE: Fact-Based Summarization and Personalization via Questions

📄 arXiv: 2509.15901v2 📥 PDF

作者: Frederic Kirstein, Sonu Kumar, Terry Ruas, Bela Gipp

分类: cs.CL, cs.AI

发布日期: 2025-09-19 (更新: 2025-11-14)

备注: Accepted at EMNLP 2025

DOI: 10.18653/v1/2025.findings-emnlp.1094


💡 一句话要点

提出FRAME框架和SCOPE协议,解决会议摘要生成中幻觉、遗漏和个性化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 会议摘要 大型语言模型 事实提取 个性化摘要 语义增强 推理链 无参考评估

📋 核心要点

  1. 现有会议摘要方法依赖大型语言模型,但存在幻觉、信息遗漏和缺乏个性化等问题。
  2. 论文提出FRAME框架,通过提取关键事实、主题组织和概要增强,实现更可控和忠实的摘要生成。
  3. 引入SCOPE协议,通过问题回答构建推理链,实现摘要的个性化定制,并在实验中验证了有效性。

📝 摘要(中文)

大型语言模型(LLM)在会议摘要生成中容易出错,常产生幻觉、遗漏和不相关内容。本文提出FRAME,一个将摘要生成重构为语义增强任务的模块化流程。FRAME提取并评分关键事实,按主题组织,并用它们来丰富概要,生成抽象式摘要。为了个性化摘要,我们引入SCOPE,一个“边思考边说话”协议,让模型通过回答九个问题来构建推理轨迹,然后进行内容选择。为了评估,我们提出了P-MESA,一个多维度、无参考的评估框架,用于评估摘要是否适合目标读者。P-MESA能可靠地识别错误实例,针对人工标注达到>=89%的平衡准确率,并与人工严重程度评级高度一致(r >= 0.70)。在QMSum和FAME数据集上,FRAME将幻觉和遗漏减少了2/5(用MESA测量),而SCOPE在仅使用提示的基线上提高了知识拟合和目标对齐。我们的发现提倡重新思考摘要生成,以提高控制、忠实度和个性化。

🔬 方法详解

问题定义:会议摘要生成任务旨在从会议记录中提取关键信息并生成简洁的摘要。现有方法,特别是基于大型语言模型的方法,容易产生幻觉(生成不存在的事实)、遗漏重要信息,并且难以根据不同用户的需求进行个性化定制。这些问题限制了会议摘要的实用性。

核心思路:论文的核心思路是将摘要生成过程分解为多个模块化的步骤,从而提高可控性和可解释性。通过显式地提取和组织会议中的事实,可以减少幻觉和遗漏。引入推理链,让模型在生成摘要之前明确目标读者的需求,从而实现个性化。

技术框架:FRAME框架包含以下几个主要模块:1) 事实提取和评分:从会议记录中提取关键事实,并根据其重要性进行评分。2) 主题组织:将提取的事实按照主题进行组织,形成结构化的知识表示。3) 概要增强:利用组织好的事实来增强初始概要,生成最终的摘要。SCOPE协议则是在内容选择之前,通过回答一系列问题来构建推理轨迹,指导模型选择与目标读者相关的关键信息。

关键创新:论文的关键创新在于将摘要生成任务重构为语义增强任务,并引入了显式的推理过程来实现个性化。FRAME框架通过模块化的设计,提高了摘要生成的可控性和忠实度。SCOPE协议则提供了一种新的个性化摘要生成方法,通过问题回答来引导模型理解用户需求。

关键设计:SCOPE协议中包含九个问题,旨在引导模型思考目标读者的背景、目标和偏好。这些问题涵盖了读者的角色、他们希望从摘要中获得的信息、以及他们对会议内容的先验知识等。P-MESA评估框架则从多个维度评估摘要的质量,包括事实一致性、信息完整性、知识拟合和目标对齐等。

📊 实验亮点

实验结果表明,FRAME框架在QMSum和FAME数据集上显著降低了摘要中的幻觉和遗漏,降低幅度达到2/5(使用MESA评估)。SCOPE协议在知识拟合和目标对齐方面优于仅使用提示的基线方法。P-MESA评估框架与人工标注高度一致,平衡准确率达到>=89%,与人工严重程度评级相关性达到r >= 0.70。

🎯 应用场景

该研究成果可应用于各种需要会议摘要的场景,例如企业会议、学术研讨会和在线课程。通过提供更准确、完整和个性化的摘要,可以帮助用户更有效地获取会议信息,提高工作效率和学习效果。未来,该技术还可以扩展到其他类型的文本摘要任务,例如新闻摘要和文档摘要。

📄 摘要(原文)

Meeting summarization with large language models (LLMs) remains error-prone, often producing outputs with hallucinations, omissions, and irrelevancies. We present FRAME, a modular pipeline that reframes summarization as a semantic enrichment task. FRAME extracts and scores salient facts, organizes them thematically, and uses these to enrich an outline into an abstractive summary. To personalize summaries, we introduce SCOPE, a reason-out-loud protocol that has the model build a reasoning trace by answering nine questions before content selection. For evaluation, we propose P-MESA, a multi-dimensional, reference-free evaluation framework to assess if a summary fits a target reader. P-MESA reliably identifies error instances, achieving >= 89% balanced accuracy against human annotations and strongly aligns with human severity ratings (r >= 0.70). On QMSum and FAME, FRAME reduces hallucination and omission by 2 out of 5 points (measured with MESA), while SCOPE improves knowledge fit and goal alignment over prompt-only baselines. Our findings advocate for rethinking summarization to improve control, faithfulness, and personalization.