sui-1: Grounded and Verifiable Long-Form Summarization

作者: Benedikt Droste, Jan Philipp Harries, Maximilian Idahl, Björn Plüster

分类: cs.CL, cs.AI

发布日期: 2026-01-13

备注: 13 pages, 4 figures, model weights at https://huggingface.co/ellamind/sui-1-24b

💡 一句话要点

提出sui-1模型，通过可溯源引用的长文本摘要解决现有大语言模型摘要不忠实问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本摘要 可溯源引用 合成数据 思维链提示 多阶段验证 语言模型 信息抽取

📋 核心要点

现有大语言模型在长文本摘要中存在生成内容不忠实于原文的问题，难以验证。
sui-1模型通过生成带有内联引用的摘要，使用户能够追溯每个声明的来源，提高可信度。
实验结果表明，sui-1显著优于其他开源模型，证明了特定任务训练优于单纯扩大模型规模。

📝 摘要（中文）

大型语言模型经常生成看似合理但不忠实的摘要，用户无法对照源文本进行验证，这在政府和法律分析等合规敏感领域是一个关键限制。我们提出了sui-1，一个240亿参数的模型，它可以生成带有内联引用的抽象摘要，使用户能够将每个声明追溯到其源语句。我们的合成数据管道结合了思维链提示和多阶段验证，从议会文件、网络文本和维基百科等不同来源生成了超过22,000个跨五种语言的高质量训练示例。评估表明，sui-1显著优于所有经过测试的开源基线模型，包括参数量是其三倍的模型。这些结果表明，对于基于引用的摘要，特定任务的训练大大优于单纯的模型规模。模型权重和交互式演示已公开。

🔬 方法详解

问题定义：现有的大型语言模型在生成长文本摘要时，经常出现“幻觉”问题，即生成的内容与原始文本不符，甚至捏造信息。用户难以验证摘要的真实性，这在需要高度准确性的领域（如法律、政府文件分析）是不可接受的。现有方法要么依赖于简单的抽取式摘要，要么生成的摘要缺乏可追溯性，无法满足实际需求。

核心思路：sui-1的核心思路是通过生成带有内联引用的摘要，将摘要中的每个claim都链接到原始文本中的对应句子。这样，用户可以通过引用快速验证摘要的准确性。为了实现这一目标，论文采用了合成数据训练的方法，并结合了思维链提示和多阶段验证机制。

技术框架：sui-1的训练流程主要包括以下几个阶段：1) 使用思维链提示生成候选摘要和引用；2) 对生成的摘要和引用进行多阶段验证，确保其准确性和一致性；3) 使用验证后的数据训练sui-1模型。模型本身是一个24B参数的Transformer模型。

关键创新：sui-1的关键创新在于其合成数据生成流程和内联引用的摘要方式。传统的摘要模型通常只生成摘要，而不提供任何引用信息。sui-1通过生成内联引用，实现了摘要的可追溯性，提高了摘要的可靠性。此外，论文提出的合成数据生成流程能够有效地生成高质量的训练数据，避免了人工标注的成本和偏差。

关键设计：论文使用了思维链提示来生成候选摘要和引用，这有助于模型更好地理解原始文本的语义，并生成更准确的摘要。多阶段验证机制包括多个验证步骤，例如检查引用是否指向原始文本中的相关句子，以及摘要是否与原始文本的内容一致。这些验证步骤可以有效地过滤掉不准确的摘要和引用。具体的参数设置和损失函数等技术细节在论文中没有详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

sui-1模型在实验中显著优于所有测试的开源基线模型，包括参数量是其三倍的模型。这表明，对于基于引用的摘要任务，特定任务的训练比单纯扩大模型规模更有效。具体的性能数据和提升幅度在论文中没有明确给出，属于未知信息。

🎯 应用场景

sui-1模型在合规性要求高的领域具有广泛的应用前景，例如政府文件分析、法律文本摘要、金融报告解读等。它可以帮助用户快速准确地理解长文本内容，并验证信息的真实性。未来，该技术可以应用于自动化报告生成、智能文档检索等领域，提高工作效率和信息质量。

📄 摘要（原文）

Large language models frequently generate plausible but unfaithful summaries that users cannot verify against source text, a critical limitation in compliance-sensitive domains such as government and legal analysis. We present sui-1, a 24B parameter model that produces abstractive summaries with inline citations, enabling users to trace each claim to its source sentence. Our synthetic data pipeline combines chain-of-thought prompting with multi-stage verification, generating over 22,000 high-quality training examples across five languages from diverse sources including parliamentary documents, web text, and Wikipedia. Evaluation shows sui-1 significantly outperforms all tested open-weight baselines, including models with 3x more parameters. These results demonstrate that task-specific training substantially outperforms scale alone for citation-grounded summarization. Model weights and an interactive demo are publicly available.

sui-1: Grounded and Verifiable Long-Form Summarization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理