SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

作者: Yung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-13 (更新: 2025-06-15)

备注: ICML 2025 main conference paper. The source code is available at https://github.com/facebookresearch/SelfCite

🔗 代码/项目: GITHUB

💡 一句话要点

SelfCite：一种自监督对齐方法，用于大语言模型中的上下文归因。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 上下文归因 大型语言模型 引用生成 上下文消融

📋 核心要点

现有方法依赖人工标注，成本高昂且效率低下，难以实现对LLM生成内容进行细粒度的上下文归因。
SelfCite利用LLM自身提供的奖励信号，通过上下文消融判断引用必要性与充分性，实现自监督学习。
实验表明，SelfCite显著提升了LLM生成引用的质量，在LongBench-Cite基准测试中F1值提升高达5.3个点。

📝 摘要（中文）

我们提出了SelfCite，一种新颖的自监督方法，旨在对齐大型语言模型（LLM），使其能够为其生成的回复中的语句生成高质量、细粒度的句子级别引用。SelfCite不依赖于昂贵且劳动密集型的人工标注，而是利用LLM自身通过上下文消融提供的奖励信号：如果需要引用，从上下文中删除引用的文本应阻止生成相同的回复；如果引用充分，仅保留引用的文本应保留相同的回复。这种奖励可以指导推理时的最佳N采样策略，从而显著提高引用质量，并且可以用于偏好优化，以直接微调模型，从而生成更好的引用。SelfCite的有效性通过在五个长篇问答任务的LongBench-Cite基准测试中，将引用F1值提高了高达5.3个点来证明。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）生成文本时，如何自动、准确地为每个语句提供高质量的句子级别引用的问题。现有方法主要依赖人工标注数据进行训练，成本高昂且难以扩展。此外，缺乏细粒度的引用信息使得用户难以验证LLM生成内容的可靠性。

核心思路：SelfCite的核心思路是利用LLM自身的能力，通过上下文消融来判断引用是否必要和充分，从而构建自监督信号。具体来说，如果一个语句需要引用，那么移除对应的上下文信息应该会导致LLM无法生成相同的语句；反之，如果只保留对应的上下文信息，LLM应该能够生成相同的语句。

技术框架：SelfCite包含两个主要阶段：奖励信号生成和模型优化。首先，对于LLM生成的每个语句，通过上下文消融（移除或保留引用的文本）来生成多个候选回复。然后，利用LLM自身判断候选回复与原始回复的相似度，从而得到奖励信号。最后，利用该奖励信号指导推理时的最佳N采样策略，或者通过偏好优化直接微调模型。

关键创新：SelfCite的关键创新在于提出了利用LLM自身进行自监督学习的方法，避免了对大量人工标注数据的依赖。通过上下文消融和奖励信号生成，SelfCite能够有效地学习到语句和上下文之间的对齐关系，从而生成高质量的引用。

关键设计：SelfCite的关键设计包括：1) 上下文消融策略，包括移除引用文本和仅保留引用文本两种方式；2) 奖励信号的计算方式，例如可以使用LLM计算候选回复与原始回复的ROUGE分数或BLEU分数；3) 模型优化方法，可以使用强化学习算法（如PPO）或直接偏好优化（DPO）来微调模型。

🖼️ 关键图片

📊 实验亮点

SelfCite在LongBench-Cite基准测试中取得了显著的性能提升，在五个长篇问答任务上，引用F1值提高了高达5.3个点。这表明SelfCite能够有效地提高LLM生成引用的质量，使其更加准确和完整。此外，SelfCite的自监督学习方式降低了对人工标注数据的依赖，使其更具实用性和可扩展性。

🎯 应用场景

SelfCite技术可应用于各种需要LLM生成可靠、可验证内容的场景，例如自动生成研究报告、新闻报道、法律文件等。通过提供细粒度的引用信息，SelfCite可以提高LLM生成内容的可信度和透明度，方便用户验证信息的来源和准确性，从而促进LLM在更广泛领域的应用。

📄 摘要（原文）

We introduce SelfCite, a novel self-supervised approach that aligns LLMs to generate high-quality, fine-grained, sentence-level citations for the statements in their generated responses. Instead of only relying on costly and labor-intensive annotations, SelfCite leverages a reward signal provided by the LLM itself through context ablation: If a citation is necessary, removing the cited text from the context should prevent the same response; if sufficient, retaining the cited text alone should preserve the same response. This reward can guide the inference-time best-of-N sampling strategy to improve citation quality significantly, as well as be used in preference optimization to directly fine-tune the models for generating better citations. The effectiveness of SelfCite is demonstrated by increasing citation F1 up to 5.3 points on the LongBench-Cite benchmark across five long-form question answering tasks. The source code is available at https://github.com/facebookresearch/SelfCite

SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理