SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models
作者: Yung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-02-13 (更新: 2025-06-15)
备注: ICML 2025 main conference paper. The source code is available at https://github.com/facebookresearch/SelfCite
🔗 代码/项目: GITHUB
💡 一句话要点
SelfCite:一种自监督对齐方法,用于大语言模型中的上下文归因。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自监督学习 上下文归因 大型语言模型 引用生成 上下文消融
📋 核心要点
- 现有方法依赖人工标注,成本高昂且效率低下,难以实现对LLM生成内容进行细粒度的上下文归因。
- SelfCite利用LLM自身提供的奖励信号,通过上下文消融判断引用必要性与充分性,实现自监督学习。
- 实验表明,SelfCite显著提升了LLM生成引用的质量,在LongBench-Cite基准测试中F1值提升高达5.3个点。
📝 摘要(中文)
我们提出了SelfCite,一种新颖的自监督方法,旨在对齐大型语言模型(LLM),使其能够为其生成的回复中的语句生成高质量、细粒度的句子级别引用。SelfCite不依赖于昂贵且劳动密集型的人工标注,而是利用LLM自身通过上下文消融提供的奖励信号:如果需要引用,从上下文中删除引用的文本应阻止生成相同的回复;如果引用充分,仅保留引用的文本应保留相同的回复。这种奖励可以指导推理时的最佳N采样策略,从而显著提高引用质量,并且可以用于偏好优化,以直接微调模型,从而生成更好的引用。SelfCite的有效性通过在五个长篇问答任务的LongBench-Cite基准测试中,将引用F1值提高了高达5.3个点来证明。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)生成文本时,如何自动、准确地为每个语句提供高质量的句子级别引用的问题。现有方法主要依赖人工标注数据进行训练,成本高昂且难以扩展。此外,缺乏细粒度的引用信息使得用户难以验证LLM生成内容的可靠性。
核心思路:SelfCite的核心思路是利用LLM自身的能力,通过上下文消融来判断引用是否必要和充分,从而构建自监督信号。具体来说,如果一个语句需要引用,那么移除对应的上下文信息应该会导致LLM无法生成相同的语句;反之,如果只保留对应的上下文信息,LLM应该能够生成相同的语句。
技术框架:SelfCite包含两个主要阶段:奖励信号生成和模型优化。首先,对于LLM生成的每个语句,通过上下文消融(移除或保留引用的文本)来生成多个候选回复。然后,利用LLM自身判断候选回复与原始回复的相似度,从而得到奖励信号。最后,利用该奖励信号指导推理时的最佳N采样策略,或者通过偏好优化直接微调模型。
关键创新:SelfCite的关键创新在于提出了利用LLM自身进行自监督学习的方法,避免了对大量人工标注数据的依赖。通过上下文消融和奖励信号生成,SelfCite能够有效地学习到语句和上下文之间的对齐关系,从而生成高质量的引用。
关键设计:SelfCite的关键设计包括:1) 上下文消融策略,包括移除引用文本和仅保留引用文本两种方式;2) 奖励信号的计算方式,例如可以使用LLM计算候选回复与原始回复的ROUGE分数或BLEU分数;3) 模型优化方法,可以使用强化学习算法(如PPO)或直接偏好优化(DPO)来微调模型。
🖼️ 关键图片
📊 实验亮点
SelfCite在LongBench-Cite基准测试中取得了显著的性能提升,在五个长篇问答任务上,引用F1值提高了高达5.3个点。这表明SelfCite能够有效地提高LLM生成引用的质量,使其更加准确和完整。此外,SelfCite的自监督学习方式降低了对人工标注数据的依赖,使其更具实用性和可扩展性。
🎯 应用场景
SelfCite技术可应用于各种需要LLM生成可靠、可验证内容的场景,例如自动生成研究报告、新闻报道、法律文件等。通过提供细粒度的引用信息,SelfCite可以提高LLM生成内容的可信度和透明度,方便用户验证信息的来源和准确性,从而促进LLM在更广泛领域的应用。
📄 摘要(原文)
We introduce SelfCite, a novel self-supervised approach that aligns LLMs to generate high-quality, fine-grained, sentence-level citations for the statements in their generated responses. Instead of only relying on costly and labor-intensive annotations, SelfCite leverages a reward signal provided by the LLM itself through context ablation: If a citation is necessary, removing the cited text from the context should prevent the same response; if sufficient, retaining the cited text alone should preserve the same response. This reward can guide the inference-time best-of-N sampling strategy to improve citation quality significantly, as well as be used in preference optimization to directly fine-tune the models for generating better citations. The effectiveness of SelfCite is demonstrated by increasing citation F1 up to 5.3 points on the LongBench-Cite benchmark across five long-form question answering tasks. The source code is available at https://github.com/facebookresearch/SelfCite