Learning Fine-Grained Grounded Citations for Attributed Large Language Models

作者: Lei Huang, Xiaocheng Feng, Weitao Ma, Yuxuan Gu, Weihong Zhong, Xiachong Feng, Weijiang Yu, Weihua Peng, Duyu Tang, Dandan Tu, Bing Qin

分类: cs.CL, cs.AI

发布日期: 2024-08-08

备注: Accepted by ACL 2024 Findings

💡 一句话要点

提出FRONT框架，提升归因大语言模型细粒度引用质量，缓解幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 归因模型 细粒度引用 幻觉缓解 可验证性

📋 核心要点

现有归因大语言模型依赖上下文学习，引用质量不高，且仅提供粗粒度文档信息，难以进行细粒度验证。
FRONT框架通过训练LLM生成细粒度引用，将模型输出与支持性引文对齐，指导生成可靠一致的回复。
实验表明，FRONT显著提升了引用质量，使用LLaMA-2-7B时，在ALCE基准测试上平均提升14.21%，甚至超过ChatGPT。

📝 摘要（中文）

大型语言模型（LLMs）在信息检索任务中表现出色，但仍存在幻觉问题。归因LLMs通过在生成文本中添加内联引用，显示出缓解幻觉和提高可验证性的潜力。然而，现有方法依赖于上下文学习，导致引用质量欠佳。此外，仅引用粗粒度的文档标识符使得用户难以进行细粒度验证。本文提出了FRONT，一个旨在训练LLMs生成细粒度归因引用的框架。通过将模型输出与细粒度的支持性引文对齐，这些引文指导生成可靠且一致的回复，不仅提高了引用质量，还促进了细粒度验证。在ALCE基准测试上的实验表明，FRONT在生成高质量归因回复和高支持性引用方面非常有效。使用LLaMA-2-7B，该框架显著优于所有基线，在所有数据集上的引用质量平均提高了14.21%，甚至超过了ChatGPT。

🔬 方法详解

问题定义：现有归因大语言模型在生成引用时存在两个主要问题。一是引用质量不高，因为它们主要依赖于上下文学习，缺乏明确的训练目标来优化引用生成。二是引用粒度较粗，通常只引用文档级别的标识符，用户需要花费大量精力才能在文档中找到支持特定声明的证据，验证成本高昂。

核心思路：FRONT框架的核心思路是通过引入细粒度的引用生成任务，直接训练LLM生成支持其输出的精确引文。通过将生成文本与细粒度的支持性引文对齐，模型可以学习到如何更准确地引用信息，从而提高引用质量和可验证性。这种方法避免了仅仅依赖上下文学习的局限性，并提供了更明确的训练信号。

技术框架：FRONT框架主要包含以下几个阶段：1) 数据准备：构建包含问题、答案和对应细粒度引文的数据集。2) 模型训练：使用问题和引文作为输入，训练LLM生成答案。3) 引用生成：在生成答案的同时，模型也生成对应的细粒度引用。4) 损失函数设计：设计损失函数来优化答案的生成质量和引用的准确性。

关键创新：FRONT框架的关键创新在于引入了细粒度的引用生成任务，并将其与答案生成任务联合训练。这使得模型能够直接学习到如何生成高质量的引用，而不仅仅是依赖于上下文学习。此外，FRONT框架还通过设计合适的损失函数，来优化答案的生成质量和引用的准确性，从而进一步提高了模型的性能。

关键设计：FRONT框架的关键设计包括：1) 使用高质量的细粒度引用数据集进行训练。2) 设计合适的损失函数，例如交叉熵损失或对比学习损失，来优化答案的生成质量和引用的准确性。3) 可以采用不同的LLM作为基础模型，例如LLaMA-2。4) 可以探索不同的引用生成策略，例如直接生成引文或从候选引文中选择最合适的引文。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FRONT框架在ALCE基准测试上显著优于所有基线模型，包括ChatGPT。具体而言，使用LLaMA-2-7B作为基础模型时，FRONT在所有数据集上的引用质量平均提高了14.21%。这表明FRONT框架能够有效地提高归因大语言模型的引用质量，并缓解幻觉问题。

🎯 应用场景

FRONT框架可应用于各种需要生成可靠且可验证信息的场景，例如问答系统、知识库构建、报告生成等。通过提供细粒度的引用，FRONT可以帮助用户快速验证信息的真实性，提高信息的可信度。此外，该框架还可以用于辅助研究人员进行文献综述和知识发现，提高研究效率。

📄 摘要（原文）

Despite the impressive performance on information-seeking tasks, large language models (LLMs) still struggle with hallucinations. Attributed LLMs, which augment generated text with in-line citations, have shown potential in mitigating hallucinations and improving verifiability. However, current approaches suffer from suboptimal citation quality due to their reliance on in-context learning. Furthermore, the practice of citing only coarse document identifiers makes it challenging for users to perform fine-grained verification. In this work, we introduce FRONT, a training framework designed to teach LLMs to generate Fine-Grained Grounded Citations. By grounding model outputs in fine-grained supporting quotes, these quotes guide the generation of grounded and consistent responses, not only improving citation quality but also facilitating fine-grained verification. Experiments on the ALCE benchmark demonstrate the efficacy of FRONT in generating superior grounded responses and highly supportive citations. With LLaMA-2-7B, the framework significantly outperforms all the baselines, achieving an average of 14.21% improvement in citation quality across all datasets, even surpassing ChatGPT.

Learning Fine-Grained Grounded Citations for Attributed Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理