Learning Fine-Grained Grounded Citations for Attributed Large Language Models

📄 arXiv: 2408.04568v1 📥 PDF

作者: Lei Huang, Xiaocheng Feng, Weitao Ma, Yuxuan Gu, Weihong Zhong, Xiachong Feng, Weijiang Yu, Weihua Peng, Duyu Tang, Dandan Tu, Bing Qin

分类: cs.CL, cs.AI

发布日期: 2024-08-08

备注: Accepted by ACL 2024 Findings


💡 一句话要点

提出FRONT框架,提升归因大语言模型细粒度引用质量,缓解幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 归因模型 细粒度引用 幻觉缓解 可验证性

📋 核心要点

  1. 现有归因大语言模型依赖上下文学习,引用质量不高,且仅提供粗粒度文档信息,难以进行细粒度验证。
  2. FRONT框架通过训练LLM生成细粒度引用,将模型输出与支持性引文对齐,指导生成可靠一致的回复。
  3. 实验表明,FRONT显著提升了引用质量,使用LLaMA-2-7B时,在ALCE基准测试上平均提升14.21%,甚至超过ChatGPT。

📝 摘要(中文)

大型语言模型(LLMs)在信息检索任务中表现出色,但仍存在幻觉问题。归因LLMs通过在生成文本中添加内联引用,显示出缓解幻觉和提高可验证性的潜力。然而,现有方法依赖于上下文学习,导致引用质量欠佳。此外,仅引用粗粒度的文档标识符使得用户难以进行细粒度验证。本文提出了FRONT,一个旨在训练LLMs生成细粒度归因引用的框架。通过将模型输出与细粒度的支持性引文对齐,这些引文指导生成可靠且一致的回复,不仅提高了引用质量,还促进了细粒度验证。在ALCE基准测试上的实验表明,FRONT在生成高质量归因回复和高支持性引用方面非常有效。使用LLaMA-2-7B,该框架显著优于所有基线,在所有数据集上的引用质量平均提高了14.21%,甚至超过了ChatGPT。

🔬 方法详解

问题定义:现有归因大语言模型在生成引用时存在两个主要问题。一是引用质量不高,因为它们主要依赖于上下文学习,缺乏明确的训练目标来优化引用生成。二是引用粒度较粗,通常只引用文档级别的标识符,用户需要花费大量精力才能在文档中找到支持特定声明的证据,验证成本高昂。

核心思路:FRONT框架的核心思路是通过引入细粒度的引用生成任务,直接训练LLM生成支持其输出的精确引文。通过将生成文本与细粒度的支持性引文对齐,模型可以学习到如何更准确地引用信息,从而提高引用质量和可验证性。这种方法避免了仅仅依赖上下文学习的局限性,并提供了更明确的训练信号。

技术框架:FRONT框架主要包含以下几个阶段:1) 数据准备:构建包含问题、答案和对应细粒度引文的数据集。2) 模型训练:使用问题和引文作为输入,训练LLM生成答案。3) 引用生成:在生成答案的同时,模型也生成对应的细粒度引用。4) 损失函数设计:设计损失函数来优化答案的生成质量和引用的准确性。

关键创新:FRONT框架的关键创新在于引入了细粒度的引用生成任务,并将其与答案生成任务联合训练。这使得模型能够直接学习到如何生成高质量的引用,而不仅仅是依赖于上下文学习。此外,FRONT框架还通过设计合适的损失函数,来优化答案的生成质量和引用的准确性,从而进一步提高了模型的性能。

关键设计:FRONT框架的关键设计包括:1) 使用高质量的细粒度引用数据集进行训练。2) 设计合适的损失函数,例如交叉熵损失或对比学习损失,来优化答案的生成质量和引用的准确性。3) 可以采用不同的LLM作为基础模型,例如LLaMA-2。4) 可以探索不同的引用生成策略,例如直接生成引文或从候选引文中选择最合适的引文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FRONT框架在ALCE基准测试上显著优于所有基线模型,包括ChatGPT。具体而言,使用LLaMA-2-7B作为基础模型时,FRONT在所有数据集上的引用质量平均提高了14.21%。这表明FRONT框架能够有效地提高归因大语言模型的引用质量,并缓解幻觉问题。

🎯 应用场景

FRONT框架可应用于各种需要生成可靠且可验证信息的场景,例如问答系统、知识库构建、报告生成等。通过提供细粒度的引用,FRONT可以帮助用户快速验证信息的真实性,提高信息的可信度。此外,该框架还可以用于辅助研究人员进行文献综述和知识发现,提高研究效率。

📄 摘要(原文)

Despite the impressive performance on information-seeking tasks, large language models (LLMs) still struggle with hallucinations. Attributed LLMs, which augment generated text with in-line citations, have shown potential in mitigating hallucinations and improving verifiability. However, current approaches suffer from suboptimal citation quality due to their reliance on in-context learning. Furthermore, the practice of citing only coarse document identifiers makes it challenging for users to perform fine-grained verification. In this work, we introduce FRONT, a training framework designed to teach LLMs to generate Fine-Grained Grounded Citations. By grounding model outputs in fine-grained supporting quotes, these quotes guide the generation of grounded and consistent responses, not only improving citation quality but also facilitating fine-grained verification. Experiments on the ALCE benchmark demonstrate the efficacy of FRONT in generating superior grounded responses and highly supportive citations. With LLaMA-2-7B, the framework significantly outperforms all the baselines, achieving an average of 14.21% improvement in citation quality across all datasets, even surpassing ChatGPT.