Learning to Generate Answers with Citations via Factual Consistency Models

作者: Rami Aly, Zhiqiang Tang, Samson Tan, George Karypis

分类: cs.CL

发布日期: 2024-06-19 (更新: 2024-07-15)

备注: Accepted to ACL 2024. Code is available at https://github.com/amazon-science/learning-to-generate-answers-with-citations

💡 一句话要点

提出基于事实一致性模型的弱监督微调方法，提升LLM生成答案时引用准确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实一致性 弱监督学习 引用生成 幻觉问题

📋 核心要点

现有LLM在生成答案时容易产生幻觉，缺乏可靠性，准确引用相关来源仍然是挑战。
提出一种基于事实一致性模型的弱监督微调方法，交替生成带引用的文本和FCM过滤数据微调。
实验表明，该方法在引用准确率上显著优于现有方法，并降低了事实错误率，具有良好的领域迁移能力。

📝 摘要（中文）

大型语言模型（LLM）经常产生幻觉，这阻碍了它们在关键任务场景中的可靠性。一种解决此问题的方法是提供相关来源的引用，以增强生成内容的可验证性。然而，在答案中准确引用段落仍然是一个巨大的挑战。本文提出了一种利用事实一致性模型（FCM）的弱监督微调方法。我们的方法在生成带有引用的文本和使用FCM过滤的引用数据进行监督微调之间交替进行。聚焦学习被整合到目标中，指导微调过程强调由FCM测量的实际单元token。在ALCE小样本引用基准上，使用各种指令调整的LLM进行的结果表明，与上下文学习、原始监督微调和最先进的方法相比，性能更优越，引用F1分别平均提高了34.1、15.5和10.5个点。此外，在一个领域迁移设置中，我们表明所获得的引用生成能力能够稳健地迁移到未见过的数据集。值得注意的是，我们的引用改进有助于在所有基线中实现最低的事实错误率。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在生成答案时容易出现“幻觉”问题，即生成不真实或与事实相悖的内容。为了提高LLM的可靠性，一个重要的方向是让LLM在生成答案的同时提供引文，以便用户验证答案的真实性。然而，现有方法在生成准确的引文方面仍然存在困难，无法保证引文与生成内容的一致性。

核心思路：论文的核心思路是利用事实一致性模型（FCM）进行弱监督微调。通过FCM来判断生成内容和引文之间的一致性，并利用FCM的判断结果来指导LLM的微调过程。这种方法不需要人工标注大量的引文数据，而是通过FCM自动生成训练数据，从而降低了训练成本。

技术框架：整体框架包含两个主要阶段：1) 生成带有引用的文本；2) 使用FCM过滤的引用数据进行监督微调。这两个阶段交替进行，不断提高LLM生成引文的准确性。在微调阶段，论文还引入了聚焦学习，即更加关注那些与事实一致性相关的token，从而提高微调的效率。

关键创新：论文的关键创新在于利用事实一致性模型进行弱监督微调。与传统的监督微调方法相比，该方法不需要大量的人工标注数据，而是通过FCM自动生成训练数据。此外，论文还引入了聚焦学习，提高了微调的效率。

关键设计：论文的关键设计包括：1) 如何训练和使用事实一致性模型；2) 如何设计弱监督微调的目标函数，使其能够有效地利用FCM的判断结果；3) 如何设计聚焦学习策略，使其能够更加关注与事实一致性相关的token。具体来说，FCM被训练来预测生成文本和引用段落之间的一致性得分。微调目标函数包括一个交叉熵损失项，用于衡量生成文本的准确性，以及一个正则化项，用于鼓励生成文本与引用段落之间的一致性。聚焦学习通过对FCM预测的token重要性进行加权来实现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在ALCE小样本引用基准上取得了显著的性能提升，与上下文学习相比，引用F1提高了34.1个点，与原始监督微调相比，提高了15.5个点，与最先进的方法相比，提高了10.5个点。此外，该方法在领域迁移设置中表现出良好的鲁棒性，并且能够降低事实错误率。

🎯 应用场景

该研究成果可应用于需要高可靠性和可验证性的问答系统、信息检索、内容生成等领域。例如，在医疗、金融等领域，准确的引用可以帮助用户验证信息的真实性，降低风险。未来，该技术可以进一步扩展到其他模态的数据，例如图像、视频等，实现多模态信息的可靠生成。

📄 摘要（原文）

Large Language Models (LLMs) frequently hallucinate, impeding their reliability in mission-critical situations. One approach to address this issue is to provide citations to relevant sources alongside generated content, enhancing the verifiability of generations. However, citing passages accurately in answers remains a substantial challenge. This paper proposes a weakly-supervised fine-tuning method leveraging factual consistency models (FCMs). Our approach alternates between generating texts with citations and supervised fine-tuning with FCM-filtered citation data. Focused learning is integrated into the objective, directing the fine-tuning process to emphasise the factual unit tokens, as measured by an FCM. Results on the ALCE few-shot citation benchmark with various instruction-tuned LLMs demonstrate superior performance compared to in-context learning, vanilla supervised fine-tuning, and state-of-the-art methods, with an average improvement of $34.1$, $15.5$, and $10.5$ citation F$_1$ points, respectively. Moreover, in a domain transfer setting we show that the obtained citation generation ability robustly transfers to unseen datasets. Notably, our citation improvements contribute to the lowest factual error rate across baselines.

Learning to Generate Answers with Citations via Factual Consistency Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理