Learning to Generate Answers with Citations via Factual Consistency Models
作者: Rami Aly, Zhiqiang Tang, Samson Tan, George Karypis
分类: cs.CL
发布日期: 2024-06-19 (更新: 2024-07-15)
备注: Accepted to ACL 2024. Code is available at https://github.com/amazon-science/learning-to-generate-answers-with-citations
💡 一句话要点
提出基于事实一致性模型的弱监督微调方法,提升LLM生成答案时引用准确性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 事实一致性 弱监督学习 引用生成 幻觉问题
📋 核心要点
- 现有LLM在生成答案时容易产生幻觉,缺乏可靠性,准确引用相关来源仍然是挑战。
- 提出一种基于事实一致性模型的弱监督微调方法,交替生成带引用的文本和FCM过滤数据微调。
- 实验表明,该方法在引用准确率上显著优于现有方法,并降低了事实错误率,具有良好的领域迁移能力。
📝 摘要(中文)
大型语言模型(LLM)经常产生幻觉,这阻碍了它们在关键任务场景中的可靠性。一种解决此问题的方法是提供相关来源的引用,以增强生成内容的可验证性。然而,在答案中准确引用段落仍然是一个巨大的挑战。本文提出了一种利用事实一致性模型(FCM)的弱监督微调方法。我们的方法在生成带有引用的文本和使用FCM过滤的引用数据进行监督微调之间交替进行。聚焦学习被整合到目标中,指导微调过程强调由FCM测量的实际单元token。在ALCE小样本引用基准上,使用各种指令调整的LLM进行的结果表明,与上下文学习、原始监督微调和最先进的方法相比,性能更优越,引用F1分别平均提高了34.1、15.5和10.5个点。此外,在一个领域迁移设置中,我们表明所获得的引用生成能力能够稳健地迁移到未见过的数据集。值得注意的是,我们的引用改进有助于在所有基线中实现最低的事实错误率。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在生成答案时容易出现“幻觉”问题,即生成不真实或与事实相悖的内容。为了提高LLM的可靠性,一个重要的方向是让LLM在生成答案的同时提供引文,以便用户验证答案的真实性。然而,现有方法在生成准确的引文方面仍然存在困难,无法保证引文与生成内容的一致性。
核心思路:论文的核心思路是利用事实一致性模型(FCM)进行弱监督微调。通过FCM来判断生成内容和引文之间的一致性,并利用FCM的判断结果来指导LLM的微调过程。这种方法不需要人工标注大量的引文数据,而是通过FCM自动生成训练数据,从而降低了训练成本。
技术框架:整体框架包含两个主要阶段:1) 生成带有引用的文本;2) 使用FCM过滤的引用数据进行监督微调。这两个阶段交替进行,不断提高LLM生成引文的准确性。在微调阶段,论文还引入了聚焦学习,即更加关注那些与事实一致性相关的token,从而提高微调的效率。
关键创新:论文的关键创新在于利用事实一致性模型进行弱监督微调。与传统的监督微调方法相比,该方法不需要大量的人工标注数据,而是通过FCM自动生成训练数据。此外,论文还引入了聚焦学习,提高了微调的效率。
关键设计:论文的关键设计包括:1) 如何训练和使用事实一致性模型;2) 如何设计弱监督微调的目标函数,使其能够有效地利用FCM的判断结果;3) 如何设计聚焦学习策略,使其能够更加关注与事实一致性相关的token。具体来说,FCM被训练来预测生成文本和引用段落之间的一致性得分。微调目标函数包括一个交叉熵损失项,用于衡量生成文本的准确性,以及一个正则化项,用于鼓励生成文本与引用段落之间的一致性。聚焦学习通过对FCM预测的token重要性进行加权来实现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在ALCE小样本引用基准上取得了显著的性能提升,与上下文学习相比,引用F1提高了34.1个点,与原始监督微调相比,提高了15.5个点,与最先进的方法相比,提高了10.5个点。此外,该方法在领域迁移设置中表现出良好的鲁棒性,并且能够降低事实错误率。
🎯 应用场景
该研究成果可应用于需要高可靠性和可验证性的问答系统、信息检索、内容生成等领域。例如,在医疗、金融等领域,准确的引用可以帮助用户验证信息的真实性,降低风险。未来,该技术可以进一步扩展到其他模态的数据,例如图像、视频等,实现多模态信息的可靠生成。
📄 摘要(原文)
Large Language Models (LLMs) frequently hallucinate, impeding their reliability in mission-critical situations. One approach to address this issue is to provide citations to relevant sources alongside generated content, enhancing the verifiability of generations. However, citing passages accurately in answers remains a substantial challenge. This paper proposes a weakly-supervised fine-tuning method leveraging factual consistency models (FCMs). Our approach alternates between generating texts with citations and supervised fine-tuning with FCM-filtered citation data. Focused learning is integrated into the objective, directing the fine-tuning process to emphasise the factual unit tokens, as measured by an FCM. Results on the ALCE few-shot citation benchmark with various instruction-tuned LLMs demonstrate superior performance compared to in-context learning, vanilla supervised fine-tuning, and state-of-the-art methods, with an average improvement of $34.1$, $15.5$, and $10.5$ citation F$_1$ points, respectively. Moreover, in a domain transfer setting we show that the obtained citation generation ability robustly transfers to unseen datasets. Notably, our citation improvements contribute to the lowest factual error rate across baselines.