FLAME: Factuality-Aware Alignment for Large Language Models

📄 arXiv: 2405.01525v1 📥 PDF

作者: Sheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Wen-tau Yih, Xilun Chen

分类: cs.CL, cs.AI

发布日期: 2024-05-02


💡 一句话要点

FLAME:提出事实感知对齐方法,提升大型语言模型的事实准确性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对齐 事实性 幻觉 监督微调 强化学习 直接偏好优化 知识问答

📋 核心要点

  1. 现有LLM对齐方法未能有效提升模型的事实准确性,反而可能导致更多“幻觉”现象,生成错误信息。
  2. 论文提出“事实感知对齐”(Factuality-Aware Alignment)方法,旨在使LLM在对齐过程中更加注重事实性。
  3. 实验结果表明,该方法能有效引导LLM生成更符合事实的回复,同时保持其指令遵循能力。

📝 摘要(中文)

对齐是微调预训练大型语言模型(LLM)以遵循自然语言指令并充当有用的AI助手的标准程序。然而,我们观察到,传统的对齐过程未能提高LLM的事实准确性,并且常常导致生成更多错误的事实(即幻觉)。在本文中,我们研究如何使LLM对齐过程更具事实性,首先识别导致对齐步骤中出现幻觉的因素:监督微调(SFT)和强化学习(RL)。特别是,我们发现用新知识或不熟悉的文本训练LLM会鼓励幻觉。这使得SFT的事实性降低,因为它训练的是对LLM来说可能是新的人工标注数据。此外,标准RL中使用的奖励函数也会鼓励幻觉,因为它引导LLM在各种指令上提供更有帮助的响应,通常偏好更长和更详细的响应。基于这些观察,我们提出事实感知对齐,包括事实感知SFT和通过直接偏好优化实现的事实感知RL。实验表明,我们提出的事实感知对齐引导LLM输出更符合事实的响应,同时保持指令遵循能力。

🔬 方法详解

问题定义:现有的大型语言模型在对齐过程中,容易产生“幻觉”,即生成不符合事实的信息。传统的对齐方法,如监督微调(SFT)和强化学习(RL),在提升模型指令遵循能力的同时,往往忽略了事实准确性,甚至会加剧幻觉问题。现有方法的痛点在于,它们没有充分考虑训练数据和奖励函数对模型事实性的影响。

核心思路:论文的核心思路是,通过在SFT和RL两个对齐阶段引入“事实感知”机制,来提高LLM的事实准确性。具体来说,就是通过控制训练数据和调整奖励函数,避免模型接触过多新知识或不熟悉的文本,并鼓励模型生成更简洁、更符合事实的回复。

技术框架:FLAME包含两个主要阶段:事实感知监督微调(Factuality-Aware SFT)和事实感知强化学习(Factuality-Aware RL)。在SFT阶段,作者更加关注训练数据的质量,避免引入过多模型未知的知识。在RL阶段,作者通过直接偏好优化(Direct Preference Optimization, DPO)来调整奖励函数,使其更加注重事实性。

关键创新:该论文的关键创新在于,它首次系统地研究了对齐过程中的幻觉问题,并提出了针对性的解决方案。与以往的对齐方法不同,FLAME不仅关注指令遵循能力,更强调事实准确性。通过事实感知的SFT和RL,FLAME能够有效减少LLM的幻觉,提高其可靠性。

关键设计:在事实感知SFT中,作者可能采用了数据过滤或数据增强等技术,以减少训练数据中的噪声和错误信息。在事实感知RL中,作者可能设计了新的奖励函数,例如,对生成包含错误信息的回复进行惩罚,或者对生成简洁明了的回复进行奖励。具体的技术细节可能包括调整DPO的参数,以及设计特定的损失函数来衡量事实准确性。

📊 实验亮点

实验结果表明,FLAME方法能够显著提高LLM的事实准确性,同时保持其指令遵循能力。具体性能数据未知,但论文强调了与传统对齐方法相比,FLAME在减少幻觉方面取得了显著进展。通过事实感知的SFT和RL,LLM能够生成更可靠、更值得信赖的回复。

🎯 应用场景

该研究成果可广泛应用于需要高可靠性的AI助手、智能客服、知识问答系统等领域。通过提高LLM的事实准确性,可以减少错误信息的传播,提升用户信任度,并为用户提供更可靠的服务。未来,该方法有望进一步推广到其他自然语言处理任务中,例如文本摘要、机器翻译等。

📄 摘要(原文)

Alignment is a standard procedure to fine-tune pre-trained large language models (LLMs) to follow natural language instructions and serve as helpful AI assistants. We have observed, however, that the conventional alignment process fails to enhance the factual accuracy of LLMs, and often leads to the generation of more false facts (i.e. hallucination). In this paper, we study how to make the LLM alignment process more factual, by first identifying factors that lead to hallucination in both alignment steps:\ supervised fine-tuning (SFT) and reinforcement learning (RL). In particular, we find that training the LLM on new knowledge or unfamiliar texts can encourage hallucination. This makes SFT less factual as it trains on human labeled data that may be novel to the LLM. Furthermore, reward functions used in standard RL can also encourage hallucination, because it guides the LLM to provide more helpful responses on a diverse set of instructions, often preferring longer and more detailed responses. Based on these observations, we propose factuality-aware alignment, comprised of factuality-aware SFT and factuality-aware RL through direct preference optimization. Experiments show that our proposed factuality-aware alignment guides LLMs to output more factual responses while maintaining instruction-following capability.