Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs

📄 arXiv: 2503.02846v1 📥 PDF

作者: Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen

分类: cs.CL

发布日期: 2025-03-04

备注: Accepted by ICLR 2025. Code is available at https://github.com/open-compass/ANAH


💡 一句话要点

提出Mask-DPO,通过细粒度事实性对齐提升大语言模型的事实准确性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 事实性对齐 直接偏好优化 细粒度学习 幻觉问题

📋 核心要点

  1. 现有事实性对齐方法在响应级别进行偏好学习,易受LLM生成内容中真假信息混合的干扰,引入噪声。
  2. Mask-DPO利用句子级事实性作为掩码信号,仅从首选样本的事实正确句子学习,避免对非首选样本的事实内容进行惩罚。
  3. 实验表明,Mask-DPO显著提升LLM在领域内和领域外数据集上的事实准确性,甚至超越更大规模的模型。

📝 摘要(中文)

大型语言模型(LLMs)在作为AI助手时,常常表现出幻觉现象,即生成不真实或无意义的信息。由于LLM的回应中总是伴随着真实的内容,以往基于响应级别偏好学习的事实性对齐方法不可避免地在训练过程中引入噪声。因此,本文提出了一种基于直接偏好优化(DPO)的细粒度事实性对齐方法,称为Mask-DPO。Mask-DPO结合句子级事实性作为掩码信号,仅从首选样本中事实正确的句子进行学习,并防止对非首选样本中的事实内容进行惩罚,从而解决了偏好学习中的模糊性。大量实验结果表明,Mask-DPO可以显著提高LLM对来自领域内和领域外数据集问题的回答的事实性,即使这些问题及其对应的主题在训练期间是未知的。仅在ANAH训练集上训练,Llama3.1-8B-Instruct在ANAH测试集上的得分从49.19%提高到77.53%,甚至超过了Llama3.1-70B-Instruct的得分(53.44%),同时其在领域外Biography数据集上的FactScore也从30.29%提高到39.39%。我们进一步研究了Mask-DPO使用不同训练样本缩放策略的泛化特性,发现缩放数据集中的主题数量比问题数量更有效。我们提出了一个关于事实对齐对LLM的作用的假设,以及这种现象的含义,并进行了概念验证实验来验证它。我们希望该方法和发现为未来扩展事实性对齐的研究铺平道路。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在生成文本时出现的“幻觉”问题,即生成不真实或与事实不符的信息。现有基于响应级别偏好学习的事实性对齐方法,由于LLM生成的内容通常包含真假信息,因此在训练过程中会引入噪声,影响对齐效果。

核心思路:论文的核心思路是进行细粒度的事实性对齐,即在句子级别区分事实正确和错误的内容,并仅利用事实正确的句子进行学习。通过这种方式,可以更精确地指导LLM学习,减少噪声的干扰,从而提高生成文本的事实准确性。

技术框架:Mask-DPO方法基于直接偏好优化(DPO)框架。其主要流程包括:1) 收集包含问题和对应LLM生成答案的数据集;2) 对每个答案进行句子级别的事实性标注,生成掩码信号;3) 使用DPO算法,结合掩码信号,仅从首选答案中事实正确的句子进行学习,并避免对非首选答案中的事实内容进行惩罚。

关键创新:Mask-DPO的关键创新在于引入了句子级别的事实性掩码,实现了细粒度的偏好学习。与以往的响应级别方法相比,Mask-DPO能够更精确地指导LLM学习,减少噪声的干扰,从而提高生成文本的事实准确性。

关键设计:Mask-DPO的关键设计包括:1) 使用句子级别的事实性标注工具(具体工具未知)生成掩码信号;2) 在DPO损失函数中,结合掩码信号,仅对事实正确的句子计算损失,并避免对非首选答案中的事实内容进行惩罚;3) 实验中探索了不同的训练样本缩放策略,发现缩放数据集中的主题数量比问题数量更有效(具体原因在论文中进行了假设和验证)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Mask-DPO能够显著提高LLM的事实准确性。例如,在ANAH测试集上,使用Mask-DPO训练的Llama3.1-8B-Instruct模型,其得分从49.19%提高到77.53%,甚至超过了Llama3.1-70B-Instruct模型(53.44%)。在领域外的Biography数据集上,FactScore也从30.29%提高到39.39%。

🎯 应用场景

Mask-DPO方法可应用于各种需要LLM生成事实准确信息的场景,例如智能客服、知识问答、内容创作等。通过提高LLM的事实准确性,可以增强用户对AI系统的信任,并减少错误信息带来的负面影响。该研究为未来扩展事实性对齐的研究提供了新的思路和方法。

📄 摘要(原文)

Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or nonsensical information) when serving as AI assistants in various domains. Since hallucinations always come with truthful content in the LLM responses, previous factuality alignment methods that conduct response-level preference learning inevitably introduced noises during training. Therefore, this paper proposes a fine-grained factuality alignment method based on Direct Preference Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as mask signals, Mask-DPO only learns from factually correct sentences in the preferred samples and prevents the penalty on factual contents in the not preferred samples, which resolves the ambiguity in the preference learning. Extensive experimental results demonstrate that Mask-DPO can significantly improve the factuality of LLMs responses to questions from both in-domain and out-of-domain datasets, although these questions and their corresponding topics are unseen during training. Only trained on the ANAH train set, the score of Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%, even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its FactScore on the out-of-domain Biography dataset is also improved from 30.29% to 39.39%. We further study the generalization property of Mask-DPO using different training sample scaling strategies and find that scaling the number of topics in the dataset is more effective than the number of questions. We provide a hypothesis of what factual alignment is doing with LLMs, on the implication of this phenomenon, and conduct proof-of-concept experiments to verify it. We hope the method and the findings pave the way for future research on scaling factuality alignment.