Knowledge-Level Consistency Reinforcement Learning: Dual-Fact Alignment for Long-Form Factuality
作者: Junliang Li, Yucheng Wang, Yan Chen, Yu Ran, Ruiqing Zhang, Jing Liu, Hua Wu, Haifeng Wang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-28 (更新: 2025-10-11)
💡 一句话要点
提出知识一致性强化学习框架KLCF,解决长文本生成中大语言模型的幻觉问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本生成 事实性 强化学习 知识一致性 幻觉缓解
📋 核心要点
- 现有RLHF方法忽略了模型内部知识边界,导致长文本生成中出现“幻觉税”问题。
- KLCF框架通过双重事实对齐机制,优化事实召回率和精确率,提升知识一致性。
- 实验表明,KLCF显著提升了长文本生成的事实性指标,有效缓解了模型幻觉。
📝 摘要(中文)
长文本生成中,大语言模型(LLMs)的幻觉和事实性缺陷仍然是可靠性的主要障碍。现有的基于人类反馈的强化学习(RLHF)框架主要依赖于偏好奖励,但它们通常忽略了模型内部的知识边界,加剧了所谓的“幻觉税”。为了应对这一挑战,我们提出了知识水平一致性强化学习框架(KLCF),该框架专注于策略模型表达的知识与基础模型的参数化知识之间的知识一致性,并引入了双重事实对齐机制,以联合优化事实召回率和精确率。具体来说,KLCF利用预训练的知识边界来构建事实检查表,指导在线强化学习以提高事实覆盖率和召回率;同时,它训练一个基于基础模型内部知识的自我评估模块,以提高生成过程中的事实精确率。与依赖外部检索或繁重验证的先前方法不同,我们的奖励设计完全不依赖外部知识且轻量级,使KLCF高效且易于扩展到大规模训练。实验结果表明,KLCF显著提高了多个长文本基准测试中的事实性指标,并有效缓解了模型幻觉。
🔬 方法详解
问题定义:论文旨在解决长文本生成中,大语言模型(LLMs)容易产生幻觉,即生成与事实不符的内容的问题。现有方法,特别是基于人类反馈的强化学习(RLHF),虽然能提升生成质量,但往往忽略了模型自身知识的局限性,导致模型为了迎合人类偏好而生成不准确的信息,加剧了幻觉问题。这种现象被称为“幻觉税”。
核心思路:论文的核心思路是强化策略模型生成内容与基础模型自身知识的一致性。通过让策略模型更好地理解自身的知识边界,并在此基础上进行生成,可以有效减少幻觉的产生。具体来说,论文提出了“知识水平一致性”的概念,即策略模型表达的知识应该与基础模型已有的参数化知识相符。
技术框架:KLCF框架包含以下主要模块:1) 事实检查表构建模块:利用预训练的知识边界构建事实检查表,用于指导在线强化学习,提高事实覆盖率和召回率。2) 自我评估模块:基于基础模型的内部知识训练一个自我评估模块,用于评估生成内容的事实精确率。3) 双重事实对齐机制:该机制联合优化事实召回率和精确率,通过强化学习的方式,使策略模型生成的文本既能覆盖关键事实,又能保证事实的准确性。整个框架采用在线强化学习的方式进行训练。
关键创新:KLCF的关键创新在于其“双重事实对齐”机制和“知识水平一致性”的理念。与以往依赖外部知识检索或复杂验证的方法不同,KLCF完全基于模型自身的知识进行训练,无需外部知识库,降低了计算成本和复杂度。此外,KLCF通过同时优化事实召回率和精确率,更全面地提升了生成文本的事实性。
关键设计:论文的关键设计包括:1) 事实检查表的构建方式:具体如何利用预训练的知识边界来构建事实检查表,例如使用哪些预训练模型,以及如何提取和组织知识。2) 自我评估模块的训练方法:如何利用基础模型的内部知识来训练自我评估模块,例如使用哪些损失函数,以及如何设计网络结构。3) 强化学习的奖励函数设计:如何将事实召回率和精确率融入到强化学习的奖励函数中,以及如何平衡两者之间的权重。这些细节在论文中应该有更详细的描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KLCF在多个长文本基准测试中显著提高了事实性指标,有效缓解了模型幻觉。具体的性能数据和对比基线需要在论文中查找,摘要中未提供详细数据。但可以确定的是,KLCF在事实性方面取得了显著的提升。
🎯 应用场景
该研究成果可应用于各种长文本生成场景,例如新闻报道、故事创作、技术文档撰写等。通过提升生成文本的事实性和可靠性,可以提高用户信任度,减少错误信息的传播。未来,该方法有望应用于更广泛的自然语言处理任务,例如对话系统、机器翻译等。
📄 摘要(原文)
Hallucination and factuality deficits remain key obstacles to the reliability of large language models (LLMs) in long-form generation. Existing reinforcement learning from human feedback (RLHF) frameworks primarily rely on preference rewards, yet they often overlook the model's internal knowledge boundaries, exacerbating the so-called "hallucination tax". To address this challenge, we propose Knowledge-Level Consistency Reinforcement Learning Framework (KLCF), a novel framework that focuses on the knowledge consistency between the policy model's expressed knowledge and the base model's parametric knowledge, and introduces a Dual-Fact Alignment mechanism to jointly optimize factual recall and precision. Specifically, KLCF leverages pretrained knowledge boundaries to construct fact checklist, guiding online reinforcement learning to improve factual coverage and recall; simultaneously, it trains a self-assessment module based on the base model's internal knowledge to enhance factual precision during generation. Unlike prior methods that rely on external retrieval or heavy verification, our reward design is fully external-knowledge-free and lightweight, making KLCF efficient and easily scalable to large-scale training. Experimental results demonstrate that KLCF substantially improves factuality metrics across multiple long-form benchmarks and effectively alleviates model hallucinations.