TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning
作者: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-30
💡 一句话要点
TruthRL:通过强化学习激励大型语言模型生成更真实可靠的回答
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 真实性 幻觉 知识密集型问答 奖励函数设计 GRPO
📋 核心要点
- 现有LLM在知识密集型任务中容易产生幻觉,影响回答的真实性,单纯追求准确率或保守策略都无法有效解决。
- TruthRL通过强化学习框架,设计三元奖励机制,区分正确答案、幻觉和弃权,直接优化LLM的真实性。
- 实验表明,TruthRL显著降低了幻觉,提高了回答的真实性,并在不同模型和设置下均表现出一致的性能提升。
📝 摘要(中文)
大型语言模型(LLMs)在事实性问答方面表现出色,但容易产生幻觉和不真实的回答,尤其是在需要超出其参数知识的信息时。真实性不仅需要准确性,还需要模型识别不确定性并在不确定时选择弃权以避免幻觉。这给现有方法带来了根本性挑战:优化准确性的方法通常会放大幻觉,而鼓励弃权的方法可能过于保守,牺牲了正确的答案。这两种极端情况最终都会损害真实性。本文提出了TruthRL,一个通用的强化学习(RL)框架,直接优化LLM的真实性。具体来说,我们使用GRPO实现了TruthRL,并采用了一个简单而有效的三元奖励,区分了正确答案、幻觉和弃权。它激励模型不仅通过提供正确的回答来减少幻觉,还通过在不确定时选择弃权来减少幻觉,从而提高真实性。在四个知识密集型基准上的大量实验表明,与vanilla RL相比,TruthRL显著减少了28.9%的幻觉,并提高了21.1%的真实性,在检索和非检索设置下,各种骨干模型(例如,Qwen、Llama)都获得了持续的收益。深入的消融研究表明,vanilla的以准确性为导向的方法,如监督微调或具有二元奖励的RL,难以平衡事实正确性和不确定性。相比之下,我们提出的以真实性为导向的TruthRL在准确性和真实性方面都取得了强大的性能,突出了学习目标设计对于开发真实的LLM的重要性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在知识密集型问答中产生幻觉,导致回答不真实的问题。现有方法,如监督微调或使用二元奖励的强化学习,要么过度追求准确率而放大幻觉,要么过于保守而牺牲正确答案,无法有效平衡准确性和真实性。
核心思路:TruthRL的核心思路是通过强化学习直接优化LLM的真实性。关键在于设计一个能够区分正确答案、幻觉和弃权的三元奖励函数。通过激励模型在不确定时选择弃权,从而减少幻觉,提高整体的真实性。
技术框架:TruthRL使用GRPO(Generalized Proximal Policy Optimization)作为强化学习算法。整体流程包括:1) 使用LLM生成答案;2) 根据答案的正确性、是否为幻觉以及是否选择弃权,计算三元奖励;3) 使用GRPO更新LLM的策略,使其更倾向于生成真实可靠的答案。
关键创新:TruthRL最重要的创新点在于其三元奖励函数的设计。与传统的二元奖励函数(只区分正确和错误)不同,三元奖励函数能够明确区分幻觉和弃权,从而引导模型学习在不确定时选择弃权,避免生成不真实的回答。
关键设计:TruthRL的关键设计包括:1) 三元奖励函数的具体形式,需要仔细设计奖励值,以平衡准确性、真实性和弃权之间的关系;2) GRPO算法的参数设置,例如学习率、折扣因子等,需要根据具体任务进行调整;3) 实验中使用的骨干模型(如Qwen、Llama)和数据集的选择。
🖼️ 关键图片
📊 实验亮点
TruthRL在四个知识密集型基准测试中表现出色,与传统的强化学习方法相比,幻觉减少了28.9%,真实性提高了21.1%。该方法在不同的骨干模型(如Qwen、Llama)和设置(检索和非检索)下均取得了显著的性能提升,证明了其通用性和有效性。消融实验进一步验证了三元奖励函数在平衡准确性和真实性方面的关键作用。
🎯 应用场景
TruthRL可应用于各种需要LLM提供可靠信息的场景,如智能客服、知识库问答、医疗诊断辅助等。通过提高LLM回答的真实性,可以减少错误信息的传播,提升用户信任度,并为决策提供更可靠的依据。未来,该方法有望扩展到其他类型的生成任务,如文本摘要、机器翻译等,以提高生成内容的质量和可信度。
📄 摘要(原文)
While large language models (LLMs) have demonstrated strong performance on factoid question answering, they are still prone to hallucination and untruthful responses, particularly when tasks demand information outside their parametric knowledge. Indeed, truthfulness requires more than accuracy -- models must also recognize uncertainty and abstain when unsure to avoid hallucinations. This presents a fundamental challenge for existing methods: approaches that optimize for accuracy often amplify hallucinations, while those that encourage abstention can become overly conservative, sacrificing correct answers. Both extremes ultimately compromise truthfulness. In this work, we present TruthRL, a general reinforcement learning (RL) framework that directly optimizes the truthfulness of LLMs. Specifically, we implement TruthRL using GRPO with a simple yet effective ternary reward that distinguishes correct answers, hallucinations, and abstentions. It incentivizes models to reduce hallucinations not only by providing correct responses, but also by enabling abstention when uncertain, thereby improving truthfulness. Extensive experiments across four knowledge-intensive benchmarks show that, compared to vanilla RL, TruthRL significantly reduces hallucinations by 28.9% and improves truthfulness by 21.1%, with consistent gains across various backbone models (e.g., Qwen, Llama) under both retrieval and non-retrieval setups. In-depth ablation study demonstrates that vanilla accuracy-driven methods, such as supervised fine-tuning or RL with a binary reward, struggle to balance factual correctness and uncertainty. In contrast, our proposed truthfulness-driven TruthRL achieves strong performance in both accuracy and truthfulness, underscoring the importance of learning objective design for developing truthful LLMs.