Post-Training Large Language Models via Reinforcement Learning from Self-Feedback
作者: Carel van Niekerk, Renato Vukovic, Benjamin Matthias Ruppik, Hsien-chin Lin, Milica Gašić
分类: cs.CL, cs.AI
发布日期: 2025-07-29
💡 一句话要点
提出基于自反馈强化学习的LLM后训练方法,提升校准性和推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 自反馈 后训练 校准 推理 内在奖励
📋 核心要点
- 现有LLM在推理任务中表现出校准不良的问题,影响其可靠性,需要有效方法提升。
- RLSF利用模型自身置信度作为内在奖励,通过强化学习优化,无需人工标注或外部数据。
- 实验表明,RLSF能有效提升LLM的校准性和推理能力,尤其在算术推理和问答任务中。
📝 摘要(中文)
大型语言模型(LLM)通常生成看似合理但校准不良的答案,限制了其在推理密集型任务中的可靠性。本文提出了一种基于自反馈强化学习(RLSF)的后训练方法,该方法使用模型自身的置信度作为内在奖励,模仿人类在缺乏外部反馈时的学习方式。在冻结的LLM生成多个思维链解决方案后,我们定义并计算每个最终答案跨度的置信度,并相应地对轨迹进行排序。然后,这些合成偏好被用于通过标准偏好优化来微调策略,类似于RLHF,但不需要人工标注、黄金答案或外部策划的奖励。RLSF同时(i)改进了模型的概率估计——恢复了良好的校准——并且(ii)加强了逐步推理,从而提高了算术推理和多项选择问答的性能。通过将模型自身的不确定性转化为有用的自反馈,RLSF肯定了基于内在模型行为的强化学习是LLM后训练管道中一个有原则且数据高效的组成部分,并保证了对LLM后训练内在奖励的进一步研究。
🔬 方法详解
问题定义:现有大型语言模型(LLM)在生成答案时,虽然表面上看起来合理,但往往校准性较差,即模型给出的概率置信度与其真实准确率不匹配。这限制了LLM在需要高度可靠性的推理密集型任务中的应用。现有方法,如RLHF,依赖于人工标注或外部奖励,成本高昂且难以扩展。
核心思路:RLSF的核心在于利用模型自身的置信度作为内在奖励信号,进行强化学习。其模仿了人类在缺乏外部反馈时,通过自我评估和反思来学习的过程。通过将模型的不确定性转化为可利用的反馈,RLSF旨在提升模型的校准性和推理能力。
技术框架:RLSF包含以下主要阶段: 1. 生成阶段:冻结的LLM针对给定问题生成多个思维链(Chain-of-Thought, CoT)解决方案。 2. 置信度评估阶段:定义并计算每个最终答案跨度的置信度。置信度计算方法未知,但应能反映模型对答案的确定程度。 3. 偏好排序阶段:根据置信度对生成的轨迹进行排序,形成合成偏好数据集。 4. 强化学习阶段:使用标准偏好优化算法(类似于RLHF),利用合成偏好数据集微调策略网络。
关键创新:RLSF的关键创新在于使用模型自身的置信度作为内在奖励,无需人工标注或外部数据。这使得后训练过程更加数据高效且易于扩展。此外,RLSF通过优化模型的内在行为,同时提升了校准性和推理能力,而不仅仅是针对特定任务进行优化。
关键设计:论文中未明确给出置信度计算方法的具体细节,这可能是影响RLSF性能的关键因素。偏好优化算法的选择也可能影响最终效果。此外,如何设计合适的奖励函数,以平衡校准性和推理能力之间的关系,也是一个重要的设计考量。
🖼️ 关键图片
📊 实验亮点
RLSF在算术推理和多项选择问答任务上取得了显著的性能提升。具体数据未知,但摘要强调了RLSF能够同时改进模型的概率估计(校准)和逐步推理能力。与需要人工标注或外部奖励的传统方法相比,RLSF展现出更高的效率和可扩展性。
🎯 应用场景
RLSF具有广泛的应用前景,可用于提升LLM在各种需要高可靠性的任务中的表现,例如医疗诊断、金融分析、法律咨询等。通过提高LLM的校准性,可以使其在决策支持系统中发挥更重要的作用,并降低因模型误判而造成的风险。此外,RLSF的自监督特性使其更易于部署和扩展到不同的领域。
📄 摘要(原文)
Large Language Models (LLMs) often produce plausible but poorly-calibrated answers, limiting their reliability on reasoning-intensive tasks. We present Reinforcement Learning from Self-Feedback (RLSF), a post-training stage that uses the model's own confidence as an intrinsic reward, mimicking how humans learn in the absence of external feedback. After a frozen LLM generates several chain-of-thought solutions, we define and compute the confidence of each final answer span and rank the traces accordingly. These synthetic preferences are then used to fine-tune the policy with standard preference optimization, similar to RLHF yet requiring no human labels, gold answers, or externally curated rewards. RLSF simultaneously (i) refines the model's probability estimates -- restoring well-behaved calibration -- and (ii) strengthens step-by-step reasoning, yielding improved performance on arithmetic reasoning and multiple-choice question answering. By turning a model's own uncertainty into useful self-feedback, RLSF affirms reinforcement learning on intrinsic model behaviour as a principled and data-efficient component of the LLM post-training pipeline and warrents further research in intrinsic rewards for LLM post-training.