Post-Training Large Language Models via Reinforcement Learning from Self-Feedback

作者: Carel van Niekerk, Renato Vukovic, Benjamin Matthias Ruppik, Hsien-chin Lin, Milica Gašić

分类: cs.CL, cs.AI

发布日期: 2025-07-29

💡 一句话要点

提出基于自反馈强化学习的LLM后训练方法，提升校准性和推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 自反馈 后训练 校准 推理 内在奖励

📋 核心要点

现有LLM在推理任务中表现出校准不良的问题，影响其可靠性，需要有效方法提升。
RLSF利用模型自身置信度作为内在奖励，通过强化学习优化，无需人工标注或外部数据。
实验表明，RLSF能有效提升LLM的校准性和推理能力，尤其在算术推理和问答任务中。

📝 摘要（中文）

大型语言模型(LLM)通常生成看似合理但校准不良的答案，限制了其在推理密集型任务中的可靠性。本文提出了一种基于自反馈强化学习(RLSF)的后训练方法，该方法使用模型自身的置信度作为内在奖励，模仿人类在缺乏外部反馈时的学习方式。在冻结的LLM生成多个思维链解决方案后，我们定义并计算每个最终答案跨度的置信度，并相应地对轨迹进行排序。然后，这些合成偏好被用于通过标准偏好优化来微调策略，类似于RLHF，但不需要人工标注、黄金答案或外部策划的奖励。RLSF同时(i)改进了模型的概率估计——恢复了良好的校准——并且(ii)加强了逐步推理，从而提高了算术推理和多项选择问答的性能。通过将模型自身的不确定性转化为有用的自反馈，RLSF肯定了基于内在模型行为的强化学习是LLM后训练管道中一个有原则且数据高效的组成部分，并保证了对LLM后训练内在奖励的进一步研究。

🔬 方法详解

问题定义：现有大型语言模型（LLM）在生成答案时，虽然表面上看起来合理，但往往校准性较差，即模型给出的概率置信度与其真实准确率不匹配。这限制了LLM在需要高度可靠性的推理密集型任务中的应用。现有方法，如RLHF，依赖于人工标注或外部奖励，成本高昂且难以扩展。

核心思路：RLSF的核心在于利用模型自身的置信度作为内在奖励信号，进行强化学习。其模仿了人类在缺乏外部反馈时，通过自我评估和反思来学习的过程。通过将模型的不确定性转化为可利用的反馈，RLSF旨在提升模型的校准性和推理能力。

技术框架：RLSF包含以下主要阶段： 1. 生成阶段：冻结的LLM针对给定问题生成多个思维链（Chain-of-Thought, CoT）解决方案。 2. 置信度评估阶段：定义并计算每个最终答案跨度的置信度。置信度计算方法未知，但应能反映模型对答案的确定程度。 3. 偏好排序阶段：根据置信度对生成的轨迹进行排序，形成合成偏好数据集。 4. 强化学习阶段：使用标准偏好优化算法（类似于RLHF），利用合成偏好数据集微调策略网络。

关键创新：RLSF的关键创新在于使用模型自身的置信度作为内在奖励，无需人工标注或外部数据。这使得后训练过程更加数据高效且易于扩展。此外，RLSF通过优化模型的内在行为，同时提升了校准性和推理能力，而不仅仅是针对特定任务进行优化。

关键设计：论文中未明确给出置信度计算方法的具体细节，这可能是影响RLSF性能的关键因素。偏好优化算法的选择也可能影响最终效果。此外，如何设计合适的奖励函数，以平衡校准性和推理能力之间的关系，也是一个重要的设计考量。

🖼️ 关键图片

📊 实验亮点

RLSF在算术推理和多项选择问答任务上取得了显著的性能提升。具体数据未知，但摘要强调了RLSF能够同时改进模型的概率估计（校准）和逐步推理能力。与需要人工标注或外部奖励的传统方法相比，RLSF展现出更高的效率和可扩展性。

🎯 应用场景

RLSF具有广泛的应用前景，可用于提升LLM在各种需要高可靠性的任务中的表现，例如医疗诊断、金融分析、法律咨询等。通过提高LLM的校准性，可以使其在决策支持系统中发挥更重要的作用，并降低因模型误判而造成的风险。此外，RLSF的自监督特性使其更易于部署和扩展到不同的领域。

📄 摘要（原文）

Large Language Models (LLMs) often produce plausible but poorly-calibrated answers, limiting their reliability on reasoning-intensive tasks. We present Reinforcement Learning from Self-Feedback (RLSF), a post-training stage that uses the model's own confidence as an intrinsic reward, mimicking how humans learn in the absence of external feedback. After a frozen LLM generates several chain-of-thought solutions, we define and compute the confidence of each final answer span and rank the traces accordingly. These synthetic preferences are then used to fine-tune the policy with standard preference optimization, similar to RLHF yet requiring no human labels, gold answers, or externally curated rewards. RLSF simultaneously (i) refines the model's probability estimates -- restoring well-behaved calibration -- and (ii) strengthens step-by-step reasoning, yielding improved performance on arithmetic reasoning and multiple-choice question answering. By turning a model's own uncertainty into useful self-feedback, RLSF affirms reinforcement learning on intrinsic model behaviour as a principled and data-efficient component of the LLM post-training pipeline and warrents further research in intrinsic rewards for LLM post-training.

Post-Training Large Language Models via Reinforcement Learning from Self-Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理