Supervised Optimism Correction: Be Confident When LLMs Are Sure

作者: Junjie Zhang, Rushuai Yang, Shunyu Liu, Ting-En Lin, Fei Huang, Yi Chen, Yongbin Li, Dacheng Tao

分类: cs.CL

发布日期: 2025-04-10 (更新: 2025-05-30)

💡 一句话要点

提出监督乐观校正(SOC)方法，解决LLM中Beam Search的过度乐观问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 监督微调 Beam Search 过度乐观 Q-函数

📋 核心要点

现有Beam Search方法在LLM推理中存在过度乐观问题，导致次优步骤的Q值被高估，从而放大推理错误。
论文提出监督乐观校正(SOC)方法，通过辅助损失函数，在token级别进行Q值估计，抑制模型对未充分监督响应的过度乐观。
在GSM8K、MATH和GAOKAO等数学推理基准测试中，SOC方法与Beam Search结合，显著提升了开源模型的性能。

📝 摘要（中文）

本文在token级别的马尔可夫决策过程下，建立了监督微调和离线强化学习之间的新颖理论联系，揭示了大型语言模型在推理过程中确实学习了一个隐式的$Q$-函数。通过这个理论视角，我们证明了广泛使用的Beam Search方法存在不可接受的过度乐观问题，由于次优步骤的$Q$-值估计被夸大，推理错误不可避免地被放大。为了解决这个限制，我们提出了监督乐观校正(SOC)，它引入了一个简单而有效的辅助损失，用于监督微调期间的token级别$Q$-值估计。具体来说，辅助损失采用隐式值正则化来提高模型对专家演示响应的置信度，从而抑制对未充分监督响应的过度乐观。在包括GSM8K、MATH和GAOKAO在内的数学推理基准上的大量实验表明，所提出的SOC与Beam Search结合在一系列开源模型中具有优越性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在使用Beam Search进行推理时出现的过度乐观问题。现有的Beam Search方法倾向于选择具有较高Q值的token序列，即使这些序列在后续步骤中可能导致错误。这种过度乐观源于对次优步骤的Q值估计过高，从而导致推理错误被放大。

核心思路：论文的核心思路是通过监督微调期间的辅助损失函数来校正模型对Q值的估计。具体来说，论文提出了一种名为监督乐观校正(SOC)的方法，该方法通过隐式值正则化来提高模型对专家演示响应的置信度，从而抑制对未充分监督响应的过度乐观。

技术框架：SOC方法在标准的监督微调框架中添加了一个辅助损失函数。该辅助损失函数的目标是使模型对专家演示的token序列产生更高的Q值估计，同时降低对非专家演示的token序列的Q值估计。整个训练过程包括两个阶段：首先，使用标准的监督微调方法训练模型；然后，使用带有辅助损失函数的SOC方法对模型进行微调。在推理阶段，使用Beam Search算法，并结合模型预测的Q值来选择最佳的token序列。

关键创新：论文的关键创新在于建立了监督微调和离线强化学习之间的理论联系，并利用这种联系来解决Beam Search的过度乐观问题。通过引入辅助损失函数，SOC方法能够有效地校正模型对Q值的估计，从而提高推理的准确性。与现有方法相比，SOC方法不需要额外的训练数据或复杂的模型结构，易于实现和部署。

关键设计：SOC方法的关键设计在于辅助损失函数的形式。该损失函数采用隐式值正则化，通过最小化模型预测的Q值与专家演示Q值之间的差异来提高模型对专家演示的置信度。具体来说，辅助损失函数可以表示为：L_aux = -log(Q(s, a)) + λ * log(Q(s, a'))，其中Q(s, a)是专家演示的Q值，Q(s, a')是非专家演示的Q值，λ是一个超参数，用于控制正则化的强度。论文还探讨了不同的λ值对模型性能的影响，并给出了合理的取值范围。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在GSM8K、MATH和GAOKAO等数学推理基准测试中，SOC方法与Beam Search结合，显著提升了开源模型的性能。例如，在GSM8K数据集上，SOC方法将模型性能提高了5%以上。此外，实验还表明，SOC方法对不同的模型架构和超参数设置具有鲁棒性，易于推广到其他任务和数据集。

🎯 应用场景

该研究成果可广泛应用于需要高质量文本生成的场景，例如数学推理、代码生成、机器翻译和对话系统。通过校正LLM的过度乐观问题，可以提高生成文本的准确性和可靠性，从而提升用户体验和应用价值。未来，该方法有望扩展到其他类型的序列生成任务，并与其他优化技术相结合，进一步提高LLM的性能。

📄 摘要（原文）

In this work, we establish a novel theoretical connection between supervised fine-tuning and offline reinforcement learning under the token-level Markov decision process, revealing that large language models indeed learn an implicit $Q$-function for inference. Through this theoretical lens, we demonstrate that the widely used beam search method suffers from unacceptable over-optimism, where inference errors are inevitably amplified due to inflated $Q$-value estimations of suboptimal steps. To address this limitation, we propose Supervised Optimism Correction(SOC), which introduces a simple yet effective auxiliary loss for token-level $Q$-value estimations during supervised fine-tuning. Specifically, the auxiliary loss employs implicit value regularization to boost model confidence in expert-demonstrated responses, thereby suppressing over-optimism toward insufficiently supervised responses. Extensive experiments on mathematical reasoning benchmarks, including GSM8K, MATH, and GAOKAO, showcase the superiority of the proposed SOC with beam search across a series of open-source models.

Supervised Optimism Correction: Be Confident When LLMs Are Sure

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理