Defeating the Training-Inference Mismatch via FP16

作者: Penghui Qi, Zichen Liu, Xiangxin Zhou, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-10-30

💡 一句话要点

使用FP16精度解决LLM强化学习微调中训练-推理不一致问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 微调 浮点精度 FP16 BF16 训练推理一致性 数值稳定性

📋 核心要点

大型语言模型强化学习微调面临训练与推理不一致问题，导致优化不稳定。
论文提出使用FP16浮点精度替代BF16，以减少舍入误差，提高训练一致性。
实验表明，FP16能显著提升优化稳定性、收敛速度和模型性能，且易于实现。

📝 摘要（中文）

大型语言模型（LLM）的强化学习（RL）微调经常由于训练和推理策略之间的数值不匹配而导致不稳定。虽然先前的工作试图通过算法校正或工程对齐来缓解这个问题，但我们表明其根本原因在于浮点精度本身。广泛采用的BF16虽然具有较大的动态范围，但会引入较大的舍入误差，从而破坏训练和推理之间的一致性。在这项工作中，我们证明简单地恢复到FP16可以有效地消除这种不匹配。这种改变很简单，完全受现代框架的支持，只需要几行代码的修改，并且不需要修改模型架构或学习算法。我们的结果表明，在不同的任务、算法和框架中使用FP16可以产生更稳定的优化、更快的收敛和更强的性能。我们希望这些发现能够促使人们更广泛地重新考虑RL微调中的精度权衡。

🔬 方法详解

问题定义：大型语言模型（LLM）通过强化学习（RL）进行微调时，由于训练和推理阶段使用的策略存在数值差异，导致训练过程不稳定。现有方法试图通过算法修正或工程对齐来缓解此问题，但效果有限，且增加了复杂性。根本原因在于BF16精度引入的较大舍入误差，破坏了训练和推理的一致性。

核心思路：论文的核心思路是直接修改浮点精度，使用FP16替代BF16。FP16虽然动态范围较小，但舍入误差也更小，从而能够更好地保持训练和推理策略的一致性，避免因数值差异导致的训练崩溃。这种方法简单直接，无需修改模型结构或学习算法。

技术框架：该方法无需特定的技术框架，只需在现有LLM强化学习微调流程中，将模型和优化器的数据类型设置为FP16即可。这通常只需要修改几行代码，并且现代深度学习框架（如PyTorch、TensorFlow）都原生支持FP16。整个流程与使用BF16时基本一致，无需额外步骤。

关键创新：该论文最重要的创新点在于发现了LLM强化学习微调中训练-推理不一致的根本原因在于浮点精度，并提出了一种简单有效的解决方案：使用FP16替代BF16。与现有方法相比，该方法无需复杂的算法修正或工程对齐，直接从数值精度层面解决了问题。

关键设计：关键设计在于选择FP16作为目标精度。虽然BF16具有更大的动态范围，但其舍入误差较大。FP16虽然动态范围较小，但对于LLM强化学习微调来说，其精度足以满足需求，并且能够显著减少舍入误差，从而提高训练稳定性。无需修改损失函数、网络结构等其他技术细节。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在各种任务、算法和框架下，使用FP16精度进行LLM强化学习微调能够获得更稳定的优化过程、更快的收敛速度和更强的模型性能。具体性能数据未在摘要中给出，但强调了FP16在不同场景下的普适性和有效性。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的强化学习微调领域，尤其是在需要高稳定性和快速收敛的场景下。通过简单地切换到FP16精度，可以显著提升模型性能，降低训练成本，加速模型迭代。该方法也为其他数值敏感型深度学习任务提供了借鉴，有助于更好地理解和解决训练过程中的数值稳定性问题。

📄 摘要（原文）

Reinforcement learning (RL) fine-tuning of large language models (LLMs) often suffers from instability due to the numerical mismatch between the training and inference policies. While prior work has attempted to mitigate this issue through algorithmic corrections or engineering alignments, we show that its root cause lies in the floating point precision itself. The widely adopted BF16, despite its large dynamic range, introduces large rounding errors that breaks the consistency between training and inference. In this work, we demonstrate that simply reverting to \textbf{FP16} effectively eliminates this mismatch. The change is simple, fully supported by modern frameworks with only a few lines of code change, and requires no modification to the model architecture or learning algorithm. Our results suggest that using FP16 uniformly yields more stable optimization, faster convergence, and stronger performance across diverse tasks, algorithms and frameworks. We hope these findings motivate a broader reconsideration of precision trade-offs in RL fine-tuning.

Defeating the Training-Inference Mismatch via FP16

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理