Power Distribution Bridges Sampling, Self-Reward RL, and Self-Distillation
作者: Akiyoshi Tomihari, Issei Sato
分类: cs.LG
发布日期: 2026-05-06
💡 一句话要点
提出Power自蒸馏方法,桥接采样、自奖励强化学习和自蒸馏,提升LLM推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 自蒸馏 Power采样 推理优化
📋 核心要点
- 现有研究对强化学习在提升LLM推理能力中的作用提出质疑,同时power采样等方法展现出提升LLM性能的潜力。
- 该论文核心思想是利用power分布桥接采样、自奖励KL正则化强化学习和自蒸馏,提出power自蒸馏方法。
- 实验结果表明,power自蒸馏能够匹配甚至超过power采样的性能,同时显著降低推理成本,验证了分析的有效性。
📝 摘要(中文)
最近的分析质疑强化学习(RL)是否对大型语言模型(LLM)中的强大推理能力负责。同时,蒸馏和推理时采样(包括power采样)已成为提高LLM性能的有效方法。然而,RL、蒸馏和采样之间的关系仍不清楚。本研究关注power分布,即power采样的目标分布,并表明power分布桥接了采样、自奖励KL正则化RL和自蒸馏。从采样的角度来看,我们表明,如果没有关于可能后缀的信息,廉价的局部近似无法重现序列级别的power。从RL的角度来看,当模型的序列级别对数概率用作奖励时,power分布是KL正则化RL的闭式优化器。这种识别导致了power自蒸馏,这是一种离线蒸馏替代方案,它共享相同的目标分布,并将power采样的成本分摊到教师样本的监督训练中。我们进一步表明,power自蒸馏可以实现自奖励锐化,而下游真实奖励的改进受power分布下真实奖励和自奖励之间的协方差控制。在推理任务上的实验支持了我们的分析:power采样提高了自奖励,真实奖励的增益取决于与自奖励的对齐,并且power自蒸馏可以以低得多的推理成本匹配或超过power采样的性能。
🔬 方法详解
问题定义:现有方法在提升LLM推理能力时,强化学习的作用尚不明确,且power采样等方法计算成本较高,难以大规模应用。因此,需要一种高效且理论完备的方法来提升LLM的推理能力,并理解采样、强化学习和蒸馏之间的关系。
核心思路:论文的核心思路是利用power分布作为桥梁,将采样、自奖励强化学习和自蒸馏联系起来。通过将power分布视为KL正则化强化学习的闭式解,并将其作为自蒸馏的目标分布,从而实现高效的知识迁移和推理能力提升。
技术框架:该方法主要包含以下几个关键部分:1) 分析power分布在采样中的作用,表明局部近似无法有效重现序列级别的power;2) 将power分布与KL正则化强化学习联系起来,证明其是奖励为序列级别对数概率时的最优解;3) 提出power自蒸馏方法,利用监督学习模拟power采样的结果,降低推理成本。
关键创新:该论文的关键创新在于发现了power分布在连接采样、自奖励强化学习和自蒸馏中的桥梁作用。通过理论分析和实验验证,证明了power自蒸馏方法能够以较低的计算成本实现与power采样相当甚至更好的性能。
关键设计:Power自蒸馏的关键设计包括:1) 使用模型的序列级别对数概率作为自奖励;2) 利用KL正则化强化学习框架,将power分布作为目标分布;3) 通过监督学习训练,将power采样的知识蒸馏到模型中,从而降低推理时的计算成本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,power采样能够提高自奖励,而真实奖励的提升取决于与自奖励的对齐程度。更重要的是,power自蒸馏方法能够在推理成本远低于power采样的情况下,达到甚至超过power采样的性能。这表明power自蒸馏是一种高效且实用的LLM推理能力提升方法。
🎯 应用场景
该研究成果可应用于各种需要提升LLM推理能力的场景,例如问答系统、代码生成、文本摘要等。通过power自蒸馏,可以在保证性能的同时,显著降低推理成本,使得LLM能够更广泛地应用于资源受限的环境中。此外,该研究也为理解强化学习、采样和蒸馏之间的关系提供了新的视角。
📄 摘要(原文)
Recent analyses question whether reinforcement learning (RL) is responsible for strong reasoning in large language models (LLMs). At the same time, distillation and inference-time sampling, including power sampling, have emerged as effective ways to improve LLM performance. However, the relationship among RL, distillation, and sampling remains unclear. In this study, we focus on the power distribution, the target distribution of power sampling, and show that the power distribution bridges sampling, self-reward KL-regularized RL, and self-distillation. From the sampling perspective, we show that inexpensive local approximations cannot reproduce sequence-level power without information about possible suffixes. From the RL perspective, the power distribution is the closed-form optimizer of KL-regularized RL when the model's sequence-level log-probabilities are used as the reward. This identification leads to power self-distillation, an offline distillation surrogate that shares the same target distribution and amortizes the cost of power sampling into supervised training on teacher samples. We further show that power self-distillation can achieve self-reward sharpening, while improvement in a downstream true reward is governed by the covariance between true reward and self-reward under the power distribution. Experiments on reasoning tasks support our analysis: power sampling raises self-reward, true-reward gains depend on alignment with self-reward, and power self-distillation can match or exceed the performance of power sampling at much lower inference cost.