Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening
作者: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou Ammar
分类: cs.LG, cs.AI
发布日期: 2026-01-29
💡 一句话要点
提出可扩展的Power Sampling方法,通过分布锐化实现LLM高效无训练推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理加速 分布锐化 Power Sampling 无训练推理
📋 核心要点
- 现有强化学习后训练方法提升LLM推理性能,但计算成本高昂,且增益主要来自分布锐化。
- 论文提出一种基于token级别缩放低温分布的Power Sampling方法,无需训练和验证器,实现分布锐化。
- 实验表明,该方法在数学、QA和代码任务上,性能匹配或超过one-shot GRPO,且推理延迟降低10倍以上。
📝 摘要(中文)
强化学习(RL)后训练是提升大型语言模型(LLM)推理性能的主流方法,但越来越多的证据表明,其增益主要来自分布锐化,而非获得新能力。先前研究表明,使用马尔可夫链蒙特卡洛(MCMC)从LLM的幂分布中采样,可以恢复与RL后训练相当的性能,而无需外部奖励;然而,MCMC的高计算成本使得这种方法难以广泛应用。本文提出了一种理论上合理的替代方案,消除了对迭代MCMC的需求。我们推导出一个新的公式,表明全局幂分布可以近似为token级别的缩放低温分布,其中缩放因子捕获了未来轨迹的质量。利用这一洞察力,我们引入了一种无需训练和验证器的算法,以自回归方式锐化基础模型的生成分布。在数学、QA和代码任务上,我们评估了四种LLM上的方法,结果表明,我们的方法在不依赖任何外部奖励的情况下,匹配或超过了one-shot GRPO,同时与基于MCMC的采样相比,降低了10倍以上的推理延迟。
🔬 方法详解
问题定义:现有方法,特别是基于MCMC的Power Sampling方法,虽然能够提升LLM的推理能力,但由于MCMC的迭代特性,计算成本非常高,限制了其在实际场景中的应用。因此,如何降低Power Sampling的计算复杂度,使其能够高效地应用于大规模LLM推理是一个关键问题。
核心思路:论文的核心思路是,将全局的Power分布近似为token级别的缩放低温分布。通过理论推导,论文证明了可以使用一个缩放因子来捕获未来轨迹的质量,从而避免了使用MCMC进行迭代采样。这种近似使得可以在自回归生成过程中,以更高效的方式锐化LLM的生成分布。
技术框架:该方法主要包含以下几个阶段:1)理论推导:推导出全局Power分布与token级别缩放低温分布之间的关系。2)算法设计:基于上述理论,设计一种无需训练和验证器的自回归采样算法。3)模型推理:在LLM的自回归生成过程中,使用该算法对token的概率分布进行锐化。
关键创新:最重要的技术创新点在于,通过理论推导,将全局Power分布的计算简化为token级别的局部计算,从而避免了使用MCMC进行全局优化。这种简化极大地降低了计算复杂度,使得Power Sampling方法可以应用于大规模LLM推理。
关键设计:关键设计包括:1)缩放因子的计算方式,该因子用于捕获未来轨迹的质量。2)低温参数的选择,该参数用于控制分布锐化的程度。3)自回归采样算法的具体实现,需要保证在每一步生成token时,都能够高效地计算和应用缩放后的低温分布。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在数学、QA和代码任务上,性能匹配或超过了one-shot GRPO,同时与基于MCMC的采样相比,推理延迟降低了10倍以上。这一结果表明,该方法在保证性能的同时,显著提升了推理效率,具有很强的竞争力。
🎯 应用场景
该研究成果可广泛应用于需要高效推理的大型语言模型应用中,例如智能客服、自动代码生成、数学问题求解等。通过降低推理延迟,可以提升用户体验,并降低部署成本。此外,该方法无需训练,可以直接应用于已有的预训练模型,具有很强的实用价值。
📄 摘要(原文)
Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.