Learning Adaptive LLM Decoding

📄 arXiv: 2603.09065v1 📥 PDF

作者: Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya Ghai

分类: cs.LG

发布日期: 2026-03-10


💡 一句话要点

提出自适应LLM解码方法,通过强化学习动态调整采样策略以提升性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自适应解码 大型语言模型 强化学习 采样策略 上下文bandit

📋 核心要点

  1. 现有LLM解码方法采用固定采样超参数,无法适应不同任务和解码步骤的难度变化。
  2. 提出学习自适应解码策略,通过强化学习训练轻量级适配器,动态选择采样策略。
  3. 实验表明,该方法在MATH和CodeContests基准测试上显著提高了准确率-预算的权衡。

📝 摘要(中文)

本文提出了一种自适应LLM解码策略,旨在解决大型语言模型(LLM)解码过程中固定采样超参数(如温度、top-p)的问题,这些超参数无法适应不同prompt的任务难度和不确定性。该方法学习自适应解码策略,根据可用的计算资源动态选择采样策略。通过强化学习训练轻量级的解码适配器,并使用可验证的终端奖励(如数学和编码任务的正确性),而非微调语言模型本身。在序列层面,将解码视为上下文bandit问题,策略根据prompt嵌入和平行采样预算为每个prompt选择解码策略(如贪婪、top-k、min-p)。在token层面,将解码建模为部分可观察马尔可夫决策过程(POMDP),策略根据内部模型特征和剩余token预算在每个token步骤选择采样动作。在MATH和CodeContests基准测试上的实验表明,学习到的适配器提高了准确率-预算的权衡。在MATH上,token级适配器在固定token预算下,Pass@1准确率比最佳静态基线提高了10.2%,而序列级适配器在固定平行采样下产生了2-3%的增益。消融分析支持序列级和token级自适应的贡献。

🔬 方法详解

问题定义:现有大型语言模型在解码时通常采用固定的采样超参数,例如温度和top-p值。这种静态的采样策略无法根据不同prompt的难度和模型在不同解码步骤中的不确定性进行调整,导致性能受限。尤其是在计算资源有限的情况下,如何有效地利用预算进行解码是一个挑战。

核心思路:本文的核心思路是学习一种自适应的解码策略,该策略能够根据当前prompt的特征和可用的计算资源,动态地选择合适的采样方法。通过强化学习训练一个轻量级的解码适配器,使其能够根据模型的内部状态和外部环境,智能地调整采样策略,从而在给定的计算预算下最大化解码的准确率。

技术框架:整体框架包含两个层面的自适应:序列层面和token层面。在序列层面,将解码过程建模为一个上下文bandit问题,策略根据prompt的嵌入表示和平行采样预算,选择一个合适的解码策略(例如,贪婪解码、top-k采样、min-p采样)。在token层面,将解码过程建模为一个部分可观察马尔可夫决策过程(POMDP),策略根据模型的内部特征和剩余的token预算,在每个token生成步骤中选择采样动作。这两个层面的策略共同作用,实现自适应的解码。

关键创新:最重要的创新点在于提出了一个可学习的自适应解码框架,该框架能够根据prompt和解码过程的动态变化,智能地调整采样策略。与传统的固定采样方法相比,该方法能够更好地利用计算资源,提高解码的准确率。此外,使用强化学习训练解码适配器,避免了对原始语言模型进行微调,降低了计算成本。

关键设计:在序列层面,使用prompt的嵌入表示作为bandit算法的上下文信息,并设计奖励函数来衡量解码结果的质量。在token层面,使用模型的内部特征(例如,隐藏状态)作为POMDP的状态信息,并设计奖励函数来鼓励生成高质量的token序列。强化学习算法的选择和超参数的调整对最终性能至关重要。具体使用的强化学习算法和奖励函数的设计细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在MATH和CodeContests基准测试上取得了显著的性能提升。在MATH数据集上,token级别的自适应解码器在固定token预算下,Pass@1准确率比最佳静态基线提高了高达10.2%。序列级别的自适应解码器在固定并行采样预算下,也获得了2-3%的性能提升。消融实验验证了序列级别和token级别自适应解码器的有效性。

🎯 应用场景

该研究成果可应用于各种需要高效利用计算资源的自然语言生成任务,例如机器翻译、文本摘要、代码生成等。通过自适应地调整解码策略,可以在有限的计算预算下提高生成质量,降低部署成本。未来,该方法有望推广到其他类型的生成模型和任务中,实现更智能、更高效的自然语言生成。

📄 摘要(原文)

Decoding from large language models (LLMs) typically relies on fixed sampling hyperparameters (e.g., temperature, top-p), despite substantial variation in task difficulty and uncertainty across prompts and individual decoding steps. We propose to learn adaptive decoding policies that dynamically select sampling strategies at inference time, conditioned on available compute resources. Rather than fine-tuning the language model itself, we introduce lightweight decoding adapters trained with reinforcement learning and verifiable terminal rewards (e.g. correctness on math and coding tasks). At the sequence level, we frame decoding as a contextual bandit problem: a policy selects a decoding strategy (e.g. greedy, top-k, min-p) for each prompt, conditioned on the prompt embedding and a parallel sampling budget. At the token level, we model decoding as a partially observable Markov decision process (POMDP), where a policy selects sampling actions at each token step based on internal model features and the remaining token budget. Experiments on the MATH and CodeContests benchmarks show that the learned adapters improve the accuracy-budget tradeoff: on MATH, the token-level adapter improves Pass@1 accuracy by up to 10.2% over the best static baseline under a fixed token budget, while the sequence-level adapter yields 2-3% gains under fixed parallel sampling. Ablation analyses support the contribution of both sequence- and token-level adaptation.