Adaptive Decoding via Test-Time Policy Learning for Self-Improving Generation

作者: Asmita Bhardwaj, Yuya Jeremy Ong, Eelaaf Zahid, Basel Shbita

分类: cs.CL, cs.AI

发布日期: 2026-03-19

💡 一句话要点

提出基于强化学习的自适应解码策略，提升LLM在不同任务上的生成质量

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 自适应解码 大型语言模型 文本生成 策略学习

📋 核心要点

现有LLM解码策略（如贪婪搜索）缺乏任务自适应性，导致生成质量在不同领域表现不一致。
提出一种基于强化学习的解码器采样器，学习轻量级策略在测试时调整采样参数，实现自适应解码。
实验表明，该方法在摘要任务上显著优于现有基线，相对增益最高达+88%，证明了其有效性。

📝 摘要（中文）

大型语言模型（LLM）的解码策略很大程度上决定了输出质量，但常用的贪婪搜索或固定温度/top-p采样等启发式方法是静态的，且通常与任务无关，导致在需要风格或结构灵活性的领域中，生成质量欠佳或不一致。本文提出了一种基于强化学习的解码器采样器，它将解码视为序列决策过程，并学习一个轻量级策略，在测试时调整采样参数，同时保持LLM权重冻结。在BookSum、arXiv和WikiHow等摘要数据集上，使用Granite-3.3-2B和Qwen-2.5-0.5B进行了评估。结果表明，本文的策略采样器始终优于贪婪搜索和静态基线，相对增益高达+88%（BookSum，Granite）和+79%（WikiHow，Qwen）。奖励消融实验表明，仅重叠目标不如复合奖励，而结构化的塑造项（长度、覆盖率、重复率、完整性）能够实现稳定和持续的改进。这些发现表明，强化学习是解码中测试时自适应的一种实用机制，无需重新训练大型模型即可实现领域感知和用户可控的生成。

🔬 方法详解

问题定义：现有的大型语言模型解码策略，如贪婪搜索、固定温度采样等，是静态的、任务无关的，无法根据不同的任务和领域自适应地调整生成策略。这导致在需要风格或结构灵活性的任务中，生成质量往往不尽如人意。现有方法缺乏在测试时根据具体任务进行优化的能力，需要人工设计复杂的解码策略，成本高昂且效果有限。

核心思路：将解码过程建模为一个序列决策问题，利用强化学习训练一个轻量级的策略网络，该策略网络能够根据当前生成状态动态地调整解码参数（如温度、top-p等）。通过奖励函数引导策略网络学习生成高质量的文本，从而实现测试时自适应解码。核心在于利用强化学习的探索能力，自动寻找最优的解码策略，避免人工设计的局限性。

技术框架：整体框架包含一个预训练的LLM（权重固定）和一个强化学习策略网络。解码时，LLM根据策略网络输出的采样参数生成token，生成token后，环境会根据生成的文本计算奖励，并将奖励反馈给策略网络，用于更新策略。该过程循环进行，直到生成完整的文本。主要模块包括：LLM（生成模型）、策略网络（调整采样参数）、奖励函数（评估生成质量）、强化学习算法（更新策略网络）。

关键创新：最重要的创新点在于将强化学习引入到LLM的解码过程中，实现了测试时自适应解码。与传统的静态解码策略相比，该方法能够根据不同的任务和领域动态地调整解码参数，从而生成更高质量的文本。此外，该方法无需重新训练LLM，只需要训练一个轻量级的策略网络，大大降低了计算成本。

关键设计：奖励函数的设计至关重要，论文使用了复合奖励，包括重叠度、长度、覆盖率、重复率和完整性等指标。策略网络可以使用简单的神经网络结构，输入是LLM的隐藏状态，输出是采样参数。强化学习算法可以使用常见的策略梯度算法，如REINFORCE或PPO。关键参数包括学习率、奖励折扣因子、探索率等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在BookSum数据集上使用Granite模型取得了高达+88%的相对增益，在WikiHow数据集上使用Qwen模型取得了+79%的相对增益，显著优于贪婪搜索和静态基线。奖励消融实验表明，复合奖励优于仅重叠目标，结构化的塑造项能够实现稳定和持续的改进。这些结果充分证明了该方法的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于各种文本生成任务，如机器翻译、文本摘要、对话生成、代码生成等。通过自适应解码，可以显著提升生成文本的质量和多样性，改善用户体验。此外，该方法还可以用于个性化文本生成，根据用户的偏好和需求调整生成策略，生成更符合用户期望的文本。未来，该技术有望在智能客服、内容创作、教育等领域发挥重要作用。

📄 摘要（原文）

Decoding strategies largely determine the quality of Large Language Model (LLM) outputs, yet widely used heuristics such as greedy or fixed temperature/top-p decoding are static and often task-agnostic, leading to suboptimal or inconsistent generation quality across domains that demand stylistic or structural flexibility. We introduce a reinforcement learning-based decoder sampler that treats decoding as sequential decision-making and learns a lightweight policy to adjust sampling parameters at test-time while keeping LLM weights frozen. We evaluated summarization datasets including BookSum, arXiv, and WikiHow using Granite-3.3-2B and Qwen-2.5-0.5B. Our policy sampler consistently outperforms greedy and static baselines, achieving relative gains of up to +88% (BookSum, Granite) and +79% (WikiHow, Qwen). Reward ablations show that overlap-only objectives underperform compared to composite rewards, while structured shaping terms (length, coverage, repetition, completeness) enable stable and sustained improvements. These findings highlight reinforcement learning as a practical mechanism for test-time adaptation in decoding, enabling domain-aware and user-controllable generation without retraining large models.

Adaptive Decoding via Test-Time Policy Learning for Self-Improving Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理