Adaptive Decoding via Test-Time Policy Learning for Self-Improving Generation
作者: Asmita Bhardwaj, Yuya Jeremy Ong, Eelaaf Zahid, Basel Shbita
分类: cs.CL, cs.AI
发布日期: 2026-03-19
💡 一句话要点
提出基于强化学习的自适应解码策略,提升LLM在不同任务上的生成质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 自适应解码 大型语言模型 文本生成 策略学习
📋 核心要点
- 现有LLM解码策略(如贪婪搜索)缺乏任务自适应性,导致生成质量在不同领域表现不一致。
- 提出一种基于强化学习的解码器采样器,学习轻量级策略在测试时调整采样参数,实现自适应解码。
- 实验表明,该方法在摘要任务上显著优于现有基线,相对增益最高达+88%,证明了其有效性。
📝 摘要(中文)
大型语言模型(LLM)的解码策略很大程度上决定了输出质量,但常用的贪婪搜索或固定温度/top-p采样等启发式方法是静态的,且通常与任务无关,导致在需要风格或结构灵活性的领域中,生成质量欠佳或不一致。本文提出了一种基于强化学习的解码器采样器,它将解码视为序列决策过程,并学习一个轻量级策略,在测试时调整采样参数,同时保持LLM权重冻结。在BookSum、arXiv和WikiHow等摘要数据集上,使用Granite-3.3-2B和Qwen-2.5-0.5B进行了评估。结果表明,本文的策略采样器始终优于贪婪搜索和静态基线,相对增益高达+88%(BookSum,Granite)和+79%(WikiHow,Qwen)。奖励消融实验表明,仅重叠目标不如复合奖励,而结构化的塑造项(长度、覆盖率、重复率、完整性)能够实现稳定和持续的改进。这些发现表明,强化学习是解码中测试时自适应的一种实用机制,无需重新训练大型模型即可实现领域感知和用户可控的生成。
🔬 方法详解
问题定义:现有的大型语言模型解码策略,如贪婪搜索、固定温度采样等,是静态的、任务无关的,无法根据不同的任务和领域自适应地调整生成策略。这导致在需要风格或结构灵活性的任务中,生成质量往往不尽如人意。现有方法缺乏在测试时根据具体任务进行优化的能力,需要人工设计复杂的解码策略,成本高昂且效果有限。
核心思路:将解码过程建模为一个序列决策问题,利用强化学习训练一个轻量级的策略网络,该策略网络能够根据当前生成状态动态地调整解码参数(如温度、top-p等)。通过奖励函数引导策略网络学习生成高质量的文本,从而实现测试时自适应解码。核心在于利用强化学习的探索能力,自动寻找最优的解码策略,避免人工设计的局限性。
技术框架:整体框架包含一个预训练的LLM(权重固定)和一个强化学习策略网络。解码时,LLM根据策略网络输出的采样参数生成token,生成token后,环境会根据生成的文本计算奖励,并将奖励反馈给策略网络,用于更新策略。该过程循环进行,直到生成完整的文本。主要模块包括:LLM(生成模型)、策略网络(调整采样参数)、奖励函数(评估生成质量)、强化学习算法(更新策略网络)。
关键创新:最重要的创新点在于将强化学习引入到LLM的解码过程中,实现了测试时自适应解码。与传统的静态解码策略相比,该方法能够根据不同的任务和领域动态地调整解码参数,从而生成更高质量的文本。此外,该方法无需重新训练LLM,只需要训练一个轻量级的策略网络,大大降低了计算成本。
关键设计:奖励函数的设计至关重要,论文使用了复合奖励,包括重叠度、长度、覆盖率、重复率和完整性等指标。策略网络可以使用简单的神经网络结构,输入是LLM的隐藏状态,输出是采样参数。强化学习算法可以使用常见的策略梯度算法,如REINFORCE或PPO。关键参数包括学习率、奖励折扣因子、探索率等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在BookSum数据集上使用Granite模型取得了高达+88%的相对增益,在WikiHow数据集上使用Qwen模型取得了+79%的相对增益,显著优于贪婪搜索和静态基线。奖励消融实验表明,复合奖励优于仅重叠目标,结构化的塑造项能够实现稳定和持续的改进。这些结果充分证明了该方法的有效性和优越性。
🎯 应用场景
该研究成果可广泛应用于各种文本生成任务,如机器翻译、文本摘要、对话生成、代码生成等。通过自适应解码,可以显著提升生成文本的质量和多样性,改善用户体验。此外,该方法还可以用于个性化文本生成,根据用户的偏好和需求调整生成策略,生成更符合用户期望的文本。未来,该技术有望在智能客服、内容创作、教育等领域发挥重要作用。
📄 摘要(原文)
Decoding strategies largely determine the quality of Large Language Model (LLM) outputs, yet widely used heuristics such as greedy or fixed temperature/top-p decoding are static and often task-agnostic, leading to suboptimal or inconsistent generation quality across domains that demand stylistic or structural flexibility. We introduce a reinforcement learning-based decoder sampler that treats decoding as sequential decision-making and learns a lightweight policy to adjust sampling parameters at test-time while keeping LLM weights frozen. We evaluated summarization datasets including BookSum, arXiv, and WikiHow using Granite-3.3-2B and Qwen-2.5-0.5B. Our policy sampler consistently outperforms greedy and static baselines, achieving relative gains of up to +88% (BookSum, Granite) and +79% (WikiHow, Qwen). Reward ablations show that overlap-only objectives underperform compared to composite rewards, while structured shaping terms (length, coverage, repetition, completeness) enable stable and sustained improvements. These findings highlight reinforcement learning as a practical mechanism for test-time adaptation in decoding, enabling domain-aware and user-controllable generation without retraining large models.