The Missing Piece in Pre-trained Model Evaluation: Reward-Guided Decoding Unlocks Task-Oriented Behavior Without Parameter Updates

📄 arXiv: 2605.28020v1 📥 PDF

作者: Shaobo Wang, Guo Chen, Ziyue Wang, Zhengyang Tang, Qingyang Liu, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang

分类: cs.CL

发布日期: 2026-05-27

备注: 26 pages, 5 figures, 8 tables


💡 一句话要点

提出能量引导解码(EBD),无需参数更新即可激活预训练LLM的任务导向行为。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 能量引导解码 预训练模型 任务导向行为 奖励模型 零样本学习 推理时优化 语言模型评估

📋 核心要点

  1. 现有预训练LLM在标准解码下难以遵循指令,导致评估结果无法准确反映模型真实能力,且依赖昂贵的后训练。
  2. 论文提出能量引导解码(EBD),利用轻量级奖励模型引导解码过程,使模型生成更符合任务导向的响应,无需参数更新。
  3. 实验表明,EBD在多个模型和基准测试中显著优于现有方法,例如在AlpacaEval2.0上大幅提升Qwen3-8B-Base的性能。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,可靠地评估预训练LLMs的能力变得越来越重要。现有的挑战在于,基础预训练模型针对下一个token预测进行优化,在标准提示和直接解码下,通常无法遵循指令或产生结构良好的答案。因此,基准测试性能可能会将模型能力与解码引起的任务导向输出失败混淆,而暴露这种行为通常依赖于昂贵的后训练。最近的仅解码方法试图重塑输出分布,但这些方法在开放式任务中可能效率低下且脆弱。为了解决这些限制,我们提出了一种基于能量的解码(EBD)框架,这是一种无需训练、奖励引导的方法,用于激活冻结预训练LLMs在开放式和目标任务中的任务导向行为。EBD通过外部轻量级奖励模型增强解码,引导生成朝着高实用性的响应发展,同时通过奖励倾斜的目标分布将它们锚定到预训练模型先验。我们表明,EBD将基础模型输出转变为更符合指令的行为,提高了与后训练模型的行为相似性,并实现了对可访问的预训练模型行为的更公平的推理时评估。在经验上,EBD在五个模型和六个基准测试中优于基线,将Qwen3-8B-Base在AlpacaEval2.0上的性能从8.8提高到44.5,相对于先前的解码工作,将Mistral-7B Math500的延迟降低了18.9倍,并且对奖励模型大小保持鲁棒性。

🔬 方法详解

问题定义:现有预训练语言模型(LLMs)虽然具备强大的语言能力,但在直接解码时,往往难以生成符合指令或任务要求的输出。这使得评估预训练模型的真实能力变得困难,因为解码过程中的失败会掩盖模型本身的潜力。此外,传统的解决方法通常依赖于代价高昂的后训练过程,限制了模型的应用范围。

核心思路:论文的核心思路是利用一个轻量级的奖励模型,在解码过程中引导LLM生成更符合任务导向的输出。通过将奖励信号融入到解码过程中,可以有效地激活预训练模型中潜在的任务执行能力,而无需对模型参数进行任何更新。这种方法旨在弥合预训练目标(next-token prediction)与实际任务需求之间的差距。

技术框架:EBD框架主要包含以下几个核心组件:1) 预训练LLM:作为生成模型的主体,负责生成文本序列。2) 奖励模型:评估生成文本的质量或与任务的相关性,输出奖励值。3) 能量函数:结合预训练模型的概率分布和奖励模型的输出,定义一个能量函数,用于指导解码过程。4) 解码算法:基于能量函数,选择概率高且奖励高的token序列。整体流程是,在每个解码步骤中,EBD根据能量函数计算每个token的得分,并选择得分最高的token作为下一个生成的token。

关键创新:EBD的关键创新在于其训练自由(training-free)的特性和奖励引导的解码方式。与需要大量训练数据的后训练方法不同,EBD可以直接应用于冻结的预训练模型,无需任何参数更新。通过奖励模型引导解码,EBD能够有效地激活预训练模型中潜在的任务执行能力,从而生成更符合任务要求的输出。此外,EBD通过能量函数将预训练模型的先验知识和奖励信号相结合,确保生成的文本既符合语言模型的概率分布,又能够满足任务需求。

关键设计:EBD的关键设计包括:1) 奖励模型的选择:可以使用现有的预训练奖励模型,也可以根据具体任务训练一个轻量级的奖励模型。2) 能量函数的定义:能量函数通常定义为预训练模型概率的负对数加上奖励值的加权和。权重参数控制奖励信号对解码过程的影响程度。3) 解码算法:可以使用各种解码算法,如贪婪解码、束搜索等。论文中可能使用了特定的解码算法来优化性能。4) 奖励缩放:为了保证解码的稳定性,可能需要对奖励值进行缩放,以避免奖励信号过强或过弱。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EBD在多个基准测试中取得了显著的性能提升。例如,在AlpacaEval2.0上,EBD将Qwen3-8B-Base的性能从8.8提高到44.5,提升幅度巨大。此外,EBD还显著降低了Mistral-7B在Math500任务上的延迟,相对于先前的解码方法降低了18.9倍。实验结果表明,EBD能够有效地激活预训练模型的任务导向行为,并具有良好的鲁棒性。

🎯 应用场景

EBD具有广泛的应用前景,可用于提升各种预训练LLM在零样本或少样本场景下的任务执行能力,例如问答、文本摘要、代码生成等。该方法无需参数更新,降低了应用成本,并能有效激活模型潜力,尤其适用于资源受限的场景。未来可应用于智能客服、内容创作、教育辅导等领域。

📄 摘要(原文)

With the rapid progress of large language models (LLMs), reliably evaluating the capabilities of pre-trained LLMs has become increasingly important. The challenge is that base pre-trained models are optimized for next-token prediction and often fail to follow instructions or produce well-formed answers under standard prompting and direct decoding. As a result, benchmark performance can conflate model capability with decoding-induced failures to produce task-oriented outputs, while exposing such behavior often relies on costly post-training. Recent decodingonly approaches attempt to reshape output distributions, but such methods can be inefficient and brittle across open-ended tasks. To address these limitations, we propose Energy-Based Decoding (EBD), a training-free, reward-guided framework for activating task-oriented behaviors from frozen pre-trained LLMs across both open-ended and objective tasks. EBD augments decoding with an external lightweight reward model, steering generations toward high-utility responses while anchoring them to the pre-trained model prior through a reward-tilted target distribution. We show that EBD shifts base-model outputs toward more instructionfollowing behavior, increasing behavioral similarity to post-trained counterparts and enabling a fairer inference-time evaluation of accessible pre-trained-model behavior. Empirically, EBD outperforms baselines across five models and six benchmarks, improving Qwen3-8B-Base on AlpacaEval2.0 from 8.8 to 44.5, reducing Mistral-7B Math500 latency by 18.9x relative to prior decoding work, and remaining robust to reward-model size.