RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance
作者: Tianlang Chen, Minkai Xu, Jure Leskovec, Stefano Ermon
分类: cs.CL, cs.LG
发布日期: 2025-09-29
备注: 27 pages, 3 figures, 2 tables
💡 一句话要点
提出RFG:一种免奖励引导的扩散大语言模型推理测试时缩放方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 大语言模型 推理引导 免奖励学习 测试时缩放 数学推理 代码生成
📋 核心要点
- 自回归语言模型依赖密集标注的奖励模型引导推理,但扩散模型中间状态部分掩码,难以应用。
- RFG通过增强模型和参考模型的对数似然比参数化过程奖励,无需显式奖励模型即可引导推理。
- 实验表明,RFG在数学推理和代码生成任务上显著提升了多种扩散模型的性能,最高提升9.2%。
📝 摘要(中文)
扩散大语言模型(dLLMs)在大型语言建模中展现出巨大潜力,人们越来越关注通过逐步引导推理过程来进一步提高其解决复杂问题的能力。自回归语言模型的常见做法是学习一个过程奖励模型,并对每个中间步骤进行密集标注。然而,这对于dLLMs来说具有挑战性,因为它们的生成方式是任意顺序的,并且中间状态是部分掩码的句子。为此,本文提出了一种免奖励引导(RFG)方法,用于在没有显式过程奖励的情况下引导dLLMs的推理轨迹。RFG的关键思想是通过增强和参考dLLMs的对数似然比来参数化过程奖励,其中增强模型可以通过任何经过强化学习(RL)或监督微调(SFT)后训练的现成dLLM轻松获得。我们提供了理论证明,表明RFG在没有额外奖励的情况下诱导了奖励引导的采样分布。我们在四个具有挑战性的数学推理和代码生成基准上,使用各种经过不同后训练方法增强的dLLMs进行了全面的实验。RFG在所有任务和模型类型中始终产生显着改进,实现了高达9.2%的准确率提升。这些发现将RFG确立为一个通用的免训练框架,可以在不依赖外部奖励模型的情况下扩展测试时推理。
🔬 方法详解
问题定义:现有自回归语言模型通常依赖于对中间推理步骤进行密集标注来训练奖励模型,从而引导模型的推理过程。然而,这种方法对于扩散大语言模型(dLLMs)来说是具有挑战性的,因为dLLMs的生成过程是任意顺序的,并且中间状态是部分掩码的句子,难以进行有效的奖励建模。因此,如何有效地引导dLLMs的推理过程,使其能够更好地解决复杂问题,是一个亟待解决的问题。
核心思路:RFG的核心思路是通过增强模型和参考模型的对数似然比来参数化过程奖励。具体来说,RFG利用一个经过强化学习(RL)或监督微调(SFT)后训练的增强dLLM,以及一个原始的参考dLLM。通过计算增强模型和参考模型在每个推理步骤上的对数似然比,RFG可以估计出一个隐式的过程奖励,而无需显式地训练奖励模型。这种方法避免了对中间推理步骤进行密集标注的需要,从而简化了训练过程。
技术框架:RFG的整体框架包括以下几个主要步骤:1)准备一个增强的dLLM和一个参考dLLM。增强的dLLM可以通过任何现成的后训练方法获得,例如强化学习或监督微调。2)在推理过程中,对于每个推理步骤,计算增强模型和参考模型在该步骤上的对数似然。3)使用对数似然比来参数化过程奖励。4)使用该奖励来引导dLLM的采样过程,从而生成更符合预期推理轨迹的输出。
关键创新:RFG最重要的技术创新点在于它提出了一种免奖励引导的方法,可以在没有显式过程奖励的情况下引导dLLMs的推理轨迹。与传统的需要训练奖励模型的方法相比,RFG避免了对中间推理步骤进行密集标注的需要,从而大大简化了训练过程。此外,RFG还提供了一种理论上的证明,表明它可以诱导奖励引导的采样分布,从而保证了其有效性。
关键设计:RFG的关键设计在于如何有效地利用增强模型和参考模型的对数似然比来参数化过程奖励。具体来说,RFG使用以下公式来计算过程奖励:r(x) = log p_enhanced(x) - log p_reference(x),其中p_enhanced(x)是增强模型在状态x上的概率,p_reference(x)是参考模型在状态x上的概率。此外,RFG还引入了一个缩放因子来控制奖励的强度,从而可以更好地调整推理轨迹。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RFG在四个具有挑战性的数学推理和代码生成基准上,显著提升了多种扩散模型的性能。例如,在某些任务上,RFG实现了高达9.2%的准确率提升。这些结果表明,RFG是一种有效的免奖励引导方法,可以显著提高扩散模型解决复杂问题的能力。
🎯 应用场景
RFG作为一种通用的免训练框架,可广泛应用于各种需要复杂推理能力的场景,如数学问题求解、代码生成、知识图谱推理等。它降低了扩散模型推理过程引导的成本,使得扩散模型能够更好地解决复杂问题,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
Diffusion large language models (dLLMs) have shown great potential in large-scale language modeling, and there is an increasing interest in further improving the capacity to solve complex problems by guiding the reasoning process step by step. Common practice for autoregressive language models typically learns a process reward model with dense annotation for each intermediate step. However, this is challenging for dLLMs where the generation is in an any-order fashion and intermediate states are partially masked sentences. To this end, in this paper, we propose reward-free guidance (RFG), a principled method for guiding the reasoning trajectory of dLLMs without explicit process reward. The key idea of RFG is to parameterize the process reward by log-likelihood ratios of the enhanced and reference dLLMs, where the enhanced model can be easily obtained by any off-the-shelf dLLM that has been post-trained with reinforcement learning (RL) or supervised fine-tuning (SFT). We provide theoretical justification that RFG induces the reward-guided sampling distribution with no additional reward. We conduct comprehensive experiments on four challenging mathematical reasoning and code generation benchmarks using a diverse suite of dLLMs enhanced with various post-training methods. RFG consistently yields significant improvements across all tasks and model types, achieving accuracy gains of up to 9.2%. These findings establish RFG as a general training-free framework that scales test-time reasoning without reliance on external reward models.