Inpainting-Guided Policy Optimization for Diffusion Large Language Models

📄 arXiv: 2509.10396v1 📥 PDF

作者: Siyan Zhao, Mengchen Liu, Jing Huang, Miao Liu, Chenyu Wang, Bo Liu, Yuandong Tian, Guan Pang, Sean Bell, Aditya Grover, Feiyu Chen

分类: cs.LG

发布日期: 2025-09-12

备注: preprint; 21 pages


💡 一句话要点

提出IGPO:利用Inpainting引导扩散LLM的强化学习,提升数学问题求解能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 强化学习 大语言模型 Inpainting 策略优化 数学问题求解 样本效率 掩码语言模型

📋 核心要点

  1. 现有强化学习对齐LLM方法面临探索挑战,奖励稀疏且易浪费样本,尤其是在模型难以发现正确解时。
  2. IGPO利用dLLM的Inpainting能力,在采样时策略性地插入部分正确推理轨迹,引导探索并保留模型自身推理。
  3. 通过IGPO及其他技术,在数学基准测试中取得了显著提升,为全注意力掩码dLLM带来了新的最佳结果。

📝 摘要(中文)

本文提出了一种针对掩码扩散大语言模型(dLLM)的强化学习框架IGPO (Inpainting Guided Policy Optimization),旨在利用dLLM独特的Inpainting能力来指导探索过程。强化学习对齐LLM面临探索挑战,即稀疏奖励和模型难以发现正确解导致的样本浪费。IGPO通过在在线采样过程中策略性地插入部分ground-truth推理轨迹,引导探索到有希望的轨迹空间,同时保留模型自身的推理能力,从而弥合了监督微调和强化学习之间的差距。此外,论文还提出了在合成重写的简洁轨迹上进行监督微调,以更好地对齐dLLM的生成模式。结合基于熵的过滤等技术,该方法在GSM8K、Math500和AMC三个数学基准测试中取得了显著提升,为全注意力掩码dLLM带来了新的state-of-the-art结果。

🔬 方法详解

问题定义:论文旨在解决扩散大语言模型(dLLM)在强化学习对齐过程中,由于奖励稀疏和探索困难导致的样本效率低下的问题。现有的强化学习方法在应用于LLM时,常常因为模型难以找到正确的解而产生大量的无效样本,导致训练效率低下。尤其是在数学问题求解等任务中,模型需要进行复杂的推理过程,更容易陷入局部最优或无法收敛。

核心思路:论文的核心思路是利用dLLM的Inpainting能力来指导强化学习的探索过程。通过在模型生成过程中,策略性地插入部分正确的推理步骤(即ground-truth reasoning traces),可以引导模型向更有希望的轨迹空间探索,从而提高样本效率和最终性能。这种方法类似于在训练过程中给予模型一些“提示”,帮助它更快地找到正确的解。

技术框架:IGPO框架主要包含以下几个关键步骤:1) 使用dLLM生成推理轨迹;2) 在生成过程中,根据一定的策略,随机选择部分步骤进行Inpainting,即用ground-truth的推理步骤替换模型生成的步骤;3) 使用强化学习算法(如GRPO)对模型进行优化,目标是最大化奖励;4) 结合其他技术,如基于熵的过滤和在合成重写的简洁轨迹上进行监督微调,进一步提升模型性能。

关键创新:论文最重要的技术创新点在于将dLLM的Inpainting能力与强化学习相结合,提出了一种新的探索策略。与传统的强化学习方法相比,IGPO能够更有效地利用样本,避免了大量的无效探索。此外,论文还提出了在合成重写的简洁轨迹上进行监督微调,以更好地对齐dLLM的生成模式,进一步提升了模型性能。

关键设计:IGPO的关键设计包括:1) Inpainting策略:如何选择需要进行Inpainting的步骤?论文可能采用了随机选择或基于模型置信度的选择策略。2) 奖励函数:如何设计奖励函数来鼓励模型生成正确的推理轨迹?3) 合成重写的简洁轨迹:如何生成更符合dLLM生成模式的训练数据?4) 基于熵的过滤:如何利用熵来过滤掉质量较差的样本?这些细节对最终的性能至关重要,但具体实现细节需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IGPO在GSM8K、Math500和AMC三个数学基准测试中取得了显著提升,为全注意力掩码dLLM带来了新的state-of-the-art结果。具体性能数据和提升幅度需要在论文原文中查找。实验结果表明,IGPO能够有效地提高dLLM的推理能力和样本效率,使其在复杂任务中表现更出色。

🎯 应用场景

该研究成果可应用于各种需要复杂推理和决策的自然语言处理任务,例如数学问题求解、代码生成、知识图谱推理等。通过提高LLM的推理能力和样本效率,可以降低训练成本,并使LLM能够更好地解决实际问题。此外,该方法还可以推广到其他类型的生成模型,例如图像生成模型。

📄 摘要(原文)

Masked diffusion large language models (dLLMs) are emerging as promising alternatives to autoregressive LLMs, offering competitive performance while supporting unique generation capabilities such as inpainting. We explore how inpainting can inform RL algorithm design for dLLMs. Aligning LLMs with reinforcement learning faces an exploration challenge: sparse reward signals and sample waste when models fail to discover correct solutions. While this inefficiency affects LLMs broadly, dLLMs offer a distinctive opportunity--their inpainting ability can guide exploration. We introduce IGPO (Inpainting Guided Policy Optimization), an RL framework that strategically inserts partial ground-truth reasoning traces during online sampling. Unlike providing full solutions, inpainting steers exploration toward promising trajectory spaces while preserving self-generated reasoning, bridging supervised fine-tuning and reinforcement learning. We apply IGPO to group-based optimization methods such as GRPO, where exploration failures cause zero advantages and gradients. IGPO restores meaningful gradients while improving sample efficiency. We also propose supervised fine-tuning on synthetically rewritten concise traces that better align with dLLM generation patterns. With additional techniques including entropy-based filtering, our training recipe yields substantial gains across three mathematical benchmarks--GSM8K, Math500, and AMC--achieving new state-of-the-art results for full-attention masked dLLMs.