Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces
作者: Haitong Ma, Ofir Nabati, Aviv Rosenberg, Bo Dai, Oran Lang, Idan Szpektor, Craig Boutilier, Na Li, Shie Mannor, Lior Shani, Guy Tenneholtz
分类: cs.LG
发布日期: 2025-09-26 (更新: 2025-10-01)
备注: 22 pages, 10 figures. Haitong Ma and Ofir Nabati contributed equally to this paper
💡 一句话要点
提出基于离散扩散策略的强化学习方法,解决组合动作空间问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 离散扩散模型 组合动作空间 策略镜像下降 策略优化
📋 核心要点
- 强化学习在处理大规模组合动作空间时面临挑战,现有方法难以有效扩展。
- 论文提出利用离散扩散模型作为强化学习策略,并通过策略镜像下降稳定训练过程。
- 实验表明,该方法在多个组合优化任务上取得了优于现有方法的性能和样本效率。
📝 摘要(中文)
本文提出了一种新的框架,用于训练离散扩散模型,使其成为复杂组合动作空间中高效的强化学习策略。核心创新在于高效的在线训练过程,确保策略改进的稳定性和有效性。通过利用策略镜像下降(PMD)定义理想的、正则化的目标策略分布,将策略更新转化为分布匹配问题,训练具有表达能力的扩散模型来复制这种稳定的目标。这种解耦方法稳定了学习过程,显著提高了训练性能。在包括DNA序列生成、宏动作强化学习和多智能体系统等一系列具有挑战性的组合基准测试中,该方法实现了最先进的结果和卓越的样本效率。实验表明,与其它基线方法相比,扩散策略获得了更优越的性能。
🔬 方法详解
问题定义:论文旨在解决强化学习在具有大规模组合动作空间环境下的应用难题。现有方法,如直接策略搜索或值函数方法,在面对指数级增长的动作空间时,往往难以有效探索和学习,导致训练效率低下,性能不佳。
核心思路:论文的核心思路是将强化学习策略建模为一个离散扩散过程。通过将策略学习转化为一个分布匹配问题,即训练扩散模型去拟合一个由策略镜像下降(PMD)产生的、正则化的目标策略分布,从而稳定策略更新过程。这种方法避免了直接在原始动作空间进行策略搜索,而是通过学习动作的生成过程来间接优化策略。
技术框架:整体框架包含以下几个主要阶段:1) 使用策略镜像下降(PMD)计算一个正则化的目标策略分布;2) 训练一个离散扩散模型,使其能够生成符合目标策略分布的动作;3) 使用训练好的扩散模型作为强化学习策略,与环境进行交互并收集数据;4) 重复以上步骤,不断优化策略。扩散模型和强化学习过程是解耦的,扩散模型负责策略的表达和生成,强化学习过程负责提供目标策略分布。
关键创新:最重要的技术创新点在于将离散扩散模型引入强化学习策略建模,并将其与策略镜像下降相结合。与传统的策略梯度方法或值函数方法相比,该方法能够更有效地处理大规模组合动作空间,并稳定策略更新过程。扩散模型强大的生成能力使得策略能够探索更广泛的动作空间,而策略镜像下降则保证了策略改进的单调性和稳定性。
关键设计:论文的关键设计包括:1) 使用离散扩散模型来表示策略,该模型通过逐步添加噪声到动作序列,然后学习逆向过程来生成动作;2) 使用策略镜像下降(PMD)来计算目标策略分布,PMD是一种保证策略改进的优化算法;3) 定义合适的损失函数来训练扩散模型,例如交叉熵损失或KL散度损失,以衡量生成动作分布与目标策略分布之间的差异;4) 针对不同的任务,设计合适的网络结构和超参数,例如扩散步数、噪声水平等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在DNA序列生成、宏动作强化学习和多智能体系统等多个基准测试中取得了显著的性能提升。例如,在DNA序列生成任务中,该方法生成的序列质量优于现有方法,并且具有更高的多样性。在宏动作强化学习任务中,该方法能够学习到更有效的宏动作序列,从而更快地达到目标。在多智能体系统中,该方法能够学习到更协调的策略,从而提高整体性能。
🎯 应用场景
该研究成果可广泛应用于需要处理大规模组合动作空间的实际问题,例如:药物发现、蛋白质设计、芯片设计、机器人运动规划、资源调度、推荐系统等。通过学习高效的策略,可以自动化地解决这些复杂问题,提高效率并降低成本。未来,该方法有望扩展到更复杂的环境和任务中,例如多智能体协作、持续学习等。
📄 摘要(原文)
Reinforcement learning (RL) struggles to scale to large, combinatorial action spaces common in many real-world problems. This paper introduces a novel framework for training discrete diffusion models as highly effective policies in these complex settings. Our key innovation is an efficient online training process that ensures stable and effective policy improvement. By leveraging policy mirror descent (PMD) to define an ideal, regularized target policy distribution, we frame the policy update as a distributional matching problem, training the expressive diffusion model to replicate this stable target. This decoupled approach stabilizes learning and significantly enhances training performance. Our method achieves state-of-the-art results and superior sample efficiency across a diverse set of challenging combinatorial benchmarks, including DNA sequence generation, RL with macro-actions, and multi-agent systems. Experiments demonstrate that our diffusion policies attain superior performance compared to other baselines.