DiPRL: Learning Discrete Programmatic Policies via Architecture Entropy Regularization

📄 arXiv: 2605.18508v1 📥 PDF

作者: Chengpeng Hu, Yingqian Zhang, Hendrik Baier

分类: cs.LG, cs.AI

发布日期: 2026-05-18


💡 一句话要点

DiPRL:通过架构熵正则化学习离散程序化策略,提升强化学习任务性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 程序化强化学习 离散策略学习 架构熵正则化 可解释性 梯度优化

📋 核心要点

  1. 现有基于梯度的程序化强化学习方法在离散化时性能显著下降,因为事后离散化会丢弃优化信息。
  2. DiPRL通过程序化架构熵正则化,鼓励策略在训练过程中趋向离散,避免了单独的微调阶段。
  3. 实验表明,DiPRL在离散和连续强化学习任务中,通过可解释的程序化策略实现了强大的性能。

📝 摘要(中文)

程序化强化学习(PRL)通过将策略表示为人类可读和可编辑的程序,为深度强化学习提供了一种可解释的替代方案。虽然已经开发了基于梯度的方法来优化程序的连续松弛,但当将连续松弛转换回离散程序时,它们面临着显著的性能下降。事后离散化会丢弃程序中优化的分支和参数,从而导致策略表达能力的崩溃和任务性能的降低,进而导致需要额外的微调。为了克服这些限制,我们提出了可微离散程序化强化学习(DiPRL),这是一种学习程序化策略的方法,该策略在训练期间变得几乎离散,避免了单独的事后微调阶段。我们首先分析了基于梯度的方法的事后离散化引入的性能下降的内在风险。然后,我们引入了程序化架构熵正则化,它支持平滑的、可微的训练,鼓励收敛到离散程序。DiPRL保持了基于梯度的优化的效率,同时减轻了事后离散化的风险。我们在多个离散和连续RL任务上的实验表明,DiPRL可以通过可解释的程序化策略实现强大的性能。

🔬 方法详解

问题定义:现有程序化强化学习方法依赖于对程序结构的连续松弛表示进行梯度优化,然后在训练完成后进行离散化。这种事后离散化过程会导致信息损失,丢弃了在连续空间中学习到的优化分支和参数,从而导致策略性能显著下降,需要额外的微调。

核心思路:DiPRL的核心思路是在训练过程中,通过引入架构熵正则化,鼓励程序化策略逐渐趋向离散。这样,在训练结束时,策略已经接近一个离散程序,从而避免了事后离散化带来的性能损失。这种方法旨在保持梯度优化的效率,同时减轻离散化的风险。

技术框架:DiPRL的整体框架包括以下几个关键部分:1) 程序化策略表示:使用可微分的程序结构表示策略。2) 架构熵正则化:引入架构熵正则化项,鼓励策略的结构趋向离散。3) 梯度优化:使用梯度下降方法优化策略参数和结构。4) 强化学习训练循环:在强化学习环境中,通过与环境交互,收集经验数据,并使用收集到的数据更新策略。

关键创新:DiPRL最重要的技术创新点在于引入了程序化架构熵正则化。与传统的连续松弛方法不同,DiPRL在训练过程中直接优化离散程序结构,避免了事后离散化带来的信息损失。这种方法能够更有效地学习可解释的程序化策略。

关键设计:DiPRL的关键设计包括:1) 架构熵正则化项的设计:该正则化项旨在惩罚策略结构的复杂性,鼓励策略趋向于简单的离散结构。2) 正则化系数的调整:需要仔细调整正则化系数,以平衡策略的探索和利用。3) 梯度优化器的选择:选择合适的梯度优化器,以加速训练过程并提高策略的性能。4) 程序结构的表示方式:程序结构的表示方式需要支持可微分的操作,以便进行梯度优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiPRL在多个离散和连续强化学习任务上进行了评估,实验结果表明,DiPRL能够通过可解释的程序化策略实现强大的性能。与传统的基于梯度的方法相比,DiPRL能够显著提高策略的性能,并避免事后离散化带来的性能损失。具体的性能数据和提升幅度在论文中有详细的展示。

🎯 应用场景

DiPRL具有广泛的应用前景,尤其是在需要可解释性和可编辑性的强化学习任务中。例如,在机器人控制、游戏AI、自动驾驶等领域,可以使用DiPRL学习可解释的程序化策略,从而方便人类理解和修改。此外,DiPRL还可以应用于程序合成、代码生成等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Programmatic reinforcement learning (PRL) offers an interpretable alternative to deep reinforcement learning by representing policies as human-readable and -editable programs. While gradient-based methods have been developed to optimize continuous relaxations of programs, they face a significant performance drop when converting the continuous relaxations back into discrete programs. Post-hoc discretization can discard optimized branches and parameters in a program, which results in a collapse of policy expressivity and lowered task performance, leading in turn to a need for additional fine-tuning. To overcome these limitations, we propose Differentiable Discrete Programmatic Reinforcement Learning (DiPRL), a method that learns programmatic policies that become nearly discrete during training, avoiding a separate post-hoc fine-tuning stage. We first analyze the inherent risks of performance drop introduced by post-hoc discretization of gradient-based methods. Then, we introduce programmatic architecture entropy regularization, which enables smooth, differentiable training that encourages convergence toward a discrete program. DiPRL maintains the efficiency of gradient-based optimization while mitigating the risks of post-hoc discretization. Our experiments across multiple discrete and continuous RL tasks demonstrate that DiPRL can achieve strong performance via interpretable programmatic policies.