Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients
作者: Matias Alvo, Daniel Russo, Yash Kanoria
分类: cs.LG, cs.AI, math.OC, stat.ML
发布日期: 2026-05-14
💡 一句话要点
提出混合策略优化(HPO)算法,解决混合离散-连续动作空间中的强化学习问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 强化学习 混合动作空间 策略梯度 混合梯度 路径梯度 得分函数梯度 机器人控制 库存控制
📋 核心要点
- 传统策略梯度方法在处理高维混合动作空间时,面临严重的信用分配问题,导致梯度质量下降。
- HPO算法结合路径梯度和得分函数梯度,在保证无偏性的前提下,利用模拟器的可微性进行反向传播。
- 实验表明,HPO在库存控制和切换线性二次调节器问题上显著优于PPO,尤其是在高维连续动作空间中。
📝 摘要(中文)
本文研究混合离散-连续动作空间中的强化学习,例如离散组件选择一种模式(或索引),而连续组件在其中进行优化的场景——这种结构在机器人、控制和运营问题中很常见。标准的无模型策略梯度方法依赖于得分函数(SF)估计器,并在高维环境中遭受严重的信用分配问题,导致梯度质量差。另一方面,可微仿真通过模拟器进行反向传播,在很大程度上规避了这些问题,但离散动作或非光滑动力学的存在会产生有偏或无信息的梯度。为了解决这个问题,我们提出了混合策略优化(HPO),它在平滑性允许的情况下通过模拟器进行反向传播,使用混合梯度估计器,该估计器结合了路径梯度和SF梯度,同时保持无偏性。我们还展示了如何以混合形式重新表述具有动作不连续性的问题,进一步拓宽了其适用性。在库存控制和切换线性二次调节器问题上,HPO明显优于PPO,并且随着连续动作维度的增长,性能差距也在增大。最后,我们描述了混合梯度的结构,表明它的交叉项——它捕捉了连续动作如何影响未来的离散决策——在接近离散最佳响应时变得可以忽略不计,从而能够近似地分散更新连续和离散组件,并减少接近最优时的方差。所有资源都可以在github.com/MatiasAlvo/hybrid-rl上找到。
🔬 方法详解
问题定义:论文旨在解决混合离散-连续动作空间中的强化学习问题。这类问题常见于机器人控制、运营管理等领域,其难点在于如何有效地学习既包含离散选择又包含连续控制的策略。现有方法,如基于得分函数(SF)的策略梯度方法,在高维空间中面临严重的信用分配问题,导致梯度质量差,难以训练出有效的策略。而依赖可微模拟的方法,在处理离散动作或非光滑动力学时,会产生有偏或无信息的梯度。
核心思路:论文的核心思路是结合路径梯度和得分函数梯度,提出一种混合梯度估计器。具体来说,在系统动力学平滑可微的部分,利用路径梯度进行反向传播,以获得更准确的梯度信息;在涉及离散动作或非光滑动力学的部分,则使用得分函数梯度。通过这种混合的方式,既能利用可微模拟的优势,又能避免其在处理离散动作时的局限性,从而获得更有效的策略梯度。
技术框架:HPO算法的整体框架如下:首先,根据当前策略选择离散动作和连续动作。然后,利用环境模拟器(如果可微)或真实环境执行动作,并获得奖励。接下来,计算混合梯度,该梯度由路径梯度和得分函数梯度两部分组成。最后,利用该梯度更新策略参数。该框架的关键在于混合梯度的计算,它需要根据环境的特性选择合适的梯度估计方法。
关键创新:HPO算法的关键创新在于混合梯度估计器的设计。与传统的策略梯度方法相比,HPO能够更有效地利用环境信息,从而获得更准确的梯度估计。此外,HPO还提出了一种将具有动作不连续性的问题重新表述为混合形式的方法,进一步拓宽了其适用性。
关键设计:HPO算法的关键设计包括:1) 混合梯度估计器的具体形式,需要根据具体问题进行调整,以平衡偏差和方差;2) 如何判断环境动力学是否可微,从而选择合适的梯度估计方法;3) 如何有效地结合路径梯度和得分函数梯度,以获得最佳的梯度估计效果。论文还提到,当接近离散最佳响应时,混合梯度的交叉项会变得很小,这使得可以近似地分散更新连续和离散组件,从而降低方差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HPO算法在库存控制和切换线性二次调节器问题上显著优于PPO算法。例如,在切换线性二次调节器问题中,随着连续动作维度的增加,HPO的性能提升更加明显。这表明HPO算法在高维连续动作空间中具有更强的优势。此外,论文还分析了混合梯度的结构,表明其交叉项在接近离散最佳响应时变得可以忽略不计,这为近似分散更新提供了理论依据。
🎯 应用场景
该研究成果可广泛应用于机器人控制、运营管理、金融交易等领域,尤其是在需要同时进行离散决策和连续控制的复杂系统中。例如,在机器人操作中,机器人可能需要先选择抓取哪个物体(离散动作),然后再调整抓取姿态(连续动作)。HPO算法可以帮助机器人更有效地学习这类复杂的控制策略,从而提高其操作效率和精度。此外,该算法还可以应用于库存管理、电力系统控制等领域,具有重要的实际应用价值。
📄 摘要(原文)
We study reinforcement learning in hybrid discrete-continuous action spaces, such as settings where the discrete component selects a regime (or index) and the continuous component optimizes within it -- a structure common in robotics, control, and operations problems. Standard model-free policy gradient methods rely on score-function (SF) estimators and suffer from severe credit-assignment issues in high-dimensional settings, leading to poor gradient quality. On the other hand, differentiable simulation largely sidesteps these issues by backpropagating through a simulator, but the presence of discrete actions or non-smooth dynamics yields biased or uninformative gradients. To address this, we propose Hybrid Policy Optimization (HPO), which backpropagates through the simulator wherever smoothness permits, using a mixed gradient estimator that combines pathwise and SF gradients while maintaining unbiasedness. We also show how problems with action discontinuities can be reformulated in hybrid form, further broadening its applicability. Empirically, HPO substantially outperforms PPO on inventory control and switched linear-quadratic regulator problems, with performance gaps increasing as the continuous action dimension grows. Finally, we characterize the structure of the mixed gradient, showing that its cross term -- which captures how continuous actions influence future discrete decisions -- becomes negligible near a discrete best response, thereby enabling approximate decentralized updates of the continuous and discrete components and reducing variance near optimality. All resources are available at github.com/MatiasAlvo/hybrid-rl.