CHDP: Cooperative Hybrid Diffusion Policies for Reinforcement Learning in Parameterized Action Space
作者: Bingyi Liu, Jinbo He, Haiyong Shi, Enshu Wang, Weizhen Han, Jingxiang Hao, Peixi Wang, Zhuangzhuang Zhang
分类: cs.AI
发布日期: 2026-01-09
备注: Accepted by AAAI 2026
💡 一句话要点
提出CHDP框架,通过合作式混合扩散策略解决参数化动作空间强化学习问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 混合动作空间 强化学习 扩散策略 合作博弈 参数化动作空间 机器人控制 深度学习
📋 核心要点
- 混合动作空间强化学习面临策略表达能力有限和高维空间扩展性差的挑战。
- CHDP框架将问题视为合作博弈,利用离散和连续扩散策略的合作来建模复杂动作分布。
- 实验表明,CHDP在混合动作基准测试中显著优于现有方法,成功率提升高达19.3%。
📝 摘要(中文)
本文提出了一种用于解决混合动作空间(包含离散选择和连续参数)强化学习问题的合作混合扩散策略(CHDP)框架。CHDP将混合动作空间问题视为一个完全合作博弈,并采用两个合作智能体,分别利用离散和连续扩散策略。连续策略以离散动作的表示为条件,显式地建模它们之间的依赖关系。这种合作设计使扩散策略能够利用其表达能力来捕获各自动作空间中的复杂分布。为了缓解这种合作环境中同步策略更新引起的更新冲突,我们采用了一种促进协同适应的顺序更新方案。此外,为了提高在高维离散动作空间中学习的可扩展性,我们构建了一个将动作空间嵌入到低维潜在空间中的码本。这种映射使离散策略能够在紧凑的结构化空间中学习。最后,我们设计了一种基于Q函数的指导机制,以在训练期间将码本的嵌入与离散策略的表示对齐。在具有挑战性的混合动作基准测试中,CHDP的成功率比最先进的方法高出高达19.3%。
🔬 方法详解
问题定义:论文旨在解决混合动作空间强化学习问题,该问题同时包含离散动作选择和连续参数控制。现有方法通常难以有效地建模和优化这种混合空间,尤其是在高维情况下,存在策略表达能力不足和扩展性差的问题。
核心思路:论文的核心思路是将混合动作空间问题建模为一个完全合作博弈,并设计两个合作的智能体分别负责离散动作和连续参数的策略学习。通过让连续策略以离散动作的表示为条件,显式地建模了离散动作和连续参数之间的依赖关系,从而提升了策略的表达能力。
技术框架:CHDP框架包含两个主要模块:离散扩散策略模块和连续扩散策略模块。离散扩散策略负责学习离散动作的选择,连续扩散策略负责学习连续参数的控制。连续策略以离散策略的输出为条件,两者通过合作的方式共同完成任务。此外,框架还包含一个码本模块,用于将高维离散动作空间嵌入到低维潜在空间,以提高扩展性。最后,Q函数指导模块用于对齐码本嵌入和离散策略表示。
关键创新:CHDP的关键创新在于其合作式的混合扩散策略设计。与以往方法不同,CHDP不是简单地将离散和连续动作空间分开处理,而是通过合作的方式将它们紧密结合起来,从而更好地利用了各自的优势。此外,码本的引入和Q函数指导机制也有效地提高了在高维离散动作空间中的学习效率。
关键设计:CHDP采用顺序更新方案来缓解合作训练中的更新冲突。具体来说,先更新离散策略,然后以离散策略的输出为条件更新连续策略。码本的设计采用了自编码器的结构,将高维离散动作映射到低维潜在空间。Q函数指导机制通过最小化码本嵌入和离散策略表示之间的距离来实现对齐。
📊 实验亮点
实验结果表明,CHDP在多个具有挑战性的混合动作基准测试中显著优于现有方法。例如,在某个基准测试中,CHDP的成功率比最先进的方法高出高达19.3%。这些结果表明,CHDP框架能够有效地解决混合动作空间强化学习问题,并具有很强的竞争力。
🎯 应用场景
CHDP框架具有广泛的应用前景,例如机器人控制、游戏AI、自动驾驶等领域。在这些领域中,智能体通常需要同时做出离散的选择(例如,选择哪个物体抓取)和连续的控制(例如,控制机械臂的关节角度)。CHDP能够有效地建模和优化这种混合动作空间,从而提高智能体的决策能力和控制精度,实现更智能化的系统。
📄 摘要(原文)
Hybrid action space, which combines discrete choices and continuous parameters, is prevalent in domains such as robot control and game AI. However, efficiently modeling and optimizing hybrid discrete-continuous action space remains a fundamental challenge, mainly due to limited policy expressiveness and poor scalability in high-dimensional settings. To address this challenge, we view the hybrid action space problem as a fully cooperative game and propose a \textbf{Cooperative Hybrid Diffusion Policies (CHDP)} framework to solve it. CHDP employs two cooperative agents that leverage a discrete and a continuous diffusion policy, respectively. The continuous policy is conditioned on the discrete action's representation, explicitly modeling the dependency between them. This cooperative design allows the diffusion policies to leverage their expressiveness to capture complex distributions in their respective action spaces. To mitigate the update conflicts arising from simultaneous policy updates in this cooperative setting, we employ a sequential update scheme that fosters co-adaptation. Moreover, to improve scalability when learning in high-dimensional discrete action space, we construct a codebook that embeds the action space into a low-dimensional latent space. This mapping enables the discrete policy to learn in a compact, structured space. Finally, we design a Q-function-based guidance mechanism to align the codebook's embeddings with the discrete policy's representation during training. On challenging hybrid action benchmarks, CHDP outperforms the state-of-the-art method by up to $19.3\%$ in success rate.