Real-Time Diffusion Policies for Games: Enhancing Consistency Policies with Q-Ensembles

📄 arXiv: 2503.16978v1 📥 PDF

作者: Ruoqi Zhang, Ziwei Luo, Jens Sjölund, Per Mattsson, Linus Gisslén, Alessandro Sestini

分类: cs.AI

发布日期: 2025-03-21


💡 一句话要点

CPQE:结合Q-Ensembles的一致性策略,实现游戏AI实时扩散策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 一致性模型 Q-Ensembles 强化学习 实时策略 游戏AI 不确定性估计 价值函数

📋 核心要点

  1. 现有扩散模型推理速度慢,难以满足实时游戏需求;一致性模型虽然能单步生成,但在策略学习中训练不稳定且性能下降。
  2. CPQE的核心思想是结合一致性模型与Q-Ensembles,利用Q-Ensembles进行不确定性估计,从而提供更可靠的价值函数近似。
  3. 实验结果表明,CPQE在多个游戏场景中实现了高达60Hz的推理速度,显著优于现有扩散策略,并保持了与多步扩散方法相当的性能。

📝 摘要(中文)

扩散模型在捕捉游戏智能体的复杂和多模态动作分布方面表现出色,但其推理速度慢,难以在实时游戏环境中实际部署。一致性模型为单步生成提供了一种有前景的方法,但应用于策略学习时,常常面临训练不稳定和性能下降的问题。本文提出了CPQE(Consistency Policy with Q-Ensembles),它将一致性模型与Q-Ensembles相结合来应对这些挑战。CPQE利用Q-Ensembles的不确定性估计来提供更可靠的价值函数近似,从而与经典双Q网络方法相比,实现了更好的训练稳定性和更高的性能。在多个游戏场景中的大量实验表明,CPQE实现了高达60 Hz的推理速度——与仅以20 Hz运行的最新扩散策略相比,这是一个显著的改进——同时保持了与多步扩散方法相当的性能。CPQE始终优于最新的基于一致性模型的方法,在整个学习过程中表现出更高的奖励和更强的训练稳定性。这些结果表明,CPQE为在游戏和其他实时应用中部署基于扩散的策略提供了一种实用的解决方案,在这些应用中,多模态行为建模和快速推理都是至关重要的要求。

🔬 方法详解

问题定义:论文旨在解决在实时游戏环境中部署扩散模型策略时,推理速度慢和训练不稳定性的问题。现有的扩散模型虽然能捕捉复杂动作分布,但推理速度不足以支持实时交互。一致性模型虽然能加速推理,但在策略学习中容易出现训练崩溃和性能下降。

核心思路:论文的核心思路是将一致性模型与Q-Ensembles相结合。Q-Ensembles通过提供价值函数的不确定性估计,能够更准确地评估策略,从而稳定训练过程并提升策略性能。一致性模型负责快速生成动作,Q-Ensembles负责提供可靠的价值评估。

技术框架:CPQE的整体框架包含两个主要部分:一致性策略网络和Q-Ensembles。一致性策略网络负责根据当前状态生成动作,Q-Ensembles由多个独立的Q函数组成,用于评估给定状态-动作对的价值。训练过程中,一致性策略网络的目标是生成与Q-Ensembles评估价值高的动作。

关键创新:CPQE的关键创新在于将Q-Ensembles引入到一致性策略学习中。Q-Ensembles提供的不确定性估计能够有效缓解训练过程中的过拟合和价值函数估计偏差,从而提高训练的稳定性和策略的性能。与传统的双Q网络方法相比,Q-Ensembles能够提供更准确的价值函数近似。

关键设计:CPQE的关键设计包括:1) 使用多个独立的Q函数构成Q-Ensembles,以提供更鲁棒的价值估计;2) 使用一致性损失函数训练策略网络,使其生成与Q-Ensembles评估价值高的动作;3) 探索不同的Q-Ensembles规模和训练策略,以优化性能和稳定性。具体的损失函数和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CPQE在多个游戏场景中实现了高达60Hz的推理速度,显著优于现有扩散策略的20Hz。同时,CPQE的性能与多步扩散方法相当,并且优于最新的基于一致性模型的方法,在训练过程中表现出更高的奖励和更强的训练稳定性。这些结果验证了CPQE在实时性和性能方面的优势。

🎯 应用场景

CPQE具有广泛的应用前景,尤其是在需要实时交互和复杂行为建模的领域,例如游戏AI、机器人控制、自动驾驶等。该方法能够提升智能体在复杂环境中的决策能力,使其能够更快、更稳定地学习到高质量的策略。此外,CPQE还可以应用于其他需要快速推理和多模态行为生成的任务中。

📄 摘要(原文)

Diffusion models have shown impressive performance in capturing complex and multi-modal action distributions for game agents, but their slow inference speed prevents practical deployment in real-time game environments. While consistency models offer a promising approach for one-step generation, they often suffer from training instability and performance degradation when applied to policy learning. In this paper, we present CPQE (Consistency Policy with Q-Ensembles), which combines consistency models with Q-ensembles to address these challenges.CPQE leverages uncertainty estimation through Q-ensembles to provide more reliable value function approximations, resulting in better training stability and improved performance compared to classic double Q-network methods. Our extensive experiments across multiple game scenarios demonstrate that CPQE achieves inference speeds of up to 60 Hz -- a significant improvement over state-of-the-art diffusion policies that operate at only 20 Hz -- while maintaining comparable performance to multi-step diffusion approaches. CPQE consistently outperforms state-of-the-art consistency model approaches, showing both higher rewards and enhanced training stability throughout the learning process. These results indicate that CPQE offers a practical solution for deploying diffusion-based policies in games and other real-time applications where both multi-modal behavior modeling and rapid inference are critical requirements.