Reevaluating Policy Gradient Methods for Imperfect-Information Games

📄 arXiv: 2502.08938v2 📥 PDF

作者: Max Rudolph, Nathan Lichtle, Sobhan Mohammadpour, Alexandre Bayen, J. Zico Kolter, Amy Zhang, Gabriele Farina, Eugene Vinitsky, Samuel Sokota

分类: cs.LG

发布日期: 2025-02-13 (更新: 2025-07-19)

🔗 代码/项目: GITHUB | GITHUB


💡 一句话要点

重新评估策略梯度方法在不完美信息博弈中的有效性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 不完美信息博弈 深度强化学习 策略梯度 可利用性 PPO 虚构对弈 双重预言

📋 核心要点

  1. 现有基于虚构对弈、双重预言和反事实后悔最小化的深度强化学习方法,在不完美信息博弈中表现不尽如人意。
  2. 该研究提出,更简单的通用策略梯度方法,如PPO,可能优于或至少与上述复杂方法具有竞争力。
  3. 通过大规模实验,证明了通用策略梯度方法在不完美信息博弈中,性能优于基于虚构对弈、双重预言和反事实后悔最小化的方法。

📝 摘要(中文)

过去十年,受限于朴素自博弈深度强化学习(DRL)在对抗性不完美信息博弈中的失败,研究人员开发了大量基于虚构对弈(FP)、双重预言(DO)和反事实后悔最小化(CFR)的DRL算法。鉴于磁镜下降算法的最新成果,我们假设像PPO这样更简单的通用策略梯度方法可以与这些基于FP、DO和CFR的DRL方法竞争或优于它们。为了验证这一假设,我们实现并发布了首个广泛可访问的、针对四个大型博弈的精确可利用性计算。利用这些博弈,我们对不完美信息博弈的DRL算法进行了有史以来最大规模的可利用性比较。经过超过5600次的训练,我们发现基于FP、DO和CFR的方法未能优于通用策略梯度方法。

🔬 方法详解

问题定义:论文旨在解决不完美信息博弈中,现有基于虚构对弈(FP)、双重预言(DO)和反事实后悔最小化(CFR)的深度强化学习算法,相对于更简单的策略梯度方法是否具有优势的问题。现有方法的痛点在于,其复杂性可能导致训练不稳定,且未必能带来性能提升。

核心思路:论文的核心思路是,重新评估通用策略梯度方法(如PPO)在不完美信息博弈中的有效性,并假设它们可能优于或至少与更复杂的FP、DO和CFR方法具有竞争力。 这种假设基于最近磁镜下降算法的成果,暗示简单方法可能更有效。

技术框架:该研究的技术框架主要包括:1) 实现并发布了针对四个大型博弈的精确可利用性计算工具,用于评估不同算法的性能。2) 使用这些博弈,进行了大规模的DRL算法可利用性比较实验。3) 对比了通用策略梯度方法(如PPO)与基于FP、DO和CFR的方法。

关键创新:该研究的关键创新在于,它挑战了长期以来认为复杂算法在不完美信息博弈中优于简单算法的观点。通过大规模实验,证明了通用策略梯度方法在这些博弈中具有竞争力,甚至更优。此外,发布了可利用性计算工具,为后续研究提供了便利。

关键设计:论文的关键设计包括:1) 选择了四个大型不完美信息博弈作为实验平台。2) 实现了精确的可利用性计算,作为评估算法性能的指标。3) 进行了超过5600次的训练运行,以确保实验结果的统计显著性。4) 对比了PPO等通用策略梯度方法与基于FP、DO和CFR的多种算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在超过5600次的训练运行中,基于FP、DO和CFR的方法未能显著优于通用策略梯度方法(如PPO)。这表明,在不完美信息博弈中,更简单的算法可能更有效。该研究是迄今为止,针对不完美信息博弈的DRL算法进行的最大规模可利用性比较。

🎯 应用场景

该研究成果可应用于各种不完美信息博弈场景,例如自动驾驶决策、网络安全攻防、金融市场交易等。通过使用更简单的策略梯度方法,可以降低算法复杂度和训练成本,同时获得更好的性能。这有助于推动人工智能在这些领域的实际应用。

📄 摘要(原文)

In the past decade, motivated by the putative failure of naive self-play deep reinforcement learning (DRL) in adversarial imperfect-information games, researchers have developed numerous DRL algorithms based on fictitious play (FP), double oracle (DO), and counterfactual regret minimization (CFR). In light of recent results of the magnetic mirror descent algorithm, we hypothesize that simpler generic policy gradient methods like PPO are competitive with or superior to these FP-, DO-, and CFR-based DRL approaches. To facilitate the resolution of this hypothesis, we implement and release the first broadly accessible exact exploitability computations for four large games. Using these games, we conduct the largest-ever exploitability comparison of DRL algorithms for imperfect-information games. Over 5600 training runs, we find that FP-, DO-, and CFR-based approaches fail to outperform generic policy gradient methods. Code is available at https://github.com/nathanlct/IIG-RL-Benchmark and https://github.com/gabrfarina/exp-a-spiel .