Causal Reinforcement Learning for Complex Card Games: A Magic The Gathering Benchmark
作者: Cristiano da Costa Cunha, Ajmal Mian, Tim French, Wei Liu
分类: cs.LG, cs.AI
发布日期: 2026-05-07
备注: 21 pages, 8 figures, 9 tables, 1 algorithm
💡 一句话要点
提出MTG-Causal-RL基准,用于评估复杂卡牌游戏中因果强化学习算法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 因果强化学习 复杂卡牌游戏 万智牌 结构因果模型 基准测试
📋 核心要点
- 现有因果强化学习基准难以同时处理序列决策、隐藏信息和大型动作空间等复杂问题。
- 论文提出MTG-Causal-RL基准,利用万智牌游戏构建,包含显式因果结构和多种策略变量。
- 实验表明,提出的CGFA-PPO算法在胜率和策略可审计性方面优于现有基线方法。
📝 摘要(中文)
因果强化学习(RL)缺乏针对复杂系统的基准,这些系统结合了序列决策、隐藏信息、大型掩码动作空间和显式因果结构。我们引入了MTG-Causal-RL,这是一个基于万智牌构建的Gymnasium基准,具有3,077维的部分观测、478个动作的掩码离散动作空间、五个竞争性的标准原型、三种奖励方案以及一个手工指定的关于战略变量的结构因果模型(SCM)。每个episode都暴露因果变量、SCM预测的干预效果和每个因素的信用追踪,使得因果信用分配、留一法跨原型迁移和策略可审计性成为首要指标。我们调整了一组参考基线:随机、启发式、掩码PPO、因果世界模型PPO变体以及架构匹配的标量控制。我们提出了因果图分解优势PPO(CGFA-PPO)作为参考因果智能体,它使用胜率的SCM父节点作为因子对齐的评论家目标,并具有干预校准损失。所有比较都使用配对种子、配对bootstrap置信区间和预注册族内的Holm-Bonferroni校正。掩码PPO和CGFA-PPO达到了有竞争力的同分布胜率,并超过了随机基线;每个因素的校准轨迹和留一法迁移差距暴露了标量胜率无法单独揭示的诊断结构。我们公开了基准、参考基线结果和完整的评估协议。通过将策略丰富的、部分观察的领域与显式的因果接口和统计协议相结合,MTG-Causal-RL为因果RL、世界模型和LLM智能体研究提供了一个共享的测试平台,用于解决当前基准无法同时提出的问题:掩码动作空间下的因果信用分配、跨原型的结构迁移以及基于SCM的策略可审计性。
🔬 方法详解
问题定义:现有因果强化学习方法在复杂游戏中面临挑战,例如万智牌,其特点是部分可观察性、庞大的动作空间和复杂的因果关系。现有基准测试无法充分评估因果信用分配、跨策略迁移和策略可审计性。
核心思路:论文的核心思路是构建一个具有显式因果结构的复杂游戏环境(MTG-Causal-RL),并设计一种能够利用该因果结构进行学习的因果强化学习算法(CGFA-PPO)。通过显式地建模因果关系,可以更有效地进行信用分配,并提高策略的可解释性和可迁移性。
技术框架:MTG-Causal-RL基准包括以下几个关键组成部分:1) 万智牌游戏环境,具有3077维的部分观测和478个动作的掩码离散动作空间;2) 五个竞争性的标准原型;3) 三种奖励方案;4) 手工指定的结构因果模型(SCM),用于描述战略变量之间的因果关系。CGFA-PPO算法利用SCM中的信息,将胜率的SCM父节点作为因子对齐的评论家目标,并引入干预校准损失。
关键创新:论文的关键创新在于:1) 提出了MTG-Causal-RL基准,为因果强化学习提供了一个具有挑战性的测试平台;2) 设计了CGFA-PPO算法,能够有效地利用SCM中的因果信息进行学习。与现有方法相比,CGFA-PPO能够更好地进行因果信用分配,并提高策略的可解释性和可迁移性。
关键设计:CGFA-PPO的关键设计包括:1) 使用SCM父节点作为因子对齐的评论家目标,从而将因果信息融入到价值函数估计中;2) 引入干预校准损失,用于校准智能体的干预策略,使其与SCM预测的干预效果一致;3) 使用掩码PPO作为基础强化学习算法,以处理庞大的动作空间。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CGFA-PPO算法在MTG-Causal-RL基准上取得了显著的性能提升,达到了与Masked PPO相当的同分布胜率,并超过了随机基线。此外,通过分析每个因素的校准轨迹和留一法迁移差距,可以揭示标量胜率无法单独揭示的诊断结构,从而更好地理解智能体的行为。
🎯 应用场景
该研究成果可应用于需要复杂决策和因果推理的领域,例如:金融交易、医疗诊断、自动驾驶等。通过利用因果关系进行学习,可以提高决策的准确性和可靠性,并增强系统的可解释性和可控性。此外,该基准可以促进因果强化学习、世界模型和LLM智能体等领域的研究。
📄 摘要(原文)
Causal reinforcement learning (RL) lacks benchmarks for complex systems that combine sequential decision making, hidden information, large masked action spaces, and explicit causal structure. We introduce MTG-Causal-RL, a Gymnasium benchmark built on Magic: The Gathering with a 3,077-dimensional partial observation, a 478-action masked discrete action space, five competitive Standard archetypes, three reward schemes, and a hand-specified Structural Causal Model (SCM) over strategic variables. Every episode exposes causal variables, SCM-predicted intervention effects, and per-factor credit traces, making causal credit assignment, leave-one-out cross-archetype transfer, and policy auditability first-class metrics. We adapt a panel of reference baselines: random, heuristic, masked PPO, a causal-world-model PPO variant, and an architecture-matched scalar control. We propose Causal Graph-Factored Advantage PPO (CGFA-PPO) as a reference causal agent that uses SCM parents of win probability as factor-aligned critic targets with an intervention-calibration loss. All comparisons use paired seeds, paired-bootstrap confidence intervals, and Holm-Bonferroni correction within pre-registered families. Masked PPO and CGFA-PPO reach competitive in-distribution win rates and exceed the random baseline; per-factor calibration trajectories and leave-one-out transfer gaps expose diagnostic structure that scalar win rate alone cannot. We release the benchmark, reference-baseline results, and full evaluation protocol openly. By coupling a strategically rich, partially observed domain with an explicit causal interface and statistical protocol, MTG-Causal-RL gives causal-RL, world-model, and LLM-agent research a shared testbed for questions current benchmarks cannot pose together: causal credit assignment under masked action spaces, structural transfer across archetypes, and SCM-grounded policy auditability.