Mastering Chinese Chess AI (Xiangqi) Without Search

📄 arXiv: 2410.04865v1 📥 PDF

作者: Yu Chen, Juntong Lin, Zhichao Shu

分类: cs.LG, cs.AI

发布日期: 2024-10-07


💡 一句话要点

提出一种无需搜索的中国象棋AI,性能媲美顶尖人类棋手

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 中国象棋AI 无搜索算法 深度学习 强化学习 Transformer PPO VECT 棋类游戏

📋 核心要点

  1. 传统中国象棋AI依赖搜索算法,计算复杂度高,QPS受限。
  2. 提出一种无需搜索的AI架构,通过监督学习和强化学习训练,直接评估棋局。
  3. 实验表明,该AI性能媲美顶尖人类棋手,QPS远超传统搜索算法。

📝 摘要(中文)

本文提出了一种高性能的中国象棋AI,该AI无需依赖搜索算法即可运行,并且已经展示出与顶尖0.1%人类棋手相匹敌的竞技水平。通过消除传统系统中的搜索过程,该AI实现了远超基于蒙特卡洛树搜索(MCTS)算法的系统上千倍,以及超越基于AlphaBeta剪枝算法系统上百倍的每秒查询数(QPS)。该AI训练系统由两部分组成:监督学习和强化学习。监督学习提供了一个初始的、类人的中国象棋AI,而基于监督学习的强化学习将整个AI的强度提升到一个新的水平。基于该训练系统,我们进行了充分的消融实验,并发现:1. 在中国象棋中,相同参数量的Transformer架构比CNN具有更高的性能;2. 将双方可能的走法作为特征可以极大地改善训练过程;3. 与纯粹的自博弈训练相比,选择性的对手池能够带来更快的改进曲线和更高的强度上限;4. 带有截断值估计(VECT)改进了原始PPO算法的训练过程,并给出了相应的解释。

🔬 方法详解

问题定义:现有中国象棋AI主要依赖于搜索算法,如AlphaBeta剪枝和蒙特卡洛树搜索(MCTS)。这些算法需要大量的计算资源来搜索可能的棋局,导致QPS较低,难以满足实时对弈的需求。因此,需要一种无需搜索的AI架构,能够在保证性能的同时,显著提高QPS。

核心思路:本文的核心思路是利用深度学习模型直接评估棋局的价值,避免了传统的搜索过程。通过监督学习从人类棋谱中学习棋局评估的先验知识,然后利用强化学习进行自我博弈,不断提升棋局评估的准确性。这种方法类似于AlphaZero,但针对中国象棋的特点进行了优化。

技术框架:该AI训练系统包含两个主要阶段:监督学习和强化学习。首先,使用大量人类棋谱进行监督学习,训练一个初始的棋局评估模型。然后,基于该模型,使用近端策略优化(PPO)算法进行强化学习,通过自我博弈不断提升模型的性能。在强化学习过程中,采用了选择性对手池和带有截断值估计(VECT)的PPO算法。

关键创新:该论文的关键创新在于提出了一种无需搜索的中国象棋AI架构,并针对中国象棋的特点进行了优化。具体包括:1. 采用Transformer架构,相比CNN具有更高的性能;2. 将双方可能的走法作为特征,显著改善了训练过程;3. 采用选择性对手池,加速了训练过程并提高了强度上限;4. 提出了带有截断值估计(VECT)的PPO算法,进一步提升了训练效果。

关键设计:在网络结构方面,采用了Transformer架构,并针对中国象棋的特点进行了调整。在特征工程方面,除了棋盘状态外,还加入了双方可能的走法作为特征。在强化学习方面,采用了PPO算法,并提出了带有截断值估计(VECT)的改进版本。VECT的具体实现细节未知,论文中提到会给出解释,但摘要中未详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该AI的性能媲美顶尖0.1%的人类棋手。在QPS方面,该AI超过基于蒙特卡洛树搜索(MCTS)算法的系统上千倍,以及超越基于AlphaBeta剪枝算法系统上百倍。消融实验验证了Transformer架构、双方可能的走法特征、选择性对手池和VECT算法的有效性。

🎯 应用场景

该研究成果可应用于中国象棋AI对弈平台、中国象棋教学辅助系统等领域。无需搜索的AI架构可以显著提高响应速度,提升用户体验。此外,该研究方法也可以推广到其他棋类游戏,甚至更广泛的决策问题中,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

We have developed a high-performance Chinese Chess AI that operates without reliance on search algorithms. This AI has demonstrated the capability to compete at a level commensurate with the top 0.1\% of human players. By eliminating the search process typically associated with such systems, this AI achieves a Queries Per Second (QPS) rate that exceeds those of systems based on the Monte Carlo Tree Search (MCTS) algorithm by over a thousandfold and surpasses those based on the AlphaBeta pruning algorithm by more than a hundredfold. The AI training system consists of two parts: supervised learning and reinforcement learning. Supervised learning provides an initial human-like Chinese chess AI, while reinforcement learning, based on supervised learning, elevates the strength of the entire AI to a new level. Based on this training system, we carried out enough ablation experiments and discovered that 1. The same parameter amount of Transformer architecture has a higher performance than CNN on Chinese chess; 2. Possible moves of both sides as features can greatly improve the training process; 3. Selective opponent pool, compared to pure self-play training, results in a faster improvement curve and a higher strength limit. 4. Value Estimation with Cutoff(VECT) improves the original PPO algorithm training process and we will give the explanation.