Mastering Chinese Chess AI (Xiangqi) Without Search

作者: Yu Chen, Juntong Lin, Zhichao Shu

分类: cs.LG, cs.AI

发布日期: 2024-10-07

💡 一句话要点

提出一种无需搜索的中国象棋AI，性能媲美顶尖人类棋手

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 中国象棋AI 无搜索算法 深度学习 强化学习 Transformer PPO VECT 棋类游戏

📋 核心要点

传统中国象棋AI依赖搜索算法，计算复杂度高，QPS受限。
提出一种无需搜索的AI架构，通过监督学习和强化学习训练，直接评估棋局。
实验表明，该AI性能媲美顶尖人类棋手，QPS远超传统搜索算法。

📝 摘要（中文）

本文提出了一种高性能的中国象棋AI，该AI无需依赖搜索算法即可运行，并且已经展示出与顶尖0.1%人类棋手相匹敌的竞技水平。通过消除传统系统中的搜索过程，该AI实现了远超基于蒙特卡洛树搜索（MCTS）算法的系统上千倍，以及超越基于AlphaBeta剪枝算法系统上百倍的每秒查询数（QPS）。该AI训练系统由两部分组成：监督学习和强化学习。监督学习提供了一个初始的、类人的中国象棋AI，而基于监督学习的强化学习将整个AI的强度提升到一个新的水平。基于该训练系统，我们进行了充分的消融实验，并发现：1. 在中国象棋中，相同参数量的Transformer架构比CNN具有更高的性能；2. 将双方可能的走法作为特征可以极大地改善训练过程；3. 与纯粹的自博弈训练相比，选择性的对手池能够带来更快的改进曲线和更高的强度上限；4. 带有截断值估计（VECT）改进了原始PPO算法的训练过程，并给出了相应的解释。

🔬 方法详解

问题定义：现有中国象棋AI主要依赖于搜索算法，如AlphaBeta剪枝和蒙特卡洛树搜索（MCTS）。这些算法需要大量的计算资源来搜索可能的棋局，导致QPS较低，难以满足实时对弈的需求。因此，需要一种无需搜索的AI架构，能够在保证性能的同时，显著提高QPS。

核心思路：本文的核心思路是利用深度学习模型直接评估棋局的价值，避免了传统的搜索过程。通过监督学习从人类棋谱中学习棋局评估的先验知识，然后利用强化学习进行自我博弈，不断提升棋局评估的准确性。这种方法类似于AlphaZero，但针对中国象棋的特点进行了优化。

技术框架：该AI训练系统包含两个主要阶段：监督学习和强化学习。首先，使用大量人类棋谱进行监督学习，训练一个初始的棋局评估模型。然后，基于该模型，使用近端策略优化（PPO）算法进行强化学习，通过自我博弈不断提升模型的性能。在强化学习过程中，采用了选择性对手池和带有截断值估计（VECT）的PPO算法。

关键创新：该论文的关键创新在于提出了一种无需搜索的中国象棋AI架构，并针对中国象棋的特点进行了优化。具体包括：1. 采用Transformer架构，相比CNN具有更高的性能；2. 将双方可能的走法作为特征，显著改善了训练过程；3. 采用选择性对手池，加速了训练过程并提高了强度上限；4. 提出了带有截断值估计（VECT）的PPO算法，进一步提升了训练效果。

关键设计：在网络结构方面，采用了Transformer架构，并针对中国象棋的特点进行了调整。在特征工程方面，除了棋盘状态外，还加入了双方可能的走法作为特征。在强化学习方面，采用了PPO算法，并提出了带有截断值估计（VECT）的改进版本。VECT的具体实现细节未知，论文中提到会给出解释，但摘要中未详细说明。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该AI的性能媲美顶尖0.1%的人类棋手。在QPS方面，该AI超过基于蒙特卡洛树搜索（MCTS）算法的系统上千倍，以及超越基于AlphaBeta剪枝算法系统上百倍。消融实验验证了Transformer架构、双方可能的走法特征、选择性对手池和VECT算法的有效性。

🎯 应用场景

该研究成果可应用于中国象棋AI对弈平台、中国象棋教学辅助系统等领域。无需搜索的AI架构可以显著提高响应速度，提升用户体验。此外，该研究方法也可以推广到其他棋类游戏，甚至更广泛的决策问题中，具有重要的实际应用价值和未来发展潜力。

📄 摘要（原文）

We have developed a high-performance Chinese Chess AI that operates without reliance on search algorithms. This AI has demonstrated the capability to compete at a level commensurate with the top 0.1\% of human players. By eliminating the search process typically associated with such systems, this AI achieves a Queries Per Second (QPS) rate that exceeds those of systems based on the Monte Carlo Tree Search (MCTS) algorithm by over a thousandfold and surpasses those based on the AlphaBeta pruning algorithm by more than a hundredfold. The AI training system consists of two parts: supervised learning and reinforcement learning. Supervised learning provides an initial human-like Chinese chess AI, while reinforcement learning, based on supervised learning, elevates the strength of the entire AI to a new level. Based on this training system, we carried out enough ablation experiments and discovered that 1. The same parameter amount of Transformer architecture has a higher performance than CNN on Chinese chess; 2. Possible moves of both sides as features can greatly improve the training process; 3. Selective opponent pool, compared to pure self-play training, results in a faster improvement curve and a higher strength limit. 4. Value Estimation with Cutoff(VECT) improves the original PPO algorithm training process and we will give the explanation.

Mastering Chinese Chess AI (Xiangqi) Without Search

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理