Can Large Language Models Master Complex Card Games?

📄 arXiv: 2509.01328v5 📥 PDF

作者: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang

分类: cs.CL

发布日期: 2025-09-01 (更新: 2025-10-21)

备注: Accepted by NeurIPS 2025

🔗 代码/项目: GITHUB


💡 一句话要点

探索LLM在复杂卡牌游戏中的能力:通过微调实现类人智能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 卡牌游戏 监督微调 通用能力 游戏AI

📋 核心要点

  1. 现有AI在复杂游戏中表现出色,但通用性不足,难以同时掌握多种游戏。
  2. 通过微调LLM,使其学习高质量游戏数据,探索其在复杂卡牌游戏中的表现。
  3. 实验表明,LLM能接近专业AI水平,但掌握多款游戏和保持通用性存在挑战。

📝 摘要(中文)

复杂游戏一直是测试人工智能算法进展的重要基准。大型语言模型(LLM)在各种任务中展现出卓越的能力,引发了LLM是否能在复杂游戏中取得类似成功的疑问。本文探讨了LLM在掌握复杂卡牌游戏方面的潜力。我们系统地评估了LLM在八种不同卡牌游戏中的学习能力,评估了在高质量游戏数据上进行微调的影响,并考察了模型在掌握这些游戏的同时保持通用能力的能力。研究结果表明:(1)LLM可以通过在高质量数据上进行监督微调来接近强大的游戏AI的性能;(2)LLM可以同时在多个复杂卡牌游戏中达到一定的熟练程度,规则相似的游戏性能增强,规则不同的游戏性能冲突;(3)LLM在掌握复杂游戏时会降低通用能力,但可以通过整合一定数量的通用指令数据来缓解这种下降。评估结果表明LLM具有强大的学习能力和通用性。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在复杂卡牌游戏中的学习能力。现有方法,如AlphaGo等,虽然在特定游戏中表现卓越,但缺乏通用性,难以同时掌握多种游戏。此外,针对特定游戏训练的模型往往会牺牲其通用能力,导致在其他任务上的表现下降。因此,如何让LLM在掌握复杂游戏的同时,保持甚至提升其通用能力,是一个重要的研究问题。

核心思路:论文的核心思路是利用监督微调(Supervised Fine-Tuning, SFT)的方法,让LLM学习高质量的游戏数据,从而提升其在特定卡牌游戏中的表现。同时,通过混合游戏数据和通用指令数据进行训练,以缓解模型在掌握特定游戏后通用能力下降的问题。这种方法旨在探索LLM在复杂游戏中的学习能力,并找到一种平衡特定游戏性能和通用能力的方法。

技术框架:整体框架包括数据收集与处理、模型微调和性能评估三个主要阶段。首先,收集高质量的卡牌游戏数据,包括游戏状态、玩家行动等信息。然后,使用这些数据对LLM进行监督微调,使其学习游戏策略。最后,通过与其他游戏AI或人类玩家对战,以及在通用任务上进行测试,评估LLM在特定游戏和通用任务上的表现。框架的关键模块包括数据预处理模块、模型微调模块和性能评估模块。

关键创新:论文的关键创新在于系统性地评估了LLM在多个复杂卡牌游戏中的学习能力,并探索了如何通过混合游戏数据和通用指令数据来缓解模型在掌握特定游戏后通用能力下降的问题。此外,论文还深入分析了不同游戏规则对LLM学习的影响,以及LLM在不同游戏之间的知识迁移能力。

关键设计:论文的关键设计包括:1) 选择了八种不同的卡牌游戏,以评估LLM在不同游戏规则下的学习能力;2) 使用高质量的游戏数据进行监督微调,以提升LLM在特定游戏中的表现;3) 通过混合游戏数据和通用指令数据进行训练,以缓解模型通用能力下降的问题;4) 设计了多种评估指标,包括游戏胜率、通用任务准确率等,以全面评估LLM的性能。

📊 实验亮点

实验结果表明,通过监督微调,LLM可以接近甚至达到专业游戏AI的水平。例如,在某些卡牌游戏中,LLM的胜率可以达到70%以上。同时,研究发现,混合游戏数据和通用指令数据可以有效缓解LLM在掌握特定游戏后通用能力下降的问题,通用任务准确率下降幅度控制在5%以内。

🎯 应用场景

该研究成果可应用于游戏AI开发、智能决策系统和通用人工智能等领域。通过训练LLM掌握复杂游戏,可以开发出更智能、更具适应性的游戏AI,提升游戏体验。此外,该研究的方法也可以推广到其他复杂决策问题,如金融投资、资源调度等,为智能决策系统提供新的思路。未来,该研究有望推动通用人工智能的发展,使AI能够更好地理解和解决现实世界中的复杂问题。

📄 摘要(原文)

Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame