LLMs as Agentic Cooperative Players in Multiplayer UNO

📄 arXiv: 2509.09867v1 📥 PDF

作者: Yago Romano Matinez, Jesse Roberts

分类: cs.AI, cs.CL

发布日期: 2025-09-11


💡 一句话要点

提出基于LLM的合作型玩家在UNO游戏中的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 合作型玩家 UNO游戏 人机交互 游戏智能

📋 核心要点

  1. 现有方法在游戏中使用LLM时,缺乏有效的合作能力,无法充分发挥其潜力。
  2. 论文提出了一种新工具,使LLM能够在UNO游戏中作为合作型玩家参与,帮助其他玩家获胜。
  3. 实验结果表明,尽管所有模型均优于随机基线,只有少数模型能显著提升其他玩家的表现。

📝 摘要(中文)

大型语言模型(LLM)不仅能回答问题,还能在多种任务中提供有用的指导。本文探讨了LLM作为主动参与者在UNO游戏中帮助其他玩家达成目标的能力。研究中构建了一个工具,使得解码器仅的LLM能够在RLCard游戏环境中作为代理参与。模型接收完整的游戏状态信息,并在两种不同的提示策略下进行响应。实验评估了从小型(10亿参数)到大型(700亿参数)的模型,结果显示所有模型在UNO游戏中均优于随机基线,但只有少数模型能够显著帮助其他玩家。

🔬 方法详解

问题定义:本文旨在探讨大型语言模型在游戏中作为合作型玩家的有效性,现有方法未能充分利用LLM的潜力,尤其是在协作任务中。

核心思路:通过构建一个工具,使得解码器仅的LLM能够在UNO游戏中作为代理参与,接收完整的游戏状态信息并帮助其他玩家,而不是单纯追求胜利。

技术框架:整体架构包括两个主要模块:游戏状态接收模块和响应生成模块。游戏状态接收模块负责获取当前游戏状态,而响应生成模块则根据状态信息和提示策略生成相应的文本响应。

关键创新:最重要的创新在于将LLM作为合作型玩家参与游戏,探索其在协作任务中的应用潜力,这与传统的单一竞争性游戏策略有本质区别。

关键设计:在模型设计中,使用了不同规模的LLM(从10亿到700亿参数),并采用了两种不同的提示策略来评估模型的响应能力和合作效果。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,所有模型在UNO游戏中均优于随机基线,具体表现为在多轮游戏中,模型的平均得分显著高于随机策略。然而,只有少数模型能够在帮助其他玩家方面表现出显著的提升,表明在合作任务中仍存在改进空间。

🎯 应用场景

该研究的潜在应用领域包括游戏设计、教育和人机交互等。通过使LLM能够作为合作型玩家参与,能够提升游戏的趣味性和教育价值,同时为未来的智能助手提供新的交互模式。

📄 摘要(原文)

LLMs promise to assist humans -- not just by answering questions, but by offering useful guidance across a wide range of tasks. But how far does that assistance go? Can a large language model based agent actually help someone accomplish their goal as an active participant? We test this question by engaging an LLM in UNO, a turn-based card game, asking it not to win but instead help another player to do so. We built a tool that allows decoder-only LLMs to participate as agents within the RLCard game environment. These models receive full game-state information and respond using simple text prompts under two distinct prompting strategies. We evaluate models ranging from small (1B parameters) to large (70B parameters) and explore how model scale impacts performance. We find that while all models were able to successfully outperform a random baseline when playing UNO, few were able to significantly aid another player.