TextArena
作者: Leon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan
分类: cs.CL, cs.AI, cs.LG, cs.MA
发布日期: 2025-04-15 (更新: 2025-05-24)
备注: Work in progress; 5 pages, 3 figures
🔗 代码/项目: GITHUB
💡 一句话要点
TextArena:用于训练和评估LLM智能行为的竞争性文本游戏平台
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 智能体 文本游戏 社交智能 基准测试
📋 核心要点
- 现有基准测试在评估LLM的动态社交技能(如谈判、心理理论和欺骗)方面存在不足。
- TextArena提供了一个包含多种竞争性文本游戏的环境,用于训练和评估LLM的智能行为。
- TextArena提供在线游戏系统,支持模型与人类或其他模型对战,并使用TrueSkill评分进行实时评估。
📝 摘要(中文)
TextArena是一个开源的竞争性文本游戏集合,用于训练和评估大型语言模型(LLM)中的智能行为。它包含57+个独特环境(包括单人、双人和多人设置),并通过在线游戏系统(与人类和其他提交的模型对抗)轻松评估模型能力,并提供实时TrueSkill评分。传统的基准测试很少评估动态社交技能,如谈判、心理理论和欺骗,TextArena弥补了这一空白。TextArena的设计以研究、社区和可扩展性为中心,强调易于添加新游戏、调整框架、测试模型、与模型对战以及训练模型。环境、游戏、排行榜和示例的详细文档可在https://github.com/LeonGuertler/TextArena 和 https://www.textarena.ai/ 上找到。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)评估基准通常侧重于语言理解、生成和推理等能力,而忽略了在动态社交环境中表现出的智能行为,例如谈判、心理理论和欺骗。这些社交技能对于构建具有真实世界交互能力的智能体至关重要。现有方法缺乏一个统一、可扩展的平台来训练和评估LLM在这些复杂社交环境中的表现。
核心思路:TextArena的核心思路是创建一个包含多种竞争性文本游戏的环境,这些游戏能够激发和测试LLM的智能行为。通过提供一个标准化的平台,研究人员可以方便地训练、评估和比较不同的LLM智能体。在线游戏系统允许模型与人类或其他模型进行实时交互,从而更全面地评估其能力。
技术框架:TextArena的技术框架主要包括以下几个部分:1)游戏环境:包含57+个不同的文本游戏,涵盖单人、双人和多人设置。每个游戏都有明确的规则和目标。2)智能体接口:提供标准化的API,允许LLM智能体与游戏环境进行交互。3)在线游戏系统:支持模型与人类或其他模型进行实时对战,并记录游戏过程和结果。4)评估系统:使用TrueSkill评分系统对智能体的表现进行评估和排名。5)可扩展性设计:框架设计易于添加新的游戏环境和评估指标。
关键创新:TextArena的关键创新在于其提供了一个统一、可扩展的平台,用于训练和评估LLM在竞争性文本游戏中的智能行为。与传统的基准测试相比,TextArena更侧重于评估LLM的动态社交技能,如谈判、心理理论和欺骗。此外,在线游戏系统允许模型与人类或其他模型进行实时交互,从而更全面地评估其能力。
关键设计:TextArena的关键设计包括:1)多样化的游戏环境:选择具有不同难度和社交复杂度的游戏,以全面评估LLM的能力。2)标准化的智能体接口:简化了智能体的开发和集成过程。3)TrueSkill评分系统:提供可靠的智能体排名和评估。4)可配置的游戏参数:允许研究人员调整游戏难度和规则,以适应不同的研究需求。
🖼️ 关键图片
📊 实验亮点
TextArena包含57+个独特环境,涵盖单人、双人和多人设置,为LLM智能行为的训练和评估提供了丰富的资源。在线游戏系统支持模型与人类或其他模型对战,并使用TrueSkill评分进行实时评估,为模型性能提供了客观的衡量标准。TextArena的开源设计和详细文档促进了社区参与和研究合作。
🎯 应用场景
TextArena可应用于开发更具社交智能的LLM智能体,例如在谈判、客户服务和人机协作等领域。通过在TextArena中训练和评估LLM,可以提高其在复杂社交环境中的表现,从而实现更自然、高效的人机交互。该平台还可用于研究人类的认知和决策过程,并为人工智能伦理提供参考。
📄 摘要(原文)
TextArena is an open-source collection of competitive text-based games for training and evaluation of agentic behavior in Large Language Models (LLMs). It spans 57+ unique environments (including single-player, two-player, and multi-player setups) and allows for easy evaluation of model capabilities via an online-play system (against humans and other submitted models) with real-time TrueSkill scores. Traditional benchmarks rarely assess dynamic social skills such as negotiation, theory of mind, and deception, creating a gap that TextArena addresses. Designed with research, community and extensibility in mind, TextArena emphasizes ease of adding new games, adapting the framework, testing models, playing against the models, and training models. Detailed documentation of environments, games, leaderboard, and examples are available on https://github.com/LeonGuertler/TextArena and https://www.textarena.ai/.