EscapeBench: Towards Advancing Creative Intelligence of Language Model Agents

作者: Cheng Qian, Peixuan Han, Qinyu Luo, Bingxiang He, Xiusi Chen, Yuji Zhang, Hongyi Du, Jiarui Yao, Xiaocheng Yang, Denghui Zhang, Yunzhu Li, Heng Ji

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-12-18 (更新: 2025-05-24)

备注: 23 pages, 15 figures, ACL 2025 Main Conference

💡 一句话要点

EscapeBench：提升语言模型智能体创造性智能的密室逃脱基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型智能体 创造性推理 密室逃脱 基准测试 前瞻性 反思性 工具使用 问题解决

📋 核心要点

现有基准主要关注目标明确的任务，忽略了智能体在陌生环境中的创造性适应能力。
EscapeAgent框架通过前瞻性地使用工具和反思未解决的任务来增强语言模型的创造性推理能力。
EscapeAgent在密室逃脱游戏中表现出更强的逻辑连贯性、更高的效率和更好的鲁棒性。

📝 摘要（中文）

本文提出了EscapeBench，一个密室逃脱游戏环境基准测试套件，旨在挑战智能体在不熟悉的环境中进行创造性推理、非常规工具使用和迭代问题解决以发现隐含目标。实验结果表明，即使采用工作记忆和思维链推理，当前的语言模型平均进展仅为15%（无提示），突显了其在创造力方面的局限性。为了弥补这一差距，本文提出了EscapeAgent框架，旨在通过前瞻性（创新工具使用）和反思性（识别未解决的任务）来增强创造性推理。实验表明，EscapeAgent可以执行超过1000步的动作链，同时保持逻辑连贯性，并以更少的步骤和提示完成游戏，在不同难度级别上表现出鲁棒性，并以更高效和创新的解谜策略实现更高的动作成功率。

🔬 方法详解

问题定义：现有语言模型智能体在长会话规划和推理方面表现出色，但现有基准测试主要集中在具有明确目标的目标导向型任务上，忽略了智能体在不熟悉的环境中进行创造性适应的能力。密室逃脱游戏需要智能体进行创造性推理、非常规工具使用和迭代问题解决，以发现隐含目标，这对于现有方法是一个挑战。

核心思路：EscapeAgent的核心思路是通过结合“前瞻性”（Foresight）和“反思性”（Reflection）来增强语言模型的创造性推理能力。“前瞻性”鼓励智能体创新性地使用工具，而“反思性”帮助智能体识别尚未解决的任务，从而引导智能体更有效地探索和解决问题。

技术框架：EscapeAgent框架包含以下主要模块：1) 环境交互模块，负责与密室逃脱环境进行交互，获取观察和执行动作；2) 前瞻性模块，负责预测潜在的工具使用方法，并生成相应的动作序列；3) 反思性模块，负责分析当前状态，识别未解决的任务，并调整行动策略；4) 记忆模块，用于存储历史信息，支持长期推理和规划。

关键创新：EscapeAgent的关键创新在于其将“前瞻性”和“反思性”相结合，从而使智能体能够更有效地探索和解决复杂的密室逃脱问题。与现有方法相比，EscapeAgent能够更灵活地适应环境变化，并发现隐藏的目标。

关键设计：EscapeAgent的具体实现细节包括：1) 使用大型语言模型作为智能体的核心推理引擎；2) 设计特定的提示工程（prompt engineering）策略，以引导语言模型生成更具创造性的动作序列；3) 使用强化学习技术来优化智能体的行动策略；4) 采用基于规则的奖励函数来鼓励智能体探索和解决问题。

🖼️ 关键图片

📊 实验亮点

实验结果表明，EscapeAgent在密室逃脱游戏中表现显著优于现有方法。EscapeAgent能够以高达40%更少的步骤和提示完成游戏，并在不同难度级别上表现出鲁棒性。此外，EscapeAgent还实现了更高的动作成功率，并采用了更高效和创新的解谜策略。

🎯 应用场景

该研究成果可应用于各种需要创造性问题解决的领域，例如机器人导航、游戏AI、智能助手等。通过提升智能体的创造性推理能力，可以使其更好地适应复杂和不确定的环境，从而实现更高效和智能的决策。

📄 摘要（原文）

Language model agents excel in long-session planning and reasoning, but existing benchmarks primarily focus on goal-oriented tasks with explicit objectives, neglecting creative adaptation in unfamiliar environments. To address this, we introduce EscapeBench, a benchmark suite of room escape game environments designed to challenge agents with creative reasoning, unconventional tool use, and iterative problem-solving to uncover implicit goals. Our results show that current LM models, despite employing working memory and Chain-of-Thought reasoning, achieve only 15% average progress without hints, highlighting their limitations in creativity. To bridge this gap, we propose EscapeAgent, a framework designed to enhance creative reasoning through Foresight (innovative tool use) and Reflection (identifying unsolved tasks). Experiments show that EscapeAgent can execute action chains over 1,000 steps while maintaining logical coherence. It navigates and completes games with up to 40% fewer steps and hints, performs robustly across difficulty levels, and achieves higher action success rates with more efficient and innovative puzzle-solving strategies.

EscapeBench: Towards Advancing Creative Intelligence of Language Model Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理