Haunted House: A text-based game for comparing the flexibility of mental models in humans and LLMs
作者: Brett Puppart, Paul-Henry Paltmann, Jaan Aru
分类: cs.HC, cs.AI, q-bio.NC
发布日期: 2025-02-12
💡 一句话要点
提出“鬼屋”文本游戏,用于对比人类与LLM在心智模型灵活性上的差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本游戏 心智模型 大型语言模型 推理能力 人机对比
📋 核心要点
- 现有LLM在需要主动进行基于模型的推理任务中表现不足,难以模拟人类的灵活性。
- 设计“鬼屋”文本游戏,通过模拟逃生场景,考察人类和LLM在接收线索后进行推理和决策的能力。
- 实验结果表明,人类在“鬼屋”游戏中显著优于当前主流LLM,揭示了LLM在心智模型构建和应用上的局限性。
📝 摘要(中文)
本研究提出了一种名为“鬼屋”的新型文本游戏,旨在比较人类和大型语言模型(LLM)在基于模型的推理方面的表现。玩家必须从一个包含九个房间(3x3网格布局)的房子中逃脱,同时避开鬼魂。他们会得到口头线索来引导他们,每次移动都会获得新的线索。在研究1中,98名人类参与者的结果显示成功率为31.6%,显著优于七个最先进的LLM。在七个LLM的140次尝试中,只有Claude 3 Opus成功通过一次。初步结果表明,GPT o3-mini-high performance的表现可能更高,但仍未达到人类水平。在研究2中,对29名人类参与者的行动的进一步分析表明,LLM经常难以处理随机和不合逻辑的行动,而人类则较少出现此类错误。我们的研究结果表明,当前的LLM在需要主动进行基于模型的推理的任务中遇到困难,这为未来的基准测试提供了灵感。
🔬 方法详解
问题定义:论文旨在评估和比较人类与大型语言模型(LLM)在进行基于模型的推理时的能力。现有方法难以有效衡量LLM在复杂、动态环境下的推理灵活性,尤其是在需要根据不完全信息进行决策时。传统的基准测试往往侧重于静态知识或简单的逻辑推理,无法充分反映真实世界中推理的复杂性。
核心思路:论文的核心思路是设计一个交互式的文本游戏环境,通过玩家(人类或LLM)在游戏中的行为来推断其心智模型的质量和灵活性。这种方法允许研究人员观察玩家如何根据不断变化的线索调整其策略,从而更全面地评估其推理能力。
技术框架:该研究的技术框架主要包括以下几个部分:1) 设计“鬼屋”文本游戏,定义游戏规则、房间布局、鬼魂行为和线索生成机制。2) 招募人类参与者进行游戏,并记录其行动轨迹。3) 使用多个最先进的LLM作为游戏玩家,并记录其行动轨迹。4) 分析人类和LLM的游戏数据,比较其成功率、行动模式和错误类型。
关键创新:该研究的关键创新在于设计了一个新颖的文本游戏“鬼屋”,该游戏能够有效地激发和评估基于模型的推理能力。与传统的基准测试相比,“鬼屋”游戏具有更高的复杂性和动态性,能够更真实地反映真实世界中的推理挑战。此外,该研究还提出了一种新的分析方法,用于比较人类和LLM在游戏中的行为模式,从而更深入地了解其推理差异。
关键设计:游戏的关键设计包括:1) 3x3的房间网格布局,增加了空间推理的复杂性。2) 鬼魂的随机移动,迫使玩家不断更新其心智模型。3) 模糊的线索,要求玩家进行概率推理。4) 使用不同的LLM模型,并调整其参数(例如温度),以探索其推理能力的上限。
📊 实验亮点
实验结果显示,人类参与者在“鬼屋”游戏中的成功率为31.6%,显著优于所有测试的LLM。在140次LLM尝试中,只有Claude 3 Opus成功通过一次。对人类和LLM行动模式的分析表明,LLM更容易出现随机和不合逻辑的行动,表明其在心智模型构建和应用方面存在不足。这些结果突显了当前LLM在需要主动进行基于模型的推理任务中的局限性。
🎯 应用场景
该研究成果可应用于开发更智能、更具适应性的AI系统。通过理解LLM在基于模型的推理方面的局限性,可以指导未来的模型设计,使其能够更好地处理复杂、动态的环境。此外,该研究提出的“鬼屋”游戏可以作为一种新的基准测试工具,用于评估和比较不同AI模型的推理能力。该研究还有助于提升人机协作效率,使AI系统能够更好地理解人类意图并做出相应的反应。
📄 摘要(原文)
This study introduces "Haunted House" a novel text-based game designed to compare the performance of humans and large language models (LLMs) in model-based reasoning. Players must escape from a house containing nine rooms in a 3x3 grid layout while avoiding the ghost. They are guided by verbal clues that they get each time they move. In Study 1, the results from 98 human participants revealed a success rate of 31.6%, significantly outperforming seven state-of-the-art LLMs tested. Out of 140 attempts across seven LLMs, only one attempt resulted in a pass by Claude 3 Opus. Preliminary results suggested that GPT o3-mini-high performance might be higher, but not at the human level. Further analysis of 29 human participants' moves in Study 2 indicated that LLMs frequently struggled with random and illogical moves, while humans exhibited such errors less frequently. Our findings suggest that current LLMs encounter difficulties in tasks that demand active model-based reasoning, offering inspiration for future benchmarks.