TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games

📄 arXiv: 2505.15712v2 📥 PDF

作者: Yuan Yuan, Muyu He, Muhammad Adil Shahid, Jiani Huang, Ziyang Li, Li Zhang

分类: cs.CL

发布日期: 2025-05-21 (更新: 2025-09-22)

备注: In EMNLP 2025 main conference


💡 一句话要点

提出TurnaboutLLM,一个基于侦探游戏的LLM演绎推理能力评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 演绎推理 大型语言模型 侦探游戏 推理基准 矛盾识别

📋 核心要点

  1. 现有LLM在复杂叙事环境中进行演绎推理能力不足,难以有效识别证词与证据间的矛盾。
  2. TurnaboutLLM利用侦探游戏构建数据集,通过互动游戏玩法来评估LLM的演绎推理能力。
  3. 实验结果揭示了现有LLM在演绎推理方面的局限性,并分析了上下文大小等因素的影响。

📝 摘要(中文)

本文介绍TurnaboutLLM,一个新颖的框架和数据集,旨在通过利用侦探游戏《逆转裁判》和《弹丸论破》的互动游戏玩法来评估大型语言模型(LLM)的演绎推理能力。该框架要求LLM识别长篇叙事语境中证词和证据之间的矛盾,这是一项具有挑战性的任务,因为其问题呈现出庞大的答案空间和多样化的推理类型。我们在该数据集上评估了十二个最先进的LLM,表明了用于增强演绎推理的流行策略(如广泛思考和思维链提示)的局限性。结果还表明,上下文大小、推理步骤的数量和答案空间大小对模型性能有不同的影响。总的来说,TurnaboutLLM为LLM在复杂、叙事丰富的环境中进行演绎推理的能力提出了重大挑战。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在复杂叙事环境中进行演绎推理的能力。现有方法在处理长文本、识别证词与证据之间的矛盾方面存在不足,尤其是在答案空间大、推理类型多样的情况下,LLM难以有效进行推理。

核心思路:论文的核心思路是利用侦探游戏(如《逆转裁判》和《弹丸论破》)的互动游戏玩法,构建一个更具挑战性和现实意义的演绎推理评估基准。这些游戏包含丰富的叙事内容、复杂的证据链和需要逻辑推理才能解决的谜题,能够有效测试LLM的推理能力。

技术框架:TurnaboutLLM框架主要包含以下几个部分:1) 数据集构建:从侦探游戏中提取证词、证据和问题,构建包含矛盾信息的推理场景。2) 模型评估:将推理场景输入LLM,要求其识别证词和证据之间的矛盾。3) 性能分析:分析LLM在不同场景下的推理表现,并评估上下文大小、推理步骤数量和答案空间大小等因素对模型性能的影响。

关键创新:TurnaboutLLM的关键创新在于其数据集的构建方式。与以往的演绎推理数据集不同,TurnaboutLLM的数据来源于真实的侦探游戏,具有更强的叙事性和复杂性。此外,该框架还考虑了上下文大小、推理步骤数量和答案空间大小等因素对模型性能的影响,从而能够更全面地评估LLM的推理能力。

关键设计:论文未明确说明关键参数设置、损失函数或网络结构等技术细节。数据集构建过程中,需要对游戏文本进行清洗、标注和转换,以适应LLM的输入格式。评估指标可能包括准确率、召回率和F1值等,用于衡量LLM识别矛盾的能力。具体实现细节未知。

📊 实验亮点

实验结果表明,现有最先进的LLM在TurnaboutLLM数据集上的表现仍有提升空间,即使采用思维链提示等策略也难以显著提高推理能力。实验还发现,上下文大小、推理步骤数量和答案空间大小对模型性能有不同程度的影响,表明LLM在处理复杂推理任务时仍面临挑战。具体性能数据和提升幅度未知。

🎯 应用场景

TurnaboutLLM的研究成果可应用于提升LLM在法律、金融、医疗等领域的推理能力。例如,在法律领域,LLM可以用于分析案件证据,识别证人证词中的矛盾,辅助案件侦破。在金融领域,LLM可以用于分析财务报表,识别欺诈行为。在医疗领域,LLM可以用于分析病历,辅助医生进行诊断。

📄 摘要(原文)

This paper introduces TurnaboutLLM, a novel framework and dataset for evaluating the deductive reasoning abilities of Large Language Models (LLMs) by leveraging the interactive gameplay of detective games Ace Attorney and Danganronpa. The framework tasks LLMs with identifying contradictions between testimonies and evidences within long narrative contexts, a challenging task due to the large answer space and diverse reasoning types presented by its questions. We evaluate twelve state-of-the-art LLMs on the dataset, hinting at limitations of popular strategies for enhancing deductive reasoning such as extensive thinking and Chain-of-Thought prompting. The results also suggest varying effects of context size, the number of reasoning step and answer space size on model performance. Overall, TurnaboutLLM presents a substantial challenge for LLMs' deductive reasoning abilities in complex, narrative-rich environments.