TreeCut: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation

📄 arXiv: 2502.13442v2 📥 PDF

作者: Jialin Ouyang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-19 (更新: 2025-05-20)

备注: Accepted to ACL 2025 Main Conference

🔗 代码/项目: GITHUB


💡 一句话要点

TreeCut:用于评估LLM幻觉的合成不可解数学应用题数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学应用题 幻觉 数据集 不可解问题

📋 核心要点

  1. 现有LLM在数学应用题上表现出色,但其推理能力存疑,尤其是在不可解问题上易产生幻觉。
  2. TreeCut通过树结构表示问题,系统性地生成可解和不可解的数学应用题,用于评估LLM的幻觉。
  3. 实验表明,TreeCut能有效诱导LLM产生幻觉,揭示了模型在识别不可解问题上的挑战。

📝 摘要(中文)

大型语言模型(LLM)在标准数学应用题基准测试(如GSM8K)上已接近人类水平,但其真正的推理能力仍存在争议。一个关键问题是,模型经常对不可解的问题产生自信但毫无根据的答案。我们引入了TreeCut,这是一个合成数据集,通过将每个问题表示为树并移除选择的必要条件,系统地生成无限的不可解数学应用题及其可解的对应问题。实验表明,TreeCut有效地诱导了大型语言模型(包括GPT-4o和o3-mini)的幻觉,在零样本设置下,它们各自的最坏情况下的幻觉率分别为64%和44%。进一步的分析表明,更深或更复杂的树、复合项目名称以及移除路径中间附近的必要条件都会增加幻觉的可能性,突显了LLM在识别不可解数学问题方面面临的持续挑战。数据集生成代码和样本数据可在https://github.com/j-bagel/treecut-math 获取。

🔬 方法详解

问题定义:现有的大型语言模型在数学应用题基准测试中表现良好,但它们是否真正理解问题并进行推理仍然是一个问题。一个主要的痛点是,当面对不可解的数学应用题时,这些模型经常会给出自信但错误的答案,即产生幻觉。这表明模型可能只是在记忆模式或进行表面上的匹配,而不是真正理解问题的约束条件和逻辑关系。

核心思路:TreeCut的核心思路是通过系统性地生成可解和不可解的数学应用题来评估LLM的幻觉。它将每个问题表示为一棵树,树的节点代表问题的条件或变量,边代表它们之间的关系。通过移除树中的某些必要条件,可以生成不可解的问题,从而测试模型是否能够识别问题的缺失信息。

技术框架:TreeCut的整体框架包括以下几个主要阶段:1) 树结构生成:随机生成不同深度和复杂度的树结构,每个节点代表一个数学变量或条件。2) 问题生成:根据树结构,生成相应的数学应用题,确保问题是可解的。3) 不可解问题生成:通过移除树中的某些必要条件,生成不可解的数学应用题。4) 数据集构建:将可解和不可解的问题组合成一个数据集,用于评估LLM的幻觉。

关键创新:TreeCut最重要的创新点在于其系统性地生成不可解数学应用题的方法。与以往手动创建或随机生成不可解问题的方法不同,TreeCut通过树结构表示问题,并有控制地移除必要条件,从而可以生成无限数量的不可解问题,并且可以控制问题的难度和复杂性。这使得可以更全面地评估LLM在识别不可解问题方面的能力。

关键设计:TreeCut的关键设计包括:1) 树结构的表示:使用树结构来表示问题的条件和变量之间的关系,可以清晰地表达问题的逻辑结构。2) 必要条件的移除策略:设计不同的策略来移除树中的必要条件,例如移除路径中间的节点、移除深度较大的节点等,从而生成不同类型的不可解问题。3) 问题生成的模板:使用预定义的模板来生成数学应用题,确保问题在语法和语义上是合理的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TreeCut能够有效诱导LLM产生幻觉。在零样本设置下,GPT-4o和o3-mini在TreeCut数据集上的最坏情况下的幻觉率分别为64%和44%。进一步的分析表明,更深或更复杂的树、复合项目名称以及移除路径中间附近的必要条件都会增加幻觉的可能性。这些结果表明,LLM在识别不可解数学问题方面仍然面临着挑战。

🎯 应用场景

TreeCut数据集可用于评估和提高LLM在数学推理和问题解决方面的可靠性。通过使用该数据集训练和评估LLM,可以帮助模型更好地识别不可解问题,减少幻觉的产生。此外,该数据集还可以用于研究LLM的推理能力,例如模型如何理解问题的约束条件和逻辑关系。该研究的潜在应用领域包括教育、金融和科学研究等。

📄 摘要(原文)

Large language models (LLMs) now achieve near-human performance on standard math word problem benchmarks (e.g., GSM8K), yet their true reasoning ability remains disputed. A key concern is that models often produce confident, yet unfounded, answers to unanswerable problems. We introduce TreeCut, a synthetic dataset that systematically generates infinite unanswerable math word problems and their answerable counterparts, by representing each question as a tree and removing chosen necessary conditions. Experiments show TreeCut effectively induce hallucinations in large language models, including GPT-4o and o3-mini, with rates of 64% and 44% in their respective worst-case scenarios under zero-shot setting. Further analysis highlights that deeper or more complex trees, composite item names, and removing necessary condition near the middle of a path all increase the likelihood of hallucinations, underscoring the persistent challenges LLMs face in identifying unanswerable math problems. The dataset generation code and sample data are available at https://github.com/j-bagel/treecut-math.