Explaining Puzzle Solutions in Natural Language: An Exploratory Study on 6x6 Sudoku

📄 arXiv: 2505.15993v1 📥 PDF

作者: Anirudh Maiya, Razan Alghamdi, Maria Leonor Pacheco, Ashutosh Trivedi, Fabio Somenzi

分类: cs.CL

发布日期: 2025-05-21

备注: Accepted to Findings of ACL 2025

DOI: 10.18653/v1/2025.findings-acl.155


💡 一句话要点

评估LLM在6x6数独解题与自然语言解释中的能力,揭示其在策略推理上的不足。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数独解题 自然语言解释 人机协作 战略推理

📋 核心要点

  1. 现有大型语言模型在复杂问题求解中,缺乏提供可信、渐进和定制化解释的能力,限制了人机协同决策的有效性。
  2. 该研究通过评估LLM在解决和解释6x6数独谜题方面的表现,考察其战略推理和直观问题解决能力。
  3. 实验结果表明,现有LLM在数独解题解释方面存在显著不足,无法有效反映战略推理过程,阻碍了其在人机协作中的应用。

📝 摘要(中文)

大型语言模型(LLMs)在人机协同决策中的成功,取决于它们提供可信、渐进和定制化解释的能力。解决复杂的谜题,如数独,是这种协作的一个典型例子,其中清晰和定制的解释通常比最终的解决方案更重要。本研究评估了五个LLM在解决和解释6x6数独谜题方面的性能。虽然一个LLM在解决谜题方面表现出有限的成功,但没有一个能够以反映战略推理或直观问题解决的方式解释解决方案过程。这些发现强调了在LLM成为人机协同决策的有效伙伴之前必须解决的重大挑战。

🔬 方法详解

问题定义:该论文旨在评估大型语言模型(LLMs)在解决数独谜题并用自然语言解释其解题过程方面的能力。现有方法,即直接使用LLM进行解题和解释,其痛点在于LLM可能给出正确的答案,但无法提供合理的、符合人类直觉的解题步骤和策略,导致用户难以信任和理解LLM的决策过程。

核心思路:论文的核心思路是通过数独这个具体的、具有明确规则和逻辑推理过程的问题,来考察LLM是否具备战略推理和直观问题解决的能力。数独的解题过程需要逐步推理,每一步都依赖于之前的步骤,因此可以很好地检验LLM的解释是否连贯、合理。

技术框架:该研究没有提出新的技术框架,而是采用了一种评估框架,即:1)选取多个LLM;2)让LLM解决6x6数独谜题;3)要求LLM用自然语言解释其解题过程;4)人工评估LLM的解题能力和解释质量。重点在于分析LLM的解释是否符合逻辑、是否易于理解,以及是否反映了人类的解题策略。

关键创新:该研究的创新之处在于其评估视角,即不仅仅关注LLM是否能解决问题,更关注其能否提供可信、渐进和定制化的解释。这种评估方式更符合人机协同决策的实际需求,也更能揭示LLM在推理能力方面的不足。

关键设计:该研究的关键设计在于选取了6x6数独作为评估对象。6x6数独的难度适中,既能保证LLM有一定的挑战性,又能避免过于复杂导致LLM无法求解。此外,研究人员需要设计合理的评估指标,用于衡量LLM解释的质量,例如解释的逻辑性、连贯性、易懂性等。具体的参数设置、损失函数、网络结构等技术细节与论文无关,因为论文主要关注的是评估而非模型训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然部分LLM能够解决6x6数独谜题,但没有一个LLM能够以反映战略推理或直观问题解决的方式解释解决方案过程。这表明现有LLM在提供可信、渐进和定制化解释方面存在显著不足,需要在推理能力方面进行进一步提升。

🎯 应用场景

该研究的成果可以应用于人机协作决策系统,例如医疗诊断、金融分析等领域。通过提升LLM的解释能力,可以增强用户对AI决策的信任感,促进人与AI的有效协作。未来的研究可以探索如何让LLM学习人类的推理策略,从而提供更合理、更易于理解的解释。

📄 摘要(原文)

The success of Large Language Models (LLMs) in human-AI collaborative decision-making hinges on their ability to provide trustworthy, gradual, and tailored explanations. Solving complex puzzles, such as Sudoku, offers a canonical example of this collaboration, where clear and customized explanations often hold greater importance than the final solution. In this study, we evaluate the performance of five LLMs in solving and explaining \sixsix{} Sudoku puzzles. While one LLM demonstrates limited success in solving puzzles, none can explain the solution process in a manner that reflects strategic reasoning or intuitive problem-solving. These findings underscore significant challenges that must be addressed before LLMs can become effective partners in human-AI collaborative decision-making.