When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models
作者: Sailesh Panda, Pritam Kadasi, Abhishek Upperwal, Mayank Singh
分类: cs.CL
发布日期: 2026-05-01
备注: 77 pages, 109 figures
💡 一句话要点
诊断性研究揭示LLM在程序执行中存在的步骤遵循问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 程序执行 诊断基准 推理能力 指令遵循
📋 核心要点
- 现有LLM在推理任务中表现良好,但缺乏对程序执行过程的深入评估,难以判断其是否真正理解并遵循指令。
- 该研究构建了一个诊断基准,通过逐步算术算法评估LLM在不同复杂程度下的程序执行能力,关注中间步骤的正确性。
- 实验结果表明,随着算法步骤增加,LLM的准确率显著下降,揭示了其在长序列程序执行中存在的挑战。
📝 摘要(中文)
大型语言模型(LLM)在推理基准测试中通常表现出色,但最终答案的准确性并不能表明它们是否忠实地执行了提示中指定的程序。本文通过一个受控的程序执行诊断基准来研究这个问题,在该基准中,模型被赋予一个逐步的算术算法和两个数值输入,并且必须返回最终计算值。该基准使用简单的算术运算,但通过算法长度和中间变量的回溯依赖性来增加复杂性。在14个模型和55个数据集上,平均首次回答准确率从5步程序的61%下降到95步程序的20%。生成级别的分析表明,失败通常涉及缺失答案、过早答案、初始错误后的自我纠正、执行不足的轨迹以及幻觉式的额外步骤。这些发现表明,表面上的推理能力可能掩盖了在忠实指令执行方面的重大弱点。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在执行程序性任务时的能力,特别是它们是否能够忠实地遵循提示中给定的步骤。现有方法通常只关注最终答案的准确性,而忽略了中间步骤的执行情况,这使得我们难以判断LLM是否真正理解并执行了给定的程序。因此,该研究旨在通过一个诊断性基准来评估LLM在程序执行过程中的表现,并识别其存在的不足之处。
核心思路:论文的核心思路是构建一个受控的诊断基准,该基准包含一系列逐步的算术算法,并要求LLM按照步骤执行这些算法。通过分析LLM在每个步骤中的表现,可以更深入地了解其程序执行能力,并识别其存在的错误类型。这种方法可以更全面地评估LLM的推理能力,而不仅仅是关注最终答案的准确性。
技术框架:该研究的技术框架主要包括以下几个部分:1) 构建诊断基准:设计一系列逐步的算术算法,这些算法的复杂程度可以通过算法长度和中间变量的回溯依赖性来控制。2) 选择LLM:选择一系列具有代表性的LLM进行评估。3) 执行评估:将算法和输入提供给LLM,并记录其在每个步骤中的输出。4) 分析结果:分析LLM在每个步骤中的表现,识别其存在的错误类型,并评估其程序执行能力。
关键创新:该研究的关键创新在于提出了一个诊断性的基准,用于评估LLM在程序执行过程中的能力。与以往的研究只关注最终答案的准确性不同,该研究关注LLM在每个步骤中的表现,从而可以更深入地了解其程序执行能力。此外,该研究还对LLM的错误类型进行了分类,并分析了其错误的原因。
关键设计:该研究的关键设计包括:1) 算法设计:算法采用简单的算术运算,但通过增加算法长度和中间变量的回溯依赖性来增加复杂性。2) 评估指标:除了最终答案的准确性之外,还评估了LLM在每个步骤中的准确性,以及其存在的错误类型。3) 模型选择:选择了14个具有代表性的LLM进行评估,包括不同大小和架构的模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,随着算法步骤的增加,LLM的平均首次回答准确率显著下降,从5步程序的61%降至95步程序的20%。生成级别的分析揭示了多种错误类型,包括缺失答案、过早答案、自我纠正、执行不足和幻觉式额外步骤。这些发现强调了LLM在忠实指令执行方面的弱点,即使它们在推理基准测试中表现良好。
🎯 应用场景
该研究成果可应用于提升LLM在需要精确步骤执行的任务中的表现,例如科学计算、金融建模和自动化流程。通过诊断LLM在程序执行中的弱点,可以开发更有效的训练方法和提示工程策略,从而提高LLM的可靠性和实用性。此外,该研究提出的诊断基准可以作为评估LLM程序执行能力的标准工具。
📄 摘要(原文)
Large language models (LLMs) often achieve strong performance on reasoning benchmarks, but final-answer accuracy alone does not show whether they faithfully execute the procedure specified in a prompt. We study this question through a controlled diagnostic benchmark for procedural execution, where models are given a step-wise arithmetic algorithm and two numeric inputs, and must return the final computed value. The benchmark uses simple arithmetic operations but increases complexity through algorithm length and look-back dependencies over intermediate variables. Across 14 models and 55 datasets, average first-answer accuracy drops from 61% on 5-step procedures to 20% on 95-step procedures. Generation-level analysis shows that failures often involve missing answers, premature answers, self-correction after an initial error, under-executed traces, and hallucinated extra steps. These findings suggest that apparent reasoning ability can mask substantial weaknesses in faithful instruction execution.