Large Language Models are Algorithmically Blind

📄 arXiv: 2602.21947v1 📥 PDF

作者: Sohan Venkatesh, Ashish Mahendran Kurapath, Tejas Melkote

分类: cs.CL

发布日期: 2026-02-25

备注: 20 pages, 11 figures, 14 tables


💡 一句话要点

揭示大语言模型在算法推理上的局限性:算法盲区

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 算法推理 因果发现 算法盲区 模型评估

📋 核心要点

  1. 现有大型语言模型在算法推理能力方面存在不足,这对于依赖LLM进行算法选择和部署的实践者构成挑战。
  2. 该研究以因果发现为测试平台,通过大规模算法执行生成真实数据,评估LLM的算法推理能力。
  3. 实验结果表明,LLM在算法推理上存在系统性失败,表现甚至不如随机猜测,揭示了其“算法盲区”问题。

📝 摘要(中文)

大型语言模型(LLM)展现了卓越的知识广度,但其对计算过程的推理能力仍然知之甚少。对于依赖LLM指导算法选择和部署的从业者来说,弥合这一差距至关重要。本文以因果发现为测试平台,评估了八个前沿LLM,并将其结果与大规模算法执行产生的真实数据进行对比,发现存在系统性的、近乎完全的失败。模型产生的置信区间远大于真实区间,但仍然无法在大多数情况下包含真实的算法均值;大多数模型的表现比随机猜测还要差,而最佳模型略高于随机水平的表现更像是基准记忆,而非基于原则的推理。我们将这种失败称为算法盲区,并认为它反映了关于算法的陈述性知识与校准的过程性预测之间存在根本差距。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在算法推理方面的能力评估问题。现有方法难以准确评估LLM对计算过程的理解和预测能力,尤其是在算法选择和部署等实际应用场景中。LLM虽然拥有丰富的算法知识,但在实际应用中却表现出令人失望的推理能力,导致算法选择错误或部署失败。

核心思路:论文的核心思路是将因果发现作为测试平台,通过大规模算法执行生成ground truth,然后评估LLM对这些算法的推理能力。通过比较LLM的预测结果与真实数据,可以量化LLM在算法推理方面的误差和偏差,从而揭示其“算法盲区”。这种方法能够更客观、更全面地评估LLM的算法理解能力。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择一系列算法,并设计相应的因果发现任务;2) 大规模执行这些算法,收集算法执行数据,并计算真实的算法均值和置信区间;3) 使用LLM对这些算法进行推理,预测算法的均值和置信区间;4) 将LLM的预测结果与真实数据进行比较,评估LLM的推理误差和偏差。

关键创新:该研究的关键创新在于:1) 将因果发现作为评估LLM算法推理能力的测试平台,提供了一种新的评估方法;2) 通过大规模算法执行生成ground truth,避免了人工标注的主观性;3) 揭示了LLM在算法推理方面存在的“算法盲区”问题,挑战了人们对LLM能力的固有认知。

关键设计:论文中关键的设计包括:1) 选择了具有代表性的算法,覆盖了不同的计算过程和复杂度;2) 使用了多种评估指标,包括预测均值的误差、置信区间的覆盖率等,全面评估LLM的推理能力;3) 对比了多个前沿LLM,分析了不同模型之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有被评估的LLM在算法推理方面都表现出显著的失败。大多数模型的表现甚至不如随机猜测,最佳模型的性能提升也更像是记忆基准,而非真正的推理。LLM产生的置信区间远大于真实区间,但仍然无法在大多数情况下包含真实的算法均值。这些结果有力地证明了LLM在算法推理方面存在严重的局限性。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型在算法选择、算法优化和自动化程序设计等领域的应用。通过了解LLM的算法推理局限性,可以更好地利用LLM的知识,并开发更可靠的算法辅助工具。未来的研究可以探索如何弥合LLM的“算法盲区”,提高其在计算领域的推理能力。

📄 摘要(原文)

Large language models (LLMs) demonstrate remarkable breadth of knowledge, yet their ability to reason about computational processes remains poorly understood. Closing this gap matters for practitioners who rely on LLMs to guide algorithm selection and deployment. We address this limitation using causal discovery as a testbed and evaluate eight frontier LLMs against ground truth derived from large-scale algorithm executions and find systematic, near-total failure. Models produce ranges far wider than true confidence intervals yet still fail to contain the true algorithmic mean in the majority of instances; most perform worse than random guessing and the marginal above-random performance of the best model is most consistent with benchmark memorization rather than principled reasoning. We term this failure algorithmic blindness and argue it reflects a fundamental gap between declarative knowledge about algorithms and calibrated procedural prediction.