Large Language Models are Algorithmically Blind
作者: Sohan Venkatesh, Ashish Mahendran Kurapath, Tejas Melkote
分类: cs.CL
发布日期: 2026-04-07
💡 一句话要点
揭示大语言模型在算法推理上的根本缺陷:算法盲视
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 算法推理 因果发现 算法盲视 程序性预测
📋 核心要点
- 现有大型语言模型在算法推理能力方面存在明显不足,无法有效指导算法选择和部署。
- 该研究以因果发现为测试平台,通过算法执行的真实数据评估LLM的算法推理能力。
- 实验结果表明,LLM在算法推理上表现出系统性的失败,性能甚至不如随机猜测。
📝 摘要(中文)
大型语言模型(LLM)展现了卓越的知识广度,但其对计算过程的推理能力仍然知之甚少。对于依赖LLM指导算法选择和部署的从业者来说,弥合这一差距至关重要。本文以因果发现为测试平台,并针对从算法执行中获得的真实数据,评估了八个前沿LLM。研究发现,所有模型都存在系统性的、近乎完全的失败。预测范围远大于真实的置信区间,但在大多数情况下仍然无法包含真实的算法均值。大多数模型的表现比随机猜测更差,而最佳模型的边际改进可归因于基准记忆,而非基于原则的推理。我们将这种失败称为算法盲视,并认为它反映了关于算法的陈述性知识与校准后的程序性预测之间存在根本差距。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在算法推理方面的能力不足问题。现有方法依赖LLM的陈述性知识,但缺乏对算法程序性预测的校准,导致LLM无法有效指导算法选择和部署。LLM在理解算法的逻辑和预测其行为方面存在根本性缺陷,即“算法盲视”。
核心思路:论文的核心思路是将因果发现作为测试平台,通过算法执行的真实数据来评估LLM的算法推理能力。通过比较LLM的预测结果与真实算法执行结果,揭示LLM在算法推理方面的不足。这种方法强调了对LLM程序性预测能力的评估,而非仅仅依赖其陈述性知识。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择八个前沿LLM作为评估对象;2) 设计因果发现任务,并生成相应的算法执行数据;3) 使用LLM对算法执行结果进行预测,并生成置信区间;4) 将LLM的预测结果与真实算法执行结果进行比较,评估LLM的算法推理能力。
关键创新:该研究的关键创新在于:1) 提出了“算法盲视”的概念,揭示了LLM在算法推理方面的根本缺陷;2) 将因果发现作为测试平台,提供了一种评估LLM算法推理能力的有效方法;3) 通过实验证明,即使是最先进的LLM在算法推理方面也表现出系统性的失败。
关键设计:论文的关键设计包括:1) 选择具有代表性的因果发现任务,确保评估的全面性;2) 使用真实算法执行数据,避免了模拟数据的偏差;3) 设计合理的评估指标,例如预测范围的宽度和是否包含真实算法均值,以准确评估LLM的算法推理能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所有被评估的LLM在算法推理方面都表现出系统性的失败。大多数模型的表现甚至不如随机猜测,而最佳模型的边际改进主要归因于基准记忆而非真正的推理能力。LLM预测的置信区间远大于真实区间,且大多数情况下无法包含真实的算法均值。
🎯 应用场景
该研究成果可应用于改进LLM在算法选择、参数优化和程序调试等方面的能力。通过解决LLM的“算法盲视”问题,可以提高LLM在自动化软件开发、智能决策支持和科学研究等领域的应用价值,并促进更可靠和高效的AI系统开发。
📄 摘要(原文)
Large language models (LLMs) demonstrate remarkable breadth of knowledge, yet their ability to reason about computational processes remains poorly understood. Closing this gap matters for practitioners who rely on LLMs to guide algorithm selection and deployment. We address this limitation using causal discovery as a testbed and evaluate eight frontier LLMs against ground truth derived from algorithm executions. We find systematic, near-total failure across models. The predicted ranges are far wider than true confidence intervals yet still fail to contain the true algorithmic mean in most cases. Most models perform worse than random guessing and the best model's marginal improvement is attributable to benchmark memorization rather than principled reasoning. We term this failure algorithmic blindness and argue it reflects a fundamental gap between declarative knowledge about algorithms and calibrated procedural prediction.