Coherent Without Grounding, Grounded Without Success: Observability and Epistemic Failure
作者: Camilo Chacón Sartori
分类: cs.CY, cs.AI
发布日期: 2026-03-30
DOI: 10.2139/ssrn.6168626
💡 一句话要点
揭示大语言模型在可观测性差异下的能力与解释错位现象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 可观测性 认知能力 解释性 行动能力 认识三角 双向一致性悖论
📋 核心要点
- 现有大型语言模型在行动能力和解释能力之间存在脱节,即能做但不能解释,或能解释但不能行动。
- 论文提出“认识三角”模型,分析先验、信号和领域知识在不同可观测性下如何影响LLM的行动和解释。
- 实验表明,行为成功和解释准确性不能单独作为理解的充分条件,需要连贯性、基础性和行动关联的综合评估。
📝 摘要(中文)
本文探讨了大型语言模型(LLMs)在有效行动和正确解释之间的关系。研究表明,对于LLMs,有效的行动和连贯的解释并不总是同时出现。作者提出了双向一致性悖论:在低可观测性领域,LLMs可能成功地执行任务,但错误地识别其成功的原因;在高可观测性领域,它们可能生成准确反映可观测因果结构的解释,但无法将这些诊断转化为有效的干预措施。作者通过编译器优化和超参数调优的实验,提出了一个认识三角模型,用于研究先验知识、信号和领域知识在不同可观测性下的相互作用。研究结果表明,行为上的成功或解释上的准确性都不足以归因于理解。评估人工智能认知主体需要一个三方框架——连贯性、基础性和将解释与行动联系起来的适当基础关系。LLMs中知其然与知其所以然的系统性分离挑战了来自认知理论和当前人工智能评估实践的假设。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)在解决问题时,其行为上的成功和解释上的准确性之间存在脱节。具体来说,LLMs可能在没有真正理解底层机制的情况下成功完成任务,或者能够给出看似合理的解释,但无法将其应用于实际行动。这种现象挑战了我们对“理解”的传统认知,并对LLMs的评估提出了新的挑战。现有方法通常只关注LLMs的性能指标,而忽略了其解释能力和行动能力之间的联系。
核心思路:论文的核心思路是,LLMs的行动能力和解释能力受到领域可观测性的影响。在低可观测性领域,LLMs可能通过试错或其他方式找到解决方案,但无法准确识别其成功的原因。在高可观测性领域,LLMs可能能够观察到因果关系,但无法将其转化为有效的行动。因此,需要一个综合的框架来评估LLMs的认知能力,包括连贯性、基础性和行动关联。
技术框架:论文提出了“认识三角”模型,该模型包含三个要素:先验知识、信号和领域知识。先验知识是指LLMs在训练过程中获得的知识,信号是指LLMs在解决问题时接收到的信息,领域知识是指LLMs对特定领域的理解。这三个要素相互作用,共同影响LLMs的行动和解释。论文通过在编译器优化和超参数调优两个任务上的实验,验证了该模型的有效性。
关键创新:论文的关键创新在于提出了双向一致性悖论,即LLMs的行动能力和解释能力在不同可观测性下可能出现分离甚至反转。此外,论文提出的“认识三角”模型提供了一个新的视角来分析LLMs的认知能力,并为LLMs的评估提供了一个综合的框架。
关键设计:在实验中,论文使用了编译器优化和超参数调优两个任务。在编译器优化任务中,LLMs需要选择合适的优化策略来提高代码的执行效率。在超参数调优任务中,LLMs需要选择合适的超参数来提高模型的性能。论文通过控制领域的可观测性,研究了LLMs在不同可观测性下的行动能力和解释能力。具体的参数设置、损失函数、网络结构等技术细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文通过编译器优化和超参数调优实验,验证了LLM在不同可观测性下行动能力和解释能力的分离现象。具体性能数据和提升幅度未知,但实验结果表明,仅凭行为成功或解释准确性无法充分评估LLM的理解能力,需要综合考虑连贯性、基础性和行动关联。
🎯 应用场景
该研究成果可应用于改进大语言模型的训练和评估方法,提升其在复杂任务中的可靠性和可解释性。例如,可以设计更有效的训练策略,使LLM不仅能完成任务,还能准确解释其行为背后的原因。此外,该研究对于开发更安全、更值得信赖的AI系统具有重要意义。
📄 摘要(原文)
When an agent can articulate why something works, we typically take this as evidence of genuine understanding. This presupposes that effective action and correct explanation covary, and that coherent explanation reliably signals both. I argue that this assumption fails for contemporary Large Language Models (LLMs). I introduce what I call the Bidirectional Coherence Paradox: competence and grounding not only dissociate but invert across epistemic conditions. In low-observability domains, LLMs often act successfully while misidentifying the mechanisms that produce their success. In high-observability domains, they frequently generate explanations that accurately track observable causal structure yet fail to translate those diagnoses into effective intervention. In both cases, explanatory coherence remains intact, obscuring the underlying dissociation. Drawing on experiments in compiler optimization and hyperparameter tuning, I develop the Epistemic Triangle, a model of how priors, signals, and domain knowledge interact under varying observability. The results suggest that neither behavioral success nor explanatory accuracy alone suffices for attributing understanding. I argue that evaluating artificial epistemic agents requires a tripartite framework -- coherence, grounding, and a proper basing relation linking explanation to action. The systematic separation of knowing-that and knowing-how in LLMs thus challenges assumptions inherited from both epistemology and current AI evaluation practice.