Causal Tongue-Tie: LLMs Can Encode Causal Direction, But Their Yes/No Outputs Fail to Express

📄 arXiv: 2605.25891v1 📥 PDF

作者: Ziyi Ding, Xiao-Ping Zhang

分类: cs.CL, cs.AI

发布日期: 2026-05-25


💡 一句话要点

揭示大语言模型因果推理的“舌尖效应”:内部理解与外部表达不一致

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 因果推理 线性探针 隐藏状态 舌尖效应

📋 核心要点

  1. 现有因果推理基准测试仅依赖LLM的输出,可能无法准确反映其内部理解。
  2. 该研究通过线性探针分析LLM隐藏状态,揭示其内部编码的因果信息。
  3. 实验表明,LLM内部编码的因果信息与最终输出的答案存在显著差异。

📝 摘要(中文)

本文发现大语言模型(LLM)在因果问题上的编码与其最终输出之间存在不匹配。在违反常识的CLadder测试项上,一个固定的线性探针可以从模型的隐藏状态中恢复证据支持的答案(准确率约为0.97),而模型直接输出的“是/否”答案却倾向于常识性答案(准确率约为0.5)。我们将这种约+0.5的差距称为“因果舌尖效应”,即错误的“是/否”回答可以分解为两种独立的失败模式:缺乏内部信号,或者存在内部信号但语言接口无法表达。这一发现对仅依赖输出的因果基准测试具有重要意义:基准测试的“正确”并不一定意味着模型已经理解,而“错误”也不一定意味着模型无法理解。因此,仅凭单一准确率数字就对LLM是否能进行因果推理做出全面判断是值得重新审视的。

🔬 方法详解

问题定义:现有的大语言模型因果推理评估方法主要依赖于模型的输出结果(例如,是/否),而忽略了模型内部的表征状态。这种方法存在一个潜在的问题:模型的输出可能无法完全反映其内部的因果理解能力。换句话说,即使模型给出了错误的答案,也可能意味着模型在内部已经理解了因果关系,只是由于某种原因无法正确表达出来。因此,如何更准确地评估大语言模型的因果推理能力是一个重要的研究问题。

核心思路:该论文的核心思路是,通过分析大语言模型在处理因果问题时的隐藏状态,来探究模型内部是否编码了正确的因果信息。具体来说,作者使用线性探针来解码模型隐藏状态中蕴含的因果信息,并将其与模型的最终输出进行比较。如果模型隐藏状态能够反映正确的因果关系,但最终输出却给出了错误的答案,则表明模型存在“因果舌尖效应”。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择合适的因果推理数据集(例如,CLadder);2) 使用大语言模型处理数据集中的因果问题,并记录模型在每一层的隐藏状态;3) 使用线性探针训练一个分类器,用于从模型的隐藏状态中预测正确的因果答案;4) 比较线性探针的预测结果与模型的最终输出,分析两者之间的差异。

关键创新:该论文的关键创新在于,它揭示了大语言模型在因果推理中存在的“因果舌尖效应”,即模型内部编码的因果信息与最终输出的答案之间存在不一致。这一发现挑战了现有基于输出的因果推理评估方法,并为更准确地评估大语言模型的因果推理能力提供了新的思路。

关键设计:该研究的关键设计包括:1) 使用CLadder数据集,该数据集包含违反常识的因果推理问题,可以更好地测试模型的因果推理能力;2) 使用线性探针,线性探针是一种简单而有效的解码方法,可以从模型的隐藏状态中提取有用的信息;3) 比较线性探针的预测结果与模型的最终输出,通过分析两者之间的差异来揭示“因果舌尖效应”。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在违反常识的CLadder测试项上,线性探针可以从模型的隐藏状态中恢复证据支持的答案,准确率约为0.97,而模型直接输出的“是/否”答案却倾向于常识性答案,准确率约为0.5。这表明模型内部编码了正确的因果信息,但由于某种原因无法正确表达出来。

🎯 应用场景

该研究成果可应用于改进大语言模型的因果推理能力,例如,通过优化模型的训练目标或调整模型的结构,使其能够更好地表达内部的因果理解。此外,该研究还可以用于开发更准确的因果推理评估方法,从而更好地了解大语言模型的因果推理能力。

📄 摘要(原文)

We find a mismatch between what large language models encode about a causal question and what they answer. On anti-commonsense CLadder items, a fixed linear probe recovers the evidence-supported answer from the model's hidden state (accuracy approximately 0.97), while the spoken Yes/No reverts to the commonsense one (accuracy approximately 0.5). We call this approximately +0.5 gap Causal Tongue-Tie: a wrong Yes/No decomposes into two separable failure modes: no internal signal versus a signal the verbal interface cannot say. The implication cuts both ways for output-only causal benchmarks: a benchmark "correct" need not mean the model has understood, and a benchmark "wrong" need not mean it cannot. Sweeping claims about whether LLMs can do causal reasoning, drawn from a single accuracy number, deserve a second look.