Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness
作者: Tomer Ashuach, Liat Ein-Dor, Shai Gretz, Yoav Katz, Yonatan Belinkov
分类: cs.CL
发布日期: 2026-04-14
备注: Accepted to ACL 2026 (Main Conference). 8 pages, 16 figures, 2 tables
💡 一句话要点
通过共识掩盖:解耦LLM正确性中的特权知识
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 特权知识 正确性分类 模型表征 领域知识 模型评估 知识解耦
📋 核心要点
- 现有方法难以区分LLM正确性判断中,模型自身特有的、无法通过外部观察获得的“特权知识”。
- 论文通过在模型间存在分歧的样本上评估,分离出模型自身表征中蕴含的特权知识。
- 实验表明,LLM在事实性知识任务中存在特权知识,但在数学推理任务中则不明显。
📝 摘要(中文)
人类通过私有的内部状态进行内省,从而评估自身的理解能力,而外部观察者无法访问这些状态。本文研究大型语言模型是否也拥有类似的关于答案正确性的特权知识,即外部观察无法获取的信息。我们训练正确性分类器,使用来自模型自身隐藏状态和外部模型的question representations,测试自我表征是否能提供性能优势。在标准评估中,我们没有发现优势:自我探针与同伴模型探针表现相当。我们假设这是由于答案正确性的模型间高度一致性导致的。为了分离真正的特权知识,我们在不一致子集上进行评估,即模型产生冲突预测的情况。在这里,我们发现了特定领域的特权知识:在事实知识任务中,自我表征始终优于同伴表征,但在数学推理中没有优势。我们进一步在模型层中定位这种领域不对称性,发现事实优势从早期到中期层逐渐显现,这与模型特定的记忆检索一致,而数学推理在任何深度都没有显示出一致的优势。
🔬 方法详解
问题定义:现有方法难以区分LLM判断答案正确性时,哪些信息是所有模型共享的,哪些是模型自身特有的“特权知识”。现有方法无法有效利用这种特权知识来提升模型性能,也难以理解模型内部的决策过程。
核心思路:论文的核心思路是,通过在模型间存在分歧的样本上进行评估,来分离出模型自身表征中蕴含的特权知识。如果一个模型能够仅凭自身内部表征,在其他模型无法正确判断的情况下做出正确判断,那么就说明该模型拥有关于答案正确性的特权知识。
技术框架:整体框架包括以下几个步骤:1) 使用多个LLM对同一批问题进行预测;2) 筛选出模型间预测结果存在分歧的样本子集;3) 训练正确性分类器,分别使用目标模型自身隐藏状态的表征(self-probe)和来自其他模型的表征(peer-probe)作为输入;4) 比较self-probe和peer-probe在分歧样本子集上的性能,以评估目标模型是否拥有特权知识。
关键创新:论文最重要的创新点在于,它提出了一种新的评估方法,能够有效分离和识别LLM中的特权知识。通过关注模型间存在分歧的样本,该方法能够排除共识知识的干扰,从而更准确地评估模型自身表征的价值。与现有方法相比,该方法能够更深入地理解LLM的决策过程,并为提升模型性能提供新的思路。
关键设计:论文的关键设计包括:1) 使用不同类型的LLM(例如,不同架构、不同训练数据)来增加模型间的分歧;2) 使用线性探针作为正确性分类器,以减少训练复杂度并提高可解释性;3) 在模型的不同层提取隐藏状态,以研究特权知识在模型内部的分布情况;4) 针对不同类型的任务(例如,事实性知识、数学推理)进行评估,以研究特权知识的领域依赖性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在事实性知识任务中,使用模型自身隐藏状态训练的正确性分类器(self-probe)在模型间存在分歧的样本上,始终优于使用其他模型隐藏状态训练的分类器(peer-probe)。但在数学推理任务中,没有观察到明显的优势。此外,研究还发现,事实性知识的特权优势从模型早期到中期层逐渐显现。
🎯 应用场景
该研究成果可应用于提升LLM的可靠性和可解释性。通过识别和利用模型自身的特权知识,可以提高模型在特定领域的性能,并更好地理解模型的决策过程。此外,该研究还可以用于开发更有效的模型训练方法,例如,通过鼓励模型学习和利用自身的特权知识来提高泛化能力。
📄 摘要(原文)
Humans use introspection to evaluate their understanding through private internal states inaccessible to external observers. We investigate whether large language models possess similar privileged knowledge about answer correctness, information unavailable through external observation. We train correctness classifiers on question representations from both a model's own hidden states and external models, testing whether self-representations provide a performance advantage. On standard evaluation, we find no advantage: self-probes perform comparably to peer-model probes. We hypothesize this is due to high inter-model agreement of answer correctness. To isolate genuine privileged knowledge, we evaluate on disagreement subsets, where models produce conflicting predictions. Here, we discover domain-specific privileged knowledge: self-representations consistently outperform peer representations in factual knowledge tasks, but show no advantage in math reasoning. We further localize this domain asymmetry across model layers, finding that the factual advantage emerges progressively from early-to-mid layers onward, consistent with model-specific memory retrieval, while math reasoning shows no consistent advantage at any depth.