Inside-Out: Hidden Factual Knowledge in LLMs

📄 arXiv: 2503.15299v4 📥 PDF

作者: Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpektor, Jonathan Herzig, Roi Reichart

分类: cs.CL

发布日期: 2025-03-19 (更新: 2025-08-06)

备注: Accepted to COLM 2025


💡 一句话要点

揭示LLM内部隐藏知识:提出内外知识评估框架,发现模型内部知识远超外部表现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识评估 隐藏知识 闭卷问答 内部表示

📋 核心要点

  1. 现有研究未能清晰定义和量化LLM内部蕴含但未显式表达的“隐藏知识”现象。
  2. 论文提出内外知识评估框架,通过比较模型token概率和中间计算结果来量化知识。
  3. 实验表明LLM内部知识显著高于外部表现,且重复采样难以有效挖掘所有隐藏知识。

📝 摘要(中文)

本文提出了一个框架,用于评估大型语言模型(LLM)在其参数中编码的事实知识是否超过其输出中表达的知识。虽然一些研究暗示了这种可能性,但没有研究明确定义或证明这种现象。我们首先提出了知识的正式定义,将其量化为给定问题的正确-错误答案对中,正确答案排名更高的比例。由此产生了外部知识和内部知识,这取决于用于对各个答案候选进行评分的信息:模型可观察的token级别概率或其中间计算。当内部知识超过外部知识时,就会出现隐藏知识。然后,我们提出了一个案例研究,将此框架应用于三个流行的开源LLM,采用闭卷问答设置。结果表明:(1)LLM始终在内部编码比外部表达更多的知识,平均相对差距为40%。(2) 令人惊讶的是,一些知识隐藏得很深,模型可以在内部完美地知道答案,但即使经过1000次大规模重复采样,也无法生成该答案。这揭示了LLM生成能力的根本局限性,(3) 这对通过重复答案采样来扩展闭卷问答中的测试时计算提出了实际限制:由于某些答案实际上永远不会被采样,因此无法获得显着的性能改进,但如果可以采样,我们将保证将它们排在首位。

🔬 方法详解

问题定义:论文旨在解决LLM中“隐藏知识”的评估问题。现有方法主要关注模型输出的显式知识,忽略了模型参数中可能蕴含但未有效表达的知识。这种忽略导致对LLM真实知识水平的低估,并限制了通过重复采样等方法提升模型性能的潜力。

核心思路:论文的核心思路是将知识分为“外部知识”和“内部知识”,并定义了量化指标来衡量它们。外部知识基于模型输出的token概率,反映了模型显式表达的知识;内部知识基于模型的中间计算结果,反映了模型潜在蕴含的知识。通过比较内外知识的差异,可以评估模型中隐藏知识的程度。

技术框架:论文的技术框架主要包含以下几个步骤:1) 定义知识:将知识定义为正确-错误答案对中,正确答案排名更高的比例。2) 计算外部知识:使用模型输出的token级别概率对答案候选进行评分,计算外部知识。3) 计算内部知识:使用模型的中间计算结果(具体实现未知)对答案候选进行评分,计算内部知识。4) 评估隐藏知识:比较外部知识和内部知识,当内部知识超过外部知识时,则存在隐藏知识。

关键创新:论文的关键创新在于提出了内外知识的区分和量化方法,为评估LLM中隐藏知识提供了新的视角。通过比较内外知识,可以更全面地了解LLM的知识水平,并发现模型生成能力的局限性。此外,论文还揭示了重复采样方法在挖掘隐藏知识方面的局限性。

关键设计:论文的关键设计包括:1) 知识的量化定义:将知识定义为正确-错误答案对的排序准确率,使得知识的评估更加客观和可比较。2) 内外知识的区分:通过使用不同的信息源(token概率 vs. 中间计算结果)来评估知识,可以区分模型显式表达的知识和潜在蕴含的知识。3) 闭卷问答设置:采用闭卷问答设置可以更好地评估模型自身的知识水平,避免外部知识的干扰。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,LLM内部编码的知识始终高于外部表达的知识,平均相对差距高达40%。更令人惊讶的是,即使经过1000次重复采样,模型仍然无法生成一些内部已知但外部未表达的正确答案。这表明LLM的生成能力存在根本局限性,限制了通过重复采样提升性能的潜力。

🎯 应用场景

该研究成果可应用于评估和改进LLM的知识表示和生成能力。通过了解模型内部蕴含的知识,可以设计更有效的训练方法,提升模型在知识密集型任务中的表现。此外,该研究也为探索LLM的涌现能力和可解释性提供了新的思路。

📄 摘要(原文)

This work presents a framework for assessing whether large language models (LLMs) encode more factual knowledge in their parameters than what they express in their outputs. While a few studies hint at this possibility, none has clearly defined or demonstrated this phenomenon. We first propose a formal definition of knowledge, quantifying it for a given question as the fraction of correct-incorrect answer pairs where the correct one is ranked higher. This gives rise to external and internal knowledge, depending on the information used to score individual answer candidates: either the model's observable token-level probabilities or its intermediate computations. Hidden knowledge arises when internal knowledge exceeds external knowledge. We then present a case study, applying this framework to three popular open-weights LLMs in a closed-book QA setup. Our results indicate that: (1) LLMs consistently encode more factual knowledge internally than what they express externally, with an average relative gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a model can internally know an answer perfectly, yet fail to generate it even once, despite large-scale repeated sampling of 1,000 answers. This reveals fundamental limitations in the generation capabilities of LLMs, which (3) put a practical constraint on scaling test-time compute via repeated answer sampling in closed-book QA: significant performance improvements remain inaccessible because some answers are practically never sampled, yet if they were, we would be guaranteed to rank them first.