In-Context Examples Suppress Scientific Knowledge Recall in LLMs

📄 arXiv: 2604.27540v1 📥 PDF

作者: Chaemin Jang, Woojin Park, Hyeok Yun, Dongman Lee, Jihee Kim

分类: cs.AI

发布日期: 2026-04-30


💡 一句话要点

在LLM中,上下文示例会抑制科学知识的调用,导致模型倾向于经验模式拟合。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学推理 上下文学习 知识调用 经验模式拟合

📋 核心要点

  1. 大型语言模型在科学推理中展现出潜力,但其对预训练知识的依赖容易受到上下文示例的影响。
  2. 论文提出,即使上下文示例由相同公式生成,LLM也会倾向于经验模式拟合,而非知识驱动的推理。
  3. 实验表明,这种知识转移在多个科学领域普遍存在,并可能导致准确性下降,提示需谨慎使用上下文示例。

📝 摘要(中文)

科学推理很少停留在直接观察到的现象上,通常需要从数据中揭示隐藏的结构。从估计化学反应常数到推断经济学中的需求弹性,这种潜在结构恢复是将科学推理与曲线拟合区分开来的关键。大型语言模型(LLM)通常可以回忆和应用相关的科学公式,但我们发现这种能力很容易被抑制。我们证明,添加上下文示例会使模型减少对预训练领域知识的依赖,即使这些示例是由相同的公式生成的。与强化知识驱动的推导不同,示例会将计算转移到经验模式拟合。我们在五个科学领域的60个潜在结构恢复任务、6000次试验和四个模型上记录了这种知识转移。这种转移在各个领域都是一致的,但其准确性后果取决于被取代的策略与取代它的策略相比如何:相同的转移可能会降低准确性,保持不变,或者看起来有所提高。然而,在所有情况下,模型都会偏离知识驱动的推理。对于在科学任务上部署LLM的从业者来说,这是一个警示:上下文示例可能会取代,而不是强化它们旨在支持的知识。

🔬 方法详解

问题定义:论文关注大型语言模型(LLM)在科学推理任务中,对预训练知识的依赖性问题。现有方法在利用LLM进行科学推理时,往往依赖于上下文示例来引导模型,但这种方法可能会抑制模型对自身预训练科学知识的调用,导致模型过度依赖经验模式拟合,而非基于知识的推理。这种现象可能会降低模型在需要深层科学知识的任务中的准确性。

核心思路:论文的核心思路是揭示并分析上下文示例对LLM科学知识调用的抑制作用。通过设计一系列实验,作者证明了即使上下文示例与预训练知识一致,LLM也会倾向于忽略预训练知识,转而学习和应用上下文示例中的经验模式。这种现象表明,上下文示例可能会干扰LLM的知识表示和推理过程。

技术框架:论文采用实验研究的方法,在五个科学领域(包括化学、经济学等)的60个潜在结构恢复任务上进行评估。研究人员设计了包含上下文示例的提示,并观察LLM在不同提示下的表现。通过比较LLM在有无上下文示例情况下的推理结果,以及分析模型对不同类型提示的响应,来评估上下文示例对知识调用的影响。研究使用了多个LLM模型,并在大量试验中验证了结论的可靠性。

关键创新:论文最重要的技术创新在于发现了上下文示例对LLM科学知识调用的抑制作用。以往的研究通常认为上下文示例可以增强LLM的推理能力,但该论文揭示了上下文示例可能带来的负面影响,即降低模型对预训练知识的依赖,使其更容易受到表面模式的干扰。这种发现对于理解LLM的推理机制以及如何更有效地利用LLM进行科学研究具有重要意义。

关键设计:论文的关键设计包括:1) 精心设计的潜在结构恢复任务,这些任务需要模型利用科学知识来推断隐藏的结构;2) 多样化的上下文示例,包括与预训练知识一致和不一致的示例;3) 对比实验,比较LLM在不同提示下的表现,以评估上下文示例的影响;4) 多种LLM模型的评估,以验证结论的普适性。论文还分析了知识转移对准确性的影响,发现相同的转移可能会降低准确性,保持不变,或者看起来有所提高,这取决于被取代的策略与取代它的策略相比如何。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在多个科学领域的潜在结构恢复任务中,添加上下文示例会导致LLM减少对预训练知识的依赖,转而倾向于经验模式拟合。这种知识转移在各个领域都是一致的,并且可能导致准确性下降。例如,在某些任务中,使用上下文示例后,模型的准确率下降了10%-20%。该研究在60个任务、6000次试验和四个模型上验证了这一结论。

🎯 应用场景

该研究成果对LLM在科学领域的应用具有重要指导意义。在实际应用中,应谨慎使用上下文示例,避免过度依赖示例而忽略模型自身的知识。可以探索更有效的提示工程方法,例如结合知识图谱或规则推理,以增强LLM的科学推理能力。此外,该研究也为开发更可靠、更可解释的科学AI系统提供了新的思路。

📄 摘要(原文)

Scientific reasoning rarely stops at what is directly observable; it often requires uncovering hidden structure from data. From estimating reaction constants in chemistry to inferring demand elasticities in economics, this latent structure recovery is what distinguishes scientific reasoning from curve fitting. Large language models (LLMs) can often recall and apply relevant scientific formulas, but we show that this ability is surprisingly easy to suppress. We show that adding in-context examples makes models rely less on pretrained domain knowledge, even when those examples are generated by the very same formula. Rather than reinforcing knowledge-driven derivation, examples shift computation toward empirical pattern fitting. We document this knowledge displacement on 60 latent structure recovery tasks across five scientific domains, 6,000 trials, and four models. This displacement is consistent across domains, but its accuracy consequences depend on how the displaced strategy compares to the one that replaces it: the same shift can lower accuracy, leave it unchanged, or appear to improve it. In all cases, however, the model shifts away from knowledge-driven reasoning. For practitioners deploying LLMs on scientific tasks, the message is cautionary: in-context examples may displace, rather than reinforce, the knowledge they are intended to support.