Three Regimes of Context-Parametric Conflict: A Predictive Framework and Empirical Validation

📄 arXiv: 2605.11574v1 📥 PDF

作者: Pruthvinath Jeripity Venkata

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-12

备注: 10 pages, 13 tables, no figures. 9,970 API calls across five frontier models


💡 一句话要点

提出上下文参数冲突三阶段框架,预测并验证大语言模型知识更新行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识冲突 上下文学习 参数确定性 任务框架

📋 核心要点

  1. 现有研究对大语言模型处理知识冲突的结论不一致,模型有时固守训练知识,有时又倾向于上下文信息。
  2. 论文提出三阶段框架,根据证据一致性、参数确定性和任务知识需求,预测模型在不同情境下的行为。
  3. 实验验证了该框架,证明了参数强度和唯一性的正交性,以及任务框架对模型行为的显著影响。

📝 摘要(中文)

本文研究了大语言模型在训练知识与矛盾文档之间的冲突处理。现有研究存在经验矛盾:一些研究发现模型固执地保留训练答案,几乎一半的时间忽略提供的文档;而另一些研究发现模型容易服从文档,遵循上下文的比例约为96%。我们认为,一旦认识到先前的实验研究了三种性质不同的处理情况而没有区分它们,这些矛盾就会消失。我们提出了一个三阶段框架:阶段1(单源更新,主要预测因子:证据一致性),阶段2(竞争整合,主要预测因子:参数确定性),阶段3(任务适当选择,主要预测因子:任务知识需求)。我们将参数强度(暴露频率)和参数唯一性(编码一致性)区分开来,并从经验上表明它们是正交维度(r = -0.002,p = .97),强度是稳定事实领域中的有效预测因子。我们使用9,970次API调用,通过三个实验阶段,在Claude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick和DeepSeek V3上验证了该框架。GEE逻辑回归证实了所有五个模型的预测阶段2确定性梯度(beta = -0.38至-0.50,所有p <= .013,BH-FDR校正)。阶段3消融实验表明,仅任务框架就将上下文遵循从接近100%(上下文知识条件)翻转到6-71%(参数知识条件),所有五个模型均显着(p < .001)。确定性梯度对于多项式结果建模、对冲响应的敏感性分析和FDR校正具有鲁棒性。

🔬 方法详解

问题定义:论文旨在解决大语言模型在面对训练知识与上下文信息冲突时,行为表现不一致的问题。现有方法未能区分不同类型的冲突场景,导致对模型行为的理解和预测出现偏差。现有研究的痛点在于缺乏一个统一的框架来解释和预测模型在不同冲突情境下的行为。

核心思路:论文的核心思路是将知识冲突划分为三个不同的阶段(Regimes),每个阶段由不同的因素主导模型的行为。通过区分这些阶段,可以更准确地预测模型是倾向于保留训练知识,还是遵循上下文信息。这种划分基于对模型知识来源、任务需求和参数确定性的考量。

技术框架:论文提出的框架包含三个阶段: 1. 阶段1 (单源更新):当上下文提供的信息与模型已有的知识一致时,模型倾向于接受并更新知识,主要受证据一致性驱动。 2. 阶段2 (竞争整合):当上下文提供的信息与模型已有的知识冲突时,模型会进行竞争整合,主要受参数确定性(即模型对已有知识的置信度)驱动。 3. 阶段3 (任务适当选择):当任务需要特定类型的知识(例如,上下文知识或参数知识)时,模型会根据任务需求选择合适的知识来源,主要受任务知识需求驱动。

关键创新:论文最重要的技术创新点在于提出了一个三阶段的知识冲突处理框架,并明确了每个阶段的主导因素。此外,论文还区分了参数强度(exposure frequency)和参数唯一性(encoding consistency),并证明了它们是正交的维度。这种区分有助于更深入地理解参数确定性对模型行为的影响。

关键设计:论文的关键设计包括: 1. 使用GEE逻辑回归来验证阶段2的确定性梯度。 2. 通过消融实验来评估任务框架对阶段3的影响。 3. 使用多种大语言模型(Claude Sonnet 4.6, GPT-5.5, Gemini 2.5 Flash, Llama 4 Maverick, DeepSeek V3)进行实验,以验证框架的泛化能力。 4. 采用BH-FDR校正来控制多重比较带来的误差。

📊 实验亮点

实验结果表明,GEE逻辑回归证实了所有五个模型的预测阶段2确定性梯度(beta = -0.38至-0.50,所有p <= .013,BH-FDR校正)。阶段3消融实验表明,仅任务框架就将上下文遵循从接近100%(上下文知识条件)翻转到6-71%(参数知识条件),所有五个模型均显着(p < .001)。这些结果有力地支持了论文提出的三阶段框架。

🎯 应用场景

该研究成果可应用于提升大语言模型的可控性和可靠性,例如在信息检索、问答系统和对话生成等领域。通过理解模型在不同情境下的知识更新行为,可以更好地引导模型利用上下文信息,避免模型产生与事实相悖的回答,从而提高用户体验和信任度。未来,该框架可以扩展到更复杂的知识冲突场景,并用于指导模型训练和微调。

📄 摘要(原文)

The literature on how large language models handle conflict between their training knowledge and a contradicting document presents a persistent empirical contradiction: some studies find models stubbornly retain their trained answers, ignoring provided documents nearly half the time, while others find models readily defer to the document, following context approximately 96% of the time. We argue these contradictions dissolve once one recognises that prior experiments have studied three qualitatively distinct processing situations without distinguishing them. We propose a three-regime framework: Regime 1 (single-source updating, dominant predictor: evidence coherence), Regime 2 (competitive integration, dominant predictor: parametric certainty), and Regime 3 (task-appropriate selection, dominant predictor: task knowledge requirement). We formalise a distinction between parametric strength (exposure frequency) and parametric uniqueness (encoding consistency), showing empirically that these are orthogonal dimensions (r = -0.002, p = .97) with strength as the operative predictor in stable factual domains. We validate the framework across Claude Sonnet 4.6, GPT-5.5, Gemini 2.5 Flash, Llama 4 Maverick, and DeepSeek V3 using 9,970 API calls in three experimental phases. GEE logistic regression confirms the predicted Regime 2 certainty gradient for all five models (beta = -0.38 to -0.50, all p <= .013, BH-FDR corrected). A Regime 3 ablation shows task framing alone flips context-following from near-100% (contextual knowledge condition) to 6-71% (parametric knowledge condition), with all five models significant (p < .001). The certainty gradient is robust to multinomial outcome modeling, sensitivity analyses for hedging responses, and FDR correction.