Why Conclusions Diverge from the Same Observations: Formalizing World-Model Non-Identifiability via an Inference

📄 arXiv: 2605.12255v1 📥 PDF

作者: Toru Takahashi

分类: cs.AI, cs.CY, cs.LG

发布日期: 2026-05-12

备注: 12 pages, 2 figures, 1 table. Extended English version of a paper accepted for presentation at JSAI 2026


💡 一句话要点

形式化世界模型非唯一性,解释相同观察得出不同结论的现象

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 非唯一性 推理 深度学习 表征学习

📋 核心要点

  1. 现有方法难以解释为何人们基于相同信息得出不同结论,常归咎于认知缺陷。
  2. 论文提出世界模型非唯一性概念,区分推理设置和世界模型本身的差异。
  3. 引入推理剖面(Reference, Exploration, Stabilization, Horizon)分析分歧,并关联到深度学习。

📝 摘要(中文)

当人们共享相同的文件和观察结果,却得出不同的结论时,这种分歧通常会演变成对对方认知缺陷、不理性或恶意行为的判断。本文认为,这种分歧最好被描述为推理和学习中固有的非唯一性形式,而不是对方的缺陷。我们将这种现象组织成两个层次:(i)$θ$级非唯一性,即在相同的世界模型$W$下,由于推理设置不同而导致结论不同;(ii)$W$级非唯一性,即重复使用推理设置$θ$会偏置数据暴露和更新规则,导致学习到的世界模型$W$本身出现分歧。我们引入了一个推理剖面$θ= (R, E, S, D)$,包括参考(Reference)、探索(Exploration)、稳定(Stabilization)和视野(Horizon),并展示了即使对于相同的观察$o$和相同的$W$,输出也可能出现分歧。我们进一步解释了为什么分歧倾向于投射到少数几个基础上——抽象与具体、可外部化性以及秩序与自由——这是由于学习系统的一般约束:计算约束、观察约束和协调约束。最后,我们将该框架与深度表征学习联系起来,包括表征层次、潜在状态估计和正则化-探索权衡,并通过一个关于人工智能监管辩论的案例研究来说明该框架。

🔬 方法详解

问题定义:论文旨在解决的问题是,为什么人们在拥有相同的信息和观察的情况下,会得出截然不同的结论。现有的解释往往侧重于认知偏差或理性缺陷,缺乏一个形式化的框架来理解这种分歧的根源。这种现象在社会科学、政治辩论以及人工智能伦理等领域都非常普遍,理解其内在机制至关重要。

核心思路:论文的核心思路是将这种分歧归因于世界模型的非唯一性,即不同的个体或系统可能基于相同的观察学习到不同的世界模型,或者在相同的世界模型下采用不同的推理策略。这种非唯一性分为两个层次:$θ$级非唯一性(推理设置不同)和$W$级非唯一性(世界模型本身不同)。通过形式化推理过程,论文旨在揭示导致分歧的关键因素。

技术框架:论文构建了一个形式化的推理框架,其中核心概念是推理剖面$θ= (R, E, S, D)$。R代表参考(Reference),即先验知识或信念;E代表探索(Exploration),即如何探索新的信息;S代表稳定(Stabilization),即如何整合新信息并更新世界模型;D代表视野(Horizon),即考虑的时间范围或未来影响。该框架通过分析这些因素的差异,解释了为何即使在相同的观察下,不同的个体或系统也可能得出不同的结论。

关键创新:论文最重要的创新在于提出了世界模型非唯一性的概念,并将其形式化为两个层次。通过引入推理剖面,论文提供了一个结构化的方法来分析推理过程中的差异,并解释了这些差异如何导致结论的分歧。此外,论文还将该框架与深度表征学习联系起来,为理解深度学习模型中的表征学习和探索-利用权衡提供了新的视角。

关键设计:推理剖面$θ= (R, E, S, D)$是关键的设计。每个组成部分都代表了推理过程中的一个重要方面。例如,参考(R)可以被建模为先验概率分布,探索(E)可以被建模为探索策略,稳定(S)可以被建模为贝叶斯更新规则,视野(D)可以被建模为时间折扣因子。论文并未提供具体的参数设置或网络结构,而是侧重于概念框架的构建和分析。

📊 实验亮点

论文通过形式化推理框架,揭示了世界模型非唯一性是导致相同观察得出不同结论的关键因素。引入的推理剖面(Reference, Exploration, Stabilization, Horizon)为分析推理过程中的差异提供了结构化方法。案例研究表明,该框架可用于分析AI监管辩论中的分歧,并为解决类似问题提供指导。

🎯 应用场景

该研究成果可应用于理解和解决社会科学、政治辩论以及人工智能伦理等领域的分歧问题。例如,在AI监管辩论中,不同利益相关者可能基于相同的技术报告得出不同的监管建议。该框架有助于识别分歧的根源,促进更有效的沟通和协商。此外,该研究还可用于改进深度学习模型的探索策略和表征学习,提高模型的泛化能力和鲁棒性。

📄 摘要(原文)

When people share the same documents and observations yet reach different conclusions, the disagreement often shifts into a judgment that the other party is cognitively defective, irrational, or acting in bad faith. This paper argues that such divergence is better described as a form of non-identifiability inherent in inference and learning, rather than as a defect of the other party. We organize the phenomenon into two levels: (i) $θ$-level non-identifiability, where conclusions diverge under the same world model $W$ because inference settings differ; and (ii) $W$-level non-identifiability, where repeated use of an inference setting $θ$ biases data exposure and update rules, causing the learned world model $W$ itself to diverge. We introduce an inference profile $θ= (R, E, S, D)$, consisting of Reference, Exploration, Stabilization, and Horizon, and show how outputs can split even for the same observation $o$ and the same $W$. We further explain why disagreements tend to project onto a small number of bases -- abstract versus concrete, externalizability, and order versus freedom -- as a consequence of general constraints on learning systems: computational, observational, and coordination constraints. Finally, we relate the framework to deep representation learning, including representation hierarchy, latent-state estimation, and regularization-exploration trade-offs, and illustrate the framework through a case study on AI regulation debates.