Why Conclusions Diverge from the Same Observations: Formalizing World-Model Non-Identifiability via an Inference

作者: Toru Takahashi

分类: cs.AI, cs.CY, cs.LG

发布日期: 2026-05-12

备注: 12 pages, 2 figures, 1 table. Extended English version of a paper accepted for presentation at JSAI 2026

💡 一句话要点

形式化世界模型非唯一性，解释相同观察得出不同结论的现象

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 非唯一性 推理 深度学习 表征学习

📋 核心要点

现有方法难以解释为何人们基于相同信息得出不同结论，常归咎于认知缺陷。
论文提出世界模型非唯一性概念，区分推理设置和世界模型本身的差异。
引入推理剖面(Reference, Exploration, Stabilization, Horizon)分析分歧，并关联到深度学习。

📝 摘要（中文）

当人们共享相同的文件和观察结果，却得出不同的结论时，这种分歧通常会演变成对对方认知缺陷、不理性或恶意行为的判断。本文认为，这种分歧最好被描述为推理和学习中固有的非唯一性形式，而不是对方的缺陷。我们将这种现象组织成两个层次：（i）$θ$级非唯一性，即在相同的世界模型$W$下，由于推理设置不同而导致结论不同；（ii）$W$级非唯一性，即重复使用推理设置$θ$会偏置数据暴露和更新规则，导致学习到的世界模型$W$本身出现分歧。我们引入了一个推理剖面$θ= (R, E, S, D)$，包括参考(Reference)、探索(Exploration)、稳定(Stabilization)和视野(Horizon)，并展示了即使对于相同的观察$o$和相同的$W$，输出也可能出现分歧。我们进一步解释了为什么分歧倾向于投射到少数几个基础上——抽象与具体、可外部化性以及秩序与自由——这是由于学习系统的一般约束：计算约束、观察约束和协调约束。最后，我们将该框架与深度表征学习联系起来，包括表征层次、潜在状态估计和正则化-探索权衡，并通过一个关于人工智能监管辩论的案例研究来说明该框架。

🔬 方法详解

问题定义：论文旨在解决的问题是，为什么人们在拥有相同的信息和观察的情况下，会得出截然不同的结论。现有的解释往往侧重于认知偏差或理性缺陷，缺乏一个形式化的框架来理解这种分歧的根源。这种现象在社会科学、政治辩论以及人工智能伦理等领域都非常普遍，理解其内在机制至关重要。

核心思路：论文的核心思路是将这种分歧归因于世界模型的非唯一性，即不同的个体或系统可能基于相同的观察学习到不同的世界模型，或者在相同的世界模型下采用不同的推理策略。这种非唯一性分为两个层次：$θ$级非唯一性（推理设置不同）和$W$级非唯一性（世界模型本身不同）。通过形式化推理过程，论文旨在揭示导致分歧的关键因素。

技术框架：论文构建了一个形式化的推理框架，其中核心概念是推理剖面$θ= (R, E, S, D)$。R代表参考(Reference)，即先验知识或信念；E代表探索(Exploration)，即如何探索新的信息；S代表稳定(Stabilization)，即如何整合新信息并更新世界模型；D代表视野(Horizon)，即考虑的时间范围或未来影响。该框架通过分析这些因素的差异，解释了为何即使在相同的观察下，不同的个体或系统也可能得出不同的结论。

关键创新：论文最重要的创新在于提出了世界模型非唯一性的概念，并将其形式化为两个层次。通过引入推理剖面，论文提供了一个结构化的方法来分析推理过程中的差异，并解释了这些差异如何导致结论的分歧。此外，论文还将该框架与深度表征学习联系起来，为理解深度学习模型中的表征学习和探索-利用权衡提供了新的视角。

关键设计：推理剖面$θ= (R, E, S, D)$是关键的设计。每个组成部分都代表了推理过程中的一个重要方面。例如，参考(R)可以被建模为先验概率分布，探索(E)可以被建模为探索策略，稳定(S)可以被建模为贝叶斯更新规则，视野(D)可以被建模为时间折扣因子。论文并未提供具体的参数设置或网络结构，而是侧重于概念框架的构建和分析。

📊 实验亮点

论文通过形式化推理框架，揭示了世界模型非唯一性是导致相同观察得出不同结论的关键因素。引入的推理剖面(Reference, Exploration, Stabilization, Horizon)为分析推理过程中的差异提供了结构化方法。案例研究表明，该框架可用于分析AI监管辩论中的分歧，并为解决类似问题提供指导。

🎯 应用场景

该研究成果可应用于理解和解决社会科学、政治辩论以及人工智能伦理等领域的分歧问题。例如，在AI监管辩论中，不同利益相关者可能基于相同的技术报告得出不同的监管建议。该框架有助于识别分歧的根源，促进更有效的沟通和协商。此外，该研究还可用于改进深度学习模型的探索策略和表征学习，提高模型的泛化能力和鲁棒性。

📄 摘要（原文）

When people share the same documents and observations yet reach different conclusions, the disagreement often shifts into a judgment that the other party is cognitively defective, irrational, or acting in bad faith. This paper argues that such divergence is better described as a form of non-identifiability inherent in inference and learning, rather than as a defect of the other party. We organize the phenomenon into two levels: (i) $θ$-level non-identifiability, where conclusions diverge under the same world model $W$ because inference settings differ; and (ii) $W$-level non-identifiability, where repeated use of an inference setting $θ$ biases data exposure and update rules, causing the learned world model $W$ itself to diverge. We introduce an inference profile $θ= (R, E, S, D)$, consisting of Reference, Exploration, Stabilization, and Horizon, and show how outputs can split even for the same observation $o$ and the same $W$. We further explain why disagreements tend to project onto a small number of bases -- abstract versus concrete, externalizability, and order versus freedom -- as a consequence of general constraints on learning systems: computational, observational, and coordination constraints. Finally, we relate the framework to deep representation learning, including representation hierarchy, latent-state estimation, and regularization-exploration trade-offs, and illustrate the framework through a case study on AI regulation debates.

Why Conclusions Diverge from the Same Observations: Formalizing World-Model Non-Identifiability via an Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理