The Predictive-Causal Gap: An Impossibility Theorem and Large-Scale Neural Evidence

作者: Kejun Liu

分类: cs.LG

发布日期: 2026-05-06

备注: 15 pages, 5 figures, 3 tables. Supplemental Material included (Sections S1-S10)

💡 一句话要点

揭示预测学习中的预测-因果差距：理论证明与大规模神经证据

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 预测表征学习 因果推断 自监督学习 世界模型 动态系统 神经网络 预测-因果差距

📋 核心要点

现有预测表征学习方法在复杂动态系统中，难以有效区分系统自身动态与环境影响，导致学习到的表征偏向于预测环境。
论文证明了预测目标本身存在结构性缺陷，当环境模式比系统模式更稳定时，预测模型会优先编码环境信息，造成“预测-因果差距”。
实验表明，即使采用操作性接地等方法，也难以完全消除这种差距，需要更明确的系统-环境边界才能提升因果保真度。

📝 摘要（中文）

本文揭示了预测表征学习中一种系统性的失效模式。在2695个训练用于预测线性高斯动态的神经网络配置中，最优编码器倾向于追踪环境而非其应建模的系统。平均因果保真度（分配给系统自由度的编码器敏感度比例）为0.49，仅有2.5%的配置超过0.70。这种失效随着维度增加而加剧：在N=100时，最优编码器变得因果盲（保真度约为10^{-8}），同时预测误差比因果表征低92%。我们证明这并非优化伪像，而是预测目标的一种结构性属性：当环境模式比系统模式更慢或噪声更小时，群体风险的每个最小化器都会编码前者。展现这种预测-因果差距的动态集合是开放的，并且在参数空间中具有正测度。在一个非线性Duffing-GRU实验中，无约束预测器在55%的任务中学习到环境主导的表征（95%置信区间为41-68%），而操作性接地（operational grounding）下为24%（p=2.3e-3）；环境偏移下的中值分布外MSE膨胀为1.82倍，而操作性接地为1.00倍。操作性接地——将损失限制在系统可观测值上——部分抑制了这种差距，但如果没有明确的系统-环境边界，就无法恢复因果保真度。结果表明，预测-因果差距是学习的一种结构性限制，对自监督表征学习、世界模型和缩放范式具有重要意义。

🔬 方法详解

问题定义：论文旨在解决预测表征学习中，模型学习到的表征无法准确反映系统自身因果关系，而是过度关注环境信息的问题。现有方法在复杂动态系统中，难以区分系统内部动态与外部环境的影响，导致学习到的表征偏向于预测环境变化，而非系统自身状态的演化。这种现象阻碍了模型对系统行为的理解和控制。

核心思路：论文的核心思路是揭示预测目标本身存在的结构性缺陷。作者证明，当环境模式比系统模式更慢或噪声更小时，预测模型为了最小化预测误差，会优先编码环境信息，从而导致“预测-因果差距”。这种差距并非优化算法的问题，而是预测目标函数本身的性质决定的。

技术框架：论文首先在简单的线性高斯动态系统中，通过理论分析和数值实验验证了预测-因果差距的存在。然后，作者在一个非线性Duffing-GRU系统中，进一步研究了这种差距在更复杂环境下的表现。为了缓解这种差距，作者尝试了操作性接地（operational grounding）方法，即限制损失函数只考虑系统可观测变量。

关键创新：论文最重要的创新在于发现了预测-因果差距这一结构性限制。作者通过理论证明和实验验证，表明这种差距是预测目标函数本身的性质决定的，而非优化算法或模型结构的问题。这一发现对自监督表征学习、世界模型等领域具有重要意义。

关键设计：在线性高斯动态系统中，作者通过调整系统和环境的动态特性（例如，速度和噪声水平），来研究预测-因果差距的影响。在非线性Duffing-GRU系统中，作者使用了GRU网络作为预测模型，并采用了均方误差（MSE）作为损失函数。操作性接地方法通过限制损失函数只考虑系统可观测变量，来尝试缓解预测-因果差距。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在N=100的线性高斯动态系统中，最优编码器变得因果盲（保真度约为10^{-8}），同时预测误差比因果表征低92%。在非线性Duffing-GRU系统中，无约束预测器在55%的任务中学习到环境主导的表征，而操作性接地方法可以将这一比例降低到24%（p=2.3e-3）。

🎯 应用场景

该研究成果对自监督表征学习、世界模型和强化学习等领域具有广泛的应用前景。理解并缓解预测-因果差距，有助于提升模型在复杂动态环境下的泛化能力和鲁棒性，使其能够更好地理解和控制真实世界的系统。

📄 摘要（原文）

We report a systematic failure mode in predictive representation learning. Across 2695 neural network configurations trained to predict linear-Gaussian dynamics, the optimal encoder tracks the environment rather than the system it is meant to model. The mean causal fidelity -- the fraction of encoder sensitivity allocated to system degrees of freedom -- is 0.49, and only 2.5% of configurations exceed 0.70. The failure intensifies with dimension: at N=100, the optimal encoder becomes causally blind (fidelity ~10^{-8}) while achieving 92% lower prediction error than the causal representation. We prove this is not an optimization artifact but a structural property of the predictive objective: when environment modes are slower or less noisy than system modes, every minimizer of the population risk encodes the former. The set of dynamics exhibiting this predictive-causal gap is open and of positive measure in parameter space. In a nonlinear Duffing-GRU sweep, unconstrained predictors learn environment-dominant representations in 55% of tasks (95% CI 41--68%) versus 24% under operational grounding (p=2.3e-3); the median out-of-distribution MSE inflation under environment shift is 1.82x versus 1.00x. Operational grounding -- restricting the loss to system observables -- partially suppresses the gap, but causal fidelity is never recovered without an explicit system-environment boundary. The results identify the predictive-causal gap as a structural limit of learning, with implications for self-supervised representation learning, world models, and the scaling paradigm.

The Predictive-Causal Gap: An Impossibility Theorem and Large-Scale Neural Evidence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理