Cross-Entropy Is Load-Bearing: A Pre-Registered Scope Test of the K-Way Energy Probe on Bidirectional Predictive Coding

作者: Jon-Paul Cacioli

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-23

备注: 11 pages, 3 figures, 4 tables. Pre-registered on OSF (https://osf.io/2kvsp). Code at https://github.com/synthiumjp/ima

💡 一句话要点

研究交叉熵损失在双向预测编码网络能量探针中的作用

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 交叉熵损失 预测编码 能量探针 双向预测编码 表示学习

📋 核心要点

现有研究表明，交叉熵损失在预测编码网络中起着重要作用，但其具体影响机制尚不明确。
本研究通过移除交叉熵损失，并引入双向预测编码，来测试交叉熵损失对能量探针的影响。
实验结果表明，交叉熵损失是能量探针分解的重要组成部分，并影响输出logit的尺度和排序。

📝 摘要（中文）

Cacioli (2026) 证明了标准判别式预测编码网络上的 K-way 能量探针近似简化为 log-softmax 裕度的单调函数。该简化基于五个假设，包括输出端的交叉熵 (CE) 和有效的feedforward推理动态。本预注册研究通过两种条件测试了该简化对去除 CE 的敏感性：使用 MSE 而不是 CE 训练的标准 PC，以及双向 PC (bPC; Oliviers, Tang & Bogacz, 2025)。在 CIFAR-10 上使用匹配的 210 万参数骨干网络的 10 个种子中，我们发现了三个结果。阴性结果在标准 PC 上重现：探针低于 softmax (Delta = -0.082, p < 10^-6)。在 bPC 上，探针超过了所有 10 个种子的 softmax (Delta = +0.008, p = 0.000027)，尽管预先注册的操纵检查表明，在这种规模下，bPC 产生的潜在运动并不比标准 PC 大 (比率 1.6，阈值 10)。在不改变推理动态的情况下单独去除 CE 会使探针-softmax 差距减半 (Delta_MSE = -0.037 vs Delta_stdPC = -0.082)。在这种规模下，CE 是分解的一个主要的经验性承重组件。CE 训练产生的输出 logit 范数大约比 MSE 或 bPC 训练大 15 倍。事后温度缩放消融将探针-softmax 差距分解为两个组成部分：大约 66% 可归因于可以通过温度重新缩放消除的 logit 尺度效应，大约 34% 反映了 CE 训练表示的尺度不变排序优势。我们使用“元认知”在操作上表示读数对其自身 Type-1 正确性的 Type-2 辨别，而不是暗示类似人类的内省访问。

🔬 方法详解

问题定义：论文旨在研究交叉熵损失函数在预测编码网络中对K-way能量探针的影响。现有研究表明，交叉熵损失在标准判别式预测编码网络中起着重要作用，但其具体影响机制尚不明确。现有方法的痛点在于缺乏对交叉熵损失在能量探针分解中的具体作用的量化分析。

核心思路：论文的核心思路是通过移除交叉熵损失函数，并引入双向预测编码（bPC）网络，来观察能量探针的行为变化，从而分析交叉熵损失函数在能量探针分解中的作用。通过对比使用交叉熵损失、MSE损失以及双向预测编码网络的结果，来量化交叉熵损失对logit尺度和排序的影响。

技术框架：整体框架包括以下几个步骤：1) 使用标准预测编码网络（PC）和双向预测编码网络（bPC）在CIFAR-10数据集上进行训练。2) 使用交叉熵损失函数和MSE损失函数分别训练PC网络。3) 在训练好的网络上应用K-way能量探针，并测量探针与softmax之间的差距。4) 进行温度缩放消融实验，以分解探针-softmax差距。主要模块包括标准PC网络、双向PC网络、K-way能量探针和温度缩放模块。

关键创新：论文的关键创新在于：1) 通过实验验证了交叉熵损失函数在能量探针分解中的重要作用。2) 提出了通过温度缩放消融实验来分解探针-softmax差距的方法，从而量化了交叉熵损失对logit尺度和排序的影响。3) 实验结果表明，交叉熵损失不仅影响logit的尺度，还影响logit的排序。

关键设计：论文的关键设计包括：1) 使用CIFAR-10数据集进行实验，并使用匹配的210万参数骨干网络。2) 使用10个随机种子进行训练，以保证实验结果的可靠性。3) 使用K-way能量探针来测量探针与softmax之间的差距。4) 使用温度缩放消融实验来分解探针-softmax差距，并将差距分解为logit尺度效应和尺度不变排序优势。

🖼️ 关键图片

📊 实验亮点

实验结果表明，移除交叉熵损失会导致探针-softmax差距减半（Delta_MSE = -0.037 vs Delta_stdPC = -0.082）。CE训练产生的输出logit范数大约比MSE或bPC训练大15倍。温度缩放消融实验表明，探针-softmax差距的约66%可归因于logit尺度效应，约34%反映了尺度不变排序优势。

🎯 应用场景

该研究成果可应用于理解和改进深度学习模型的表示学习能力，尤其是在预测编码网络中。通过更好地理解交叉熵损失的作用，可以设计更有效的训练策略和网络结构，从而提高模型的性能和泛化能力。此外，该研究对于开发更具鲁棒性和可解释性的AI系统具有潜在价值。

📄 摘要（原文）

Cacioli (2026) showed that the K-way energy probe on standard discriminative predictive coding networks reduces approximately to a monotone function of the log-softmax margin. The reduction rests on five assumptions, including cross-entropy (CE) at the output and effectively feedforward inference dynamics. This pre-registered study tests the reduction's sensitivity to CE removal using two conditions: standard PC trained with MSE instead of CE, and bidirectional PC (bPC; Oliviers, Tang & Bogacz, 2025). Across 10 seeds on CIFAR-10 with a matched 2.1M-parameter backbone, we find three results. The negative result replicates on standard PC: the probe sits below softmax (Delta = -0.082, p < 10^-6). On bPC the probe exceeds softmax across all 10 seeds (Delta = +0.008, p = 0.000027), though a pre-registered manipulation check shows that bPC does not produce materially greater latent movement than standard PC at this scale (ratio 1.6, threshold 10). Removing CE alone without changing inference dynamics halves the probe-softmax gap (Delta_MSE = -0.037 vs Delta_stdPC = -0.082). CE is a major empirically load-bearing component of the decomposition at this scale. CE training produces output logit norms approximately 15x larger than MSE or bPC training. A post-hoc temperature scaling ablation decomposes the probe-softmax gap into two components: approximately 66% is attributable to logit-scale effects removable by temperature rescaling, and approximately 34% reflects a scale-invariant ranking advantage of CE-trained representations. We use "metacognitive" operationally to denote Type-2 discrimination of a readout over its own Type-1 correctness, not to imply human-like introspective access.

Cross-Entropy Is Load-Bearing: A Pre-Registered Scope Test of the K-Way Energy Probe on Bidirectional Predictive Coding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理