ZClassifier: Temperature Tuning and Manifold Approximation via KL Divergence on Logit Space

📄 arXiv: 2507.10638v3 📥 PDF

作者: Shim Soon Yong

分类: cs.LG

发布日期: 2025-07-14 (更新: 2025-08-11)


💡 一句话要点

ZClassifier:通过KL散度在Logit空间进行温度调整和流形逼近

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 分类器 不确定性校准 流形逼近 KL散度 高斯分布 鲁棒性 温度缩放

📋 核心要点

  1. 传统分类器logits的确定性输出,缺乏对不确定性的建模,影响鲁棒性和校准。
  2. ZClassifier将logits建模为高斯分布,通过最小化KL散度实现温度调整和流形逼近。
  3. 实验表明,ZClassifier在CIFAR数据集上,提升了鲁棒性、校准性和潜在空间分离能力。

📝 摘要(中文)

本文提出了一种新的分类框架ZClassifier,它用对角高斯分布的logits取代了传统的确定性logits。我们的方法通过最小化预测的高斯分布与单位各向同性高斯分布之间的KL散度,同时解决了温度缩放和流形逼近问题。这以一种有原则的概率方式统一了不确定性校准和潜在控制,从而能够自然地解释类别置信度和几何一致性。在CIFAR-10和CIFAR-100上的实验表明,ZClassifier在鲁棒性、校准和潜在分离方面优于softmax分类器,并且在小规模和大规模分类设置中都具有一致的优势。

🔬 方法详解

问题定义:传统分类器通常输出确定性的logits,这忽略了模型预测的不确定性。这种确定性输出使得模型在面对对抗样本或噪声数据时鲁棒性较差,并且难以进行有效的校准,即模型的置信度与实际准确率不匹配。此外,传统方法难以在潜在空间中实现良好的类别分离。

核心思路:ZClassifier的核心思想是将分类器的logits建模为对角高斯分布,而不是确定性的数值。通过这种方式,模型可以显式地表示预测的不确定性。同时,通过最小化预测的高斯分布与单位各向同性高斯分布之间的KL散度,可以实现温度缩放和流形逼近,从而提高模型的鲁棒性、校准性和潜在空间分离能力。

技术框架:ZClassifier的整体框架包括以下几个主要步骤:1) 使用神经网络提取输入特征;2) 将提取的特征映射到对角高斯分布的均值和方差;3) 计算预测的高斯分布与单位各向同性高斯分布之间的KL散度;4) 使用KL散度作为损失函数,优化神经网络的参数。

关键创新:ZClassifier的关键创新在于使用高斯分布建模logits,并利用KL散度统一了不确定性校准和流形逼近。与传统的softmax分类器相比,ZClassifier能够更好地表示预测的不确定性,并且在鲁棒性、校准性和潜在空间分离方面具有优势。此外,ZClassifier提供了一种概率化的方式来解释类别置信度和几何一致性。

关键设计:ZClassifier的关键设计包括:1) 使用对角高斯分布建模logits,简化了计算复杂度;2) 选择单位各向同性高斯分布作为目标分布,便于优化;3) 使用KL散度作为损失函数,同时实现温度缩放和流形逼近。具体的网络结构可以根据不同的任务进行调整,但核心思想保持不变。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ZClassifier在CIFAR-10和CIFAR-100数据集上,相比于传统的softmax分类器,在鲁棒性、校准性和潜在空间分离方面均有显著提升。具体而言,ZClassifier在对抗攻击下的准确率更高,校准误差更小,并且能够学习到更具区分性的潜在空间表示。这些结果表明ZClassifier是一种有效的分类框架,可以提高模型的可靠性和可解释性。

🎯 应用场景

ZClassifier可应用于对模型鲁棒性和校准性有较高要求的场景,例如自动驾驶、医疗诊断等。在这些场景中,模型需要能够准确地评估自身预测的不确定性,并做出可靠的决策。此外,ZClassifier还可以用于提高模型的泛化能力和对抗攻击防御能力。该研究的未来影响在于推动深度学习模型在安全关键领域的应用。

📄 摘要(原文)

We introduce a novel classification framework, ZClassifier, that replaces conventional deterministic logits with diagonal Gaussian-distributed logits. Our method simultaneously addresses temperature scaling and manifold approximation by minimizing the KL divergence between the predicted Gaussian distributions and a unit isotropic Gaussian. This unifies uncertainty calibration and latent control in a principled probabilistic manner, enabling a natural interpretation of class confidence and geometric consistency. Experiments on CIFAR-10 and CIFAR-100 demonstrate that ZClassifier improves over softmax classifiers in robustness, calibration, and latent separation, with consistent benefits across small-scale and large-scale classification settings.