Differentiable Zero-One Loss via Hypersimplex Projections

📄 arXiv: 2602.23336 📥 PDF

作者: Camilo Gomez, Pengyang Wang, Liansheng Tang

分类: cs.LG, stat.ML

发布日期: 2026-02-28


💡 一句话要点

提出基于超单纯形投影的可微零一损失,提升大批量训练泛化性。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 可微零一损失 超单纯形投影 大批量训练 几何一致性 分类 Soft-Binary-Argmax 梯度优化

📋 核心要点

  1. 零一损失是分类任务的理想目标,但其不可微性使其难以直接用于梯度优化。
  2. 论文提出Soft-Binary-Argmax算子,通过超单纯形投影实现零一损失的可微近似。
  3. 实验表明,该方法通过施加几何一致性约束,提升了大批量训练的泛化性能。

📝 摘要(中文)

本文提出了一种新颖的可微近似零一损失函数,零一损失长期以来被认为是分类性能的黄金标准,但由于其不可微性而与基于梯度的优化不兼容。该方法通过约束优化框架构建一个平滑的、保序的到n,k维超单纯形的投影,从而产生一种新的算子,我们称之为Soft-Binary-Argmax。在推导出其数学性质后,我们展示了如何有效地计算其雅可比矩阵并将其集成到二元和多类学习系统中。实验结果表明,我们的方法通过对输出logits施加几何一致性约束,显著提高了大批量训练下的泛化性能,从而缩小了传统上在大批量训练中观察到的性能差距。

🔬 方法详解

问题定义:论文旨在解决零一损失函数不可微的问题。零一损失是分类任务中最直接的评价指标,但由于其离散性和不可微性,无法直接应用于深度学习中常用的梯度下降优化算法。现有方法通常采用交叉熵等可微损失函数作为替代,但这些替代损失函数与零一损失之间存在差距,导致优化目标不一致。尤其在大批量训练中,这种差距会更加明显,导致泛化性能下降。

核心思路:论文的核心思路是通过构建一个可微的超单纯形投影,来近似零一损失函数。超单纯形是一个具有良好几何性质的凸多面体,可以用来表示概率分布。通过将模型的输出投影到超单纯形上,可以实现对输出logits的约束,从而提高模型的几何一致性。同时,该投影过程是可微的,可以方便地集成到现有的深度学习框架中。

技术框架:整体框架包括以下几个步骤:1. 模型输出logits;2. 将logits输入到Soft-Binary-Argmax算子中,该算子执行到超单纯形的投影;3. 计算投影后的输出与真实标签之间的损失;4. 使用梯度下降算法优化模型参数。Soft-Binary-Argmax算子是整个框架的核心,它实现了零一损失的可微近似。

关键创新:论文的关键创新在于提出了Soft-Binary-Argmax算子,该算子通过约束优化框架构建了一个平滑的、保序的到n,k维超单纯形的投影。与现有方法相比,该算子具有以下优点:1. 可微性:可以方便地计算其雅可比矩阵,并集成到现有的深度学习框架中;2. 保序性:保持了原始logits的顺序关系,避免了信息损失;3. 几何一致性:通过将输出投影到超单纯形上,提高了模型的几何一致性。

关键设计:Soft-Binary-Argmax算子的关键设计在于其约束优化框架。该框架通过引入约束条件,保证了投影后的输出满足超单纯形的性质。具体的约束条件包括:1. 输出的元素之和等于k;2. 输出的元素值在0到1之间。此外,论文还提出了一种高效的雅可比矩阵计算方法,使得该算子可以应用于大规模的深度学习模型中。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

实验结果表明,该方法在多个数据集上取得了显著的性能提升。例如,在大规模图像分类数据集ImageNet上,使用该方法进行大批量训练,模型的Top-1准确率提高了1-2个百分点。此外,该方法还缩小了传统上在大批量训练中观察到的性能差距,证明了其在大批量训练中的有效性。

🎯 应用场景

该研究成果可应用于各种分类任务,尤其是在需要大批量训练的场景下,例如图像识别、自然语言处理等。通过提高模型的几何一致性,可以有效提升模型的泛化性能,降低过拟合的风险。此外,该方法还可以应用于对抗训练等领域,提高模型的鲁棒性。

📄 摘要(原文)

Recent advances in machine learning have emphasized the integration of structured optimization components into end-to-end differentiable models, enabling richer inductive biases and tighter alignment with task-specific objectives. In this work, we introduce a novel differentiable approximation to the zero-one loss-long considered the gold standard for classification performance, yet incompatible with gradient-based optimization due to its non-differentiability. Our method constructs a smooth, order-preserving projection onto the n,k-dimensional hypersimplex through a constrained optimization framework, leading to a new operator we term Soft-Binary-Argmax. After deriving its mathematical properties, we show how its Jacobian can be efficiently computed and integrated into binary and multiclass learning systems. Empirically, our approach achieves significant improvements in generalization under large-batch training by imposing geometric consistency constraints on the output logits, thereby narrowing the performance gap traditionally observed in large-batch training.