SPHERE-JEPA: Spherical Prediction with Homogeneous Embeddings

📄 arXiv: 2605.26900v1 📥 PDF

作者: Léo Nicollier, Max Dunitz, Marc Pic, Pablo Musé, Enric Meinhardt-Llopis, Gabriele Facciolo

分类: cs.LG

发布日期: 2026-05-26


💡 一句话要点

SPHERE-JEPA:通过均匀嵌入的球面预测,提升自监督学习表征质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自监督学习 表征学习 流形学习 超球面均匀性 Cramér-Wold投影 图像检索 核岭回归 k近邻

📋 核心要点

  1. 现有自监督学习方法在流形数据上的表征学习中,缺乏对最优几何结构的明确刻画,尤其是在超球面等流形上。
  2. SPHERE-JEPA通过理论分析,发现超球面均匀分布是流形数据上k近邻和核岭回归的最优解,并以此为基础设计自监督学习框架。
  3. 实验结果表明,SPHERE-JEPA在纹理检索和ImageNet-1K等标准数据集上均取得了显著的性能提升,验证了其有效性。

📝 摘要(中文)

自监督学习(SSL)中一个基本的开放问题是明确表征学习的最优几何结构。最近,LeJEPA表明各向同性高斯嵌入是最小化欧几里得空间下游预测风险的最优选择。然而,对于支撑在低维流形(如超球面)上的分布,相应的问题仍未被探索。本文证明,将这种极小极大分析扩展到黎曼流形上的平滑分布,从根本上改变了最优解。我们表明,在最坏情况的公式下,k近邻和核岭回归都会诱导超球面均匀性。更准确地说,我们证明了流形上的均匀分布对于k近邻是最优的,而球面上的均匀分布对于具有指数点积核和线性核的核岭回归是最优的。这一理论洞见揭示了高斯嵌入的一个根本局限性:其非均匀密度会诱导各向异性的k近邻邻域,严重偏置估计器。为了纠正这一点,我们引入了SPHERE-JEPA,这是一个基于理论的SSL框架。我们调整LeJEPA的Cramér-Wold投影机制,以强制执行超球面均匀性而不是高斯先验。实验表明,SPHERE-JEPA产生了显著的改进,将纹理检索mAP提高了6%以上,同时在标准基准测试中始终与LeJEPA相匹配或优于LeJEPA,包括在ImageNet-1K上+1.8%的线性探测增益(ViT-B/14)。

🔬 方法详解

问题定义:现有自监督学习方法,如LeJEPA,侧重于在欧几里得空间中学习各向同性高斯嵌入。然而,对于分布在低维流形(例如超球面)上的数据,这种高斯嵌入可能不是最优的。高斯嵌入的非均匀密度会导致k近邻估计器的偏差,从而影响下游任务的性能。因此,需要研究在流形数据上学习最优表征几何结构的方法。

核心思路:论文的核心思路是基于极小极大分析,证明在流形数据上,均匀分布是k近邻和核岭回归的最优解。具体来说,对于k近邻,流形上的均匀分布是最优的;对于核岭回归,球面上的均匀分布在使用指数点积核和线性核时是最优的。基于这一理论结果,论文提出通过强制执行超球面均匀性来学习更好的表征。

技术框架:SPHERE-JEPA框架基于LeJEPA,但对其进行了修改以适应超球面几何。主要包括以下几个阶段:1) 使用编码器将输入数据映射到嵌入空间;2) 使用Cramér-Wold投影机制,将嵌入投影到随机方向上;3) 通过损失函数,鼓励投影后的嵌入服从超球面上的均匀分布。

关键创新:SPHERE-JEPA的关键创新在于将LeJEPA的Cramér-Wold投影机制调整为强制执行超球面均匀性,而不是高斯先验。这与现有方法(如LeJEPA)的本质区别在于,SPHERE-JEPA考虑了流形数据的几何结构,并学习了更适合流形数据的表征。

关键设计:SPHERE-JEPA的关键设计包括:1) 使用Cramér-Wold投影机制来强制执行超球面均匀性;2) 设计损失函数来衡量嵌入与超球面均匀分布之间的差异;3) 使用ViT-B/14等Transformer模型作为编码器,以学习高质量的嵌入。

📊 实验亮点

SPHERE-JEPA在纹理检索任务中取得了显著的性能提升,mAP提高了6%以上。在ImageNet-1K数据集上,SPHERE-JEPA的线性探测性能优于LeJEPA,提升了1.8%(使用ViT-B/14)。这些实验结果表明,SPHERE-JEPA能够学习到更好的表征,并在各种下游任务中表现出色。

🎯 应用场景

SPHERE-JEPA的潜在应用领域包括图像检索、纹理分析、三维形状分析等。通过学习更适合流形数据的表征,SPHERE-JEPA可以提高这些应用中的性能。此外,该研究对于理解自监督学习中的最优表征几何结构具有重要的理论价值,并可能促进未来自监督学习算法的发展。

📄 摘要(原文)

A fundamental open question in self-supervised learning (SSL) is the explicit characterization of the optimal geometry of the learned representations. Recently, LeJEPA identified isotropic Gaussian embeddings as optimal for minimizing downstream prediction risk in Euclidean spaces. However, the corresponding problem for distributions supported on lower-dimensional manifolds, such as the hypersphere, remains unexplored. In this work, we demonstrate that extending this minimax analysis to smooth distributions on Riemannian manifolds fundamentally changes the optimal solution. We show that, under a worst-case formulation, both k-nearest neighbors and kernel ridge regression induce hyperspherical uniformity. More precisely, we show that uniform distributions on manifolds are optimal for k-nearest neighbors, and that the uniform distribution on the sphere is optimal for kernel ridge regression with both the exponential dot-product kernel and the linear kernel. This theoretical insight reveals a fundamental limitation of Gaussian embeddings: their non-uniform density induces anisotropic k-NN neighborhoods, severely biasing the estimator. To correct this, we introduce SPHERE-JEPA, a theoretically grounded SSL framework. We adapt LeJEPA's Cram{é}r-Wold projection mechanism to enforce hyperspherical uniformity rather than a Gaussian prior. Empirically, SPHERE-JEPA yields significant improvements, boosting texture retrieval mAP by over 6%, while consistently matching or outperforming LeJEPA on standard benchmarks-including a +1.8% linear probing gain on ImageNet-1K (ViT-B/14).