Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning

📄 arXiv: 2507.14137v3 📥 PDF

作者: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano

分类: cs.CV

发布日期: 2025-07-18 (更新: 2026-01-13)

🔗 代码/项目: GITHUB


💡 一句话要点

Franca:嵌套Matryoshka聚类,实现可扩展的视觉表征学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 视觉表征学习 聚类算法 Matryoshka表征 位置解耦

📋 核心要点

  1. 现有自监督学习(SSL)模型依赖聚类算法,但忽略了聚类语义的模糊性,导致表征学习效果受限。
  2. Franca通过嵌套Matryoshka表征和多头聚类投影器,逐步细化特征到更精细的聚类,提升模型性能和内存效率。
  3. 论文提出位置解耦策略,显式移除密集表征中的位置偏差,改善语义内容编码,并在下游任务中取得显著提升。

📝 摘要(中文)

本文提出了Franca,这是一个完全开源的视觉基础模型(数据、代码、权重均开源),在性能上可以媲美甚至超越当前最先进的专有模型,例如DINOv2、CLIP、SigLIPv2等。该方法基于Web-SSL的透明训练流程,并使用公开可用的数据:ImageNet-21K和ReLAION-2B的一个子集。除了模型发布,本文还解决了SSL聚类方法中的关键限制。现代模型依赖于通过诸如Sinkhorn-Knopp之类的聚类算法将图像特征分配给大型码本,但它们未能考虑到聚类语义中固有的模糊性。为了解决这个问题,本文引入了一种基于嵌套Matryoshka表征的参数高效的多头聚类投影器。这种设计逐步将特征细化为越来越精细的聚类,而无需增加模型大小,从而实现了性能和内存效率。此外,本文提出了一种新颖的位置解耦策略,该策略显式地从密集表征中移除位置偏差,从而改善了语义内容的编码。这在多个下游基准测试中带来了持续的收益,证明了更清晰的特征空间的效用。本文的贡献为透明、高性能的视觉模型建立了新的标准,并为更广泛的AI社区开辟了通往更可复现和更通用的基础模型的道路。

🔬 方法详解

问题定义:现有的自监督学习(SSL)方法,特别是基于聚类的方法,在将图像特征分配到大型码本时,未能充分考虑聚类语义的模糊性。这意味着模型可能无法准确捕捉图像中不同区域或对象的语义关系,从而限制了表征学习的质量。此外,现有方法在处理位置偏差方面存在不足,可能导致模型过度依赖图像的位置信息,而忽略了更重要的语义内容。

核心思路:Franca的核心思路是通过引入嵌套Matryoshka表征和多头聚类投影器,逐步细化特征到越来越精细的聚类,从而解决聚类语义模糊性的问题。同时,通过位置解耦策略,显式地从密集表征中移除位置偏差,从而改善语义内容的编码。这种设计旨在提高模型对图像语义的理解能力,并生成更具泛化性的视觉表征。

技术框架:Franca的整体框架基于Web-SSL的训练流程,并使用公开可用的数据集(ImageNet-21K和ReLAION-2B的子集)。主要包含以下几个模块:图像编码器(例如,ViT)、嵌套Matryoshka聚类投影器、以及位置解耦模块。图像首先通过编码器提取特征,然后通过嵌套Matryoshka聚类投影器进行多层次的聚类,最后通过位置解耦模块移除位置偏差。

关键创新:Franca的关键创新点在于以下三个方面:1) 嵌套Matryoshka表征:通过多层次的聚类,逐步细化特征,从而更好地捕捉图像的语义信息。2) 多头聚类投影器:使用多个聚类头,可以更好地处理聚类语义的模糊性。3) 位置解耦策略:显式地从密集表征中移除位置偏差,从而改善语义内容的编码。与现有方法相比,Franca能够更有效地利用公开数据进行训练,并生成更具泛化性的视觉表征。

关键设计:嵌套Matryoshka聚类投影器使用多个聚类头,每个头负责不同粒度的聚类。损失函数采用交叉熵损失,用于衡量聚类结果的准确性。位置解耦策略通过学习一个位置编码矩阵,并将其从密集表征中减去,从而移除位置偏差。具体的参数设置包括聚类头的数量、聚类中心的数量、以及位置编码矩阵的维度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Franca在多个下游基准测试中取得了显著的性能提升。例如,在ImageNet分类任务中,Franca的性能可以媲美甚至超越DINOv2、CLIP、SigLIPv2等专有模型。此外,Franca在目标检测和图像分割等任务中也取得了优异的成绩,证明了其强大的泛化能力。

🎯 应用场景

Franca具有广泛的应用前景,包括图像分类、目标检测、图像分割、图像检索等。由于其开源性和高性能,可以作为视觉基础模型,为各种下游任务提供强大的支持。此外,Franca的设计思想也可以应用于其他领域,例如自然语言处理和语音识别,以提高模型的表征学习能力。

📄 摘要(原文)

We present Franca (pronounced Fran-ka): free one; the first fully open-source (data, code, weights) vision foundation model that matches and in many cases surpasses the performance of state-of-the-art proprietary models, e.g., DINOv2, CLIP, SigLIPv2, etc. Our approach is grounded in a transparent training pipeline inspired by Web-SSL and uses publicly available data: ImageNet-21K and a subset of ReLAION-2B. Beyond model release, we tackle critical limitations in SSL clustering methods. While modern models rely on assigning image features to large codebooks via clustering algorithms like Sinkhorn-Knopp, they fail to account for the inherent ambiguity in clustering semantics. To address this, we introduce a parameter-efficient, multi-head clustering projector based on nested Matryoshka representations. This design progressively refines features into increasingly fine-grained clusters without increasing the model size, enabling both performance and memory efficiency. Additionally, we propose a novel positional disentanglement strategy that explicitly removes positional biases from dense representations, thereby improving the encoding of semantic content. This leads to consistent gains on several downstream benchmarks, demonstrating the utility of cleaner feature spaces. Our contributions establish a new standard for transparent, high-performance vision models and open a path toward more reproducible and generalizable foundation models for the broader AI community. The code and model checkpoints are available at https://github.com/valeoai/Franca.