From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

📄 arXiv: 2603.09955v1 📥 PDF

作者: Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen

分类: cs.CV, cs.LG

发布日期: 2026-03-10


💡 一句话要点

C2FMAE:提出粗到精掩码自编码器,用于分层视觉理解

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自监督学习 掩码自编码器 分层视觉表示 粗到精学习 图像分类

📋 核心要点

  1. 现有自监督学习方法在全局语义和局部细节之间存在trade-off,对比学习侧重全局但忽略细节,掩码图像建模则相反,且易受“注意力漂移”影响。
  2. C2FMAE通过粗到精的掩码自编码器,显式学习场景、对象和像素三个粒度的分层视觉表示,缓解了上述矛盾。
  3. 实验表明,C2FMAE在图像分类、目标检测和语义分割任务上均取得了显著的性能提升,验证了其分层设计的有效性。

📝 摘要(中文)

自监督视觉预训练方法面临一个内在的矛盾:对比学习(CL)捕获全局语义但丢失细粒度细节,而掩码图像建模(MIM)保留局部纹理但由于语义无关的随机掩码而遭受“注意力漂移”。我们提出了C2FMAE,一种粗到精的掩码自编码器,通过显式地学习跨三个数据粒度的分层视觉表示来解决这个矛盾:语义掩码(场景级别)、实例掩码(对象级别)和RGB图像(像素级别)。两个协同创新强化了严格的自顶向下学习原则。首先,一个级联解码器依次从场景语义重建到对象实例再到像素细节,建立显式的跨粒度依赖关系,这是并行解码器无法捕获的。其次,一个渐进式掩码课程动态地将训练重点从语义引导转移到实例引导,最后转移到随机掩码,从而创建了一个从全局上下文到局部特征的结构化学习路径。为了支持这个框架,我们构建了一个大规模多粒度数据集,其中包含所有128万张ImageNet-1K图像的高质量伪标签。大量的实验表明,C2FMAE在图像分类、目标检测和语义分割方面取得了显著的性能提升,验证了我们的分层设计在学习更鲁棒和更具泛化性的表示方面的有效性。

🔬 方法详解

问题定义:论文旨在解决自监督视觉预训练中,如何同时有效学习全局语义信息和局部细节信息的问题。现有方法如对比学习和掩码图像建模,要么侧重于全局语义而忽略细节,要么侧重于局部细节而忽略全局语义,并且掩码图像建模容易受到“注意力漂移”的影响,导致学习到的特征缺乏鲁棒性。

核心思路:论文的核心思路是采用一种粗到精的分层学习策略,从场景级别的语义信息开始,逐步细化到对象级别的实例信息,最后到像素级别的细节信息。通过这种方式,模型可以先学习到全局的上下文信息,然后再逐步关注局部细节,从而避免了“注意力漂移”的问题,并且能够同时学习到全局语义信息和局部细节信息。

技术框架:C2FMAE的整体架构是一个级联的自编码器结构,包含一个编码器和三个解码器。编码器负责将输入图像编码成潜在表示。第一个解码器负责从潜在表示中重建场景级别的语义掩码。第二个解码器负责从场景级别的语义掩码中重建对象级别的实例掩码。第三个解码器负责从对象级别的实例掩码中重建像素级别的RGB图像。此外,论文还设计了一个渐进式掩码课程,动态地调整掩码的比例,从语义引导到实例引导,最后到随机掩码。

关键创新:C2FMAE的关键创新在于其粗到精的分层学习策略和级联解码器结构。通过这种方式,模型可以显式地学习跨不同粒度的视觉表示,并且能够建立跨粒度的依赖关系。此外,渐进式掩码课程也能够有效地引导模型学习不同粒度的特征。

关键设计:论文构建了一个大规模多粒度数据集,其中包含所有128万张ImageNet-1K图像的高质量伪标签,用于训练C2FMAE。在训练过程中,使用了交叉熵损失函数来衡量语义掩码和实例掩码的重建误差,使用了均方误差损失函数来衡量RGB图像的重建误差。此外,论文还使用了Adam优化器来优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

C2FMAE 在 ImageNet-1K 图像分类、目标检测和语义分割任务上取得了显著的性能提升。例如,在 ImageNet-1K 图像分类任务上,C2FMAE 的 top-1 准确率比基线方法提高了多个百分点。在目标检测和语义分割任务上,C2FMAE 也取得了类似的性能提升,验证了其分层设计的有效性。

🎯 应用场景

C2FMAE 具有广泛的应用前景,可以应用于图像分类、目标检测、语义分割等计算机视觉任务。其学习到的鲁棒且泛化的视觉表示,可以作为下游任务的良好初始化,从而提高下游任务的性能。此外,该方法还可以应用于其他自监督学习场景,例如视频理解、3D视觉等。

📄 摘要(原文)

Self-supervised visual pre-training methods face an inherent tension: contrastive learning (CL) captures global semantics but loses fine-grained detail, while masked image modeling (MIM) preserves local textures but suffers from "attention drift" due to semantically-agnostic random masking. We propose C2FMAE, a coarse-to-fine masked autoencoder that resolves this tension by explicitly learning hierarchical visual representations across three data granularities: semantic masks (scene-level), instance masks (object-level), and RGB images (pixel-level). Two synergistic innovations enforce a strict top-down learning principle. First, a cascaded decoder sequentially reconstructs from scene semantics to object instances to pixel details, establishing explicit cross-granularity dependencies that parallel decoders cannot capture. Second, a progressive masking curriculum dynamically shifts the training focus from semantic-guided to instance-guided and finally to random masking, creating a structured learning path from global context to local features. To support this framework, we construct a large-scale multi-granular dataset with high-quality pseudo-labels for all 1.28M ImageNet-1K images. Extensive experiments show that C2FMAE achieves significant performance gains on image classification, object detection, and semantic segmentation, validating the effectiveness of our hierarchical design in learning more robust and generalizable representations.