LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
作者: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
分类: cs.CV, cs.AI, cs.LG, eess.IV
发布日期: 2025-04-18
🔗 代码/项目: GITHUB
💡 一句话要点
LoftUp:学习基于坐标的特征上采样器,提升视觉基础模型像素级理解能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 特征上采样 视觉基础模型 交叉注意力 自蒸馏 像素级理解
📋 核心要点
- 视觉基础模型在像素级任务中受限于特征分辨率,现有上采样方法难以有效提升性能。
- 提出LoftUp,利用基于坐标的交叉注意力Transformer融合高低分辨率特征,生成高质量上采样特征。
- 通过自蒸馏构建高分辨率伪标签,有效训练上采样器,并在多个下游任务中超越现有方法。
📝 摘要(中文)
视觉基础模型(VFMs),如DINOv2和CLIP,在各种下游任务中取得了显著成果,但其有限的特征分辨率限制了在需要像素级理解的应用中的性能。特征上采样为解决这一挑战提供了一个有希望的方向。本文确定了增强特征上采样的两个关键因素:上采样器架构和训练目标。对于上采样器架构,我们引入了一种基于坐标的交叉注意力Transformer,它将高分辨率图像与坐标和低分辨率VFM特征相结合,以生成清晰、高质量的特征。对于训练目标,我们建议通过利用类别无关的掩码和自蒸馏来构建高分辨率伪groundtruth特征。我们的方法有效地捕捉了细粒度的细节,并灵活地适应各种输入和特征分辨率。通过实验,我们证明了我们的方法在各种下游任务中显著优于现有的特征上采样技术。我们的代码已在https://github.com/andrehuang/loftup发布。
🔬 方法详解
问题定义:视觉基础模型(VFMs)如DINOv2和CLIP,虽然在图像分类等任务上表现出色,但在需要精细像素级理解的任务(如语义分割、目标检测)中,由于其输出的特征图分辨率较低,导致性能受限。现有的特征上采样方法,例如双线性插值或简单的卷积网络,无法充分利用高分辨率图像的细节信息,导致上采样后的特征图模糊,影响下游任务的精度。
核心思路:LoftUp的核心思路是学习一个基于坐标的特征上采样器,该上采样器能够将低分辨率的VFM特征图映射到高分辨率的特征图,同时保留图像的细节信息。通过引入坐标信息,上采样器可以更好地理解像素之间的关系,从而生成更清晰、更准确的特征图。此外,利用自蒸馏技术生成高分辨率的伪标签,可以有效地训练上采样器,使其能够更好地适应各种输入和特征分辨率。
技术框架:LoftUp的整体框架包括以下几个主要模块:1) VFM特征提取器:使用预训练的视觉基础模型(如DINOv2)提取低分辨率的特征图。2) 坐标编码器:将高分辨率图像的像素坐标编码成向量表示。3) 交叉注意力Transformer:将低分辨率的VFM特征图和坐标编码向量作为输入,通过交叉注意力机制融合两者,生成高分辨率的特征图。4) 自蒸馏模块:利用类别无关的掩码和自蒸馏技术生成高分辨率的伪标签,用于训练上采样器。
关键创新:LoftUp的关键创新在于以下几个方面:1) 基于坐标的交叉注意力Transformer:通过引入坐标信息,上采样器可以更好地理解像素之间的关系,从而生成更清晰、更准确的特征图。2) 自蒸馏训练:利用自蒸馏技术生成高分辨率的伪标签,可以有效地训练上采样器,使其能够更好地适应各种输入和特征分辨率。3) 灵活的适应性:LoftUp可以灵活地适应各种输入和特征分辨率,使其可以应用于各种不同的下游任务。
关键设计:LoftUp的关键设计包括:1) 坐标编码方式:使用正弦函数对像素坐标进行编码,以提高模型的表达能力。2) 交叉注意力机制:使用多头注意力机制,以捕捉不同像素之间的关系。3) 损失函数:使用L1损失函数和感知损失函数来训练上采样器,以提高上采样后的特征图的质量。4) 自蒸馏策略:使用教师模型生成的特征图作为伪标签,指导学生模型的训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LoftUp在多个下游任务中显著优于现有的特征上采样技术。例如,在ADE20K语义分割任务中,LoftUp相比于双线性插值,mIoU提升了超过5个百分点。此外,LoftUp在目标检测任务中也取得了类似的性能提升。这些结果表明,LoftUp能够有效地提升视觉基础模型的特征分辨率,从而提高下游任务的性能。
🎯 应用场景
LoftUp具有广泛的应用前景,可以应用于语义分割、目标检测、图像编辑、三维重建等需要像素级理解的视觉任务中。通过提升视觉基础模型的特征分辨率,LoftUp可以显著提高这些任务的性能,并为未来的视觉研究提供新的思路。该研究的实际价值在于提升现有视觉模型的精度和效率,未来影响在于推动视觉智能在更多领域的应用。
📄 摘要(原文)
Vision foundation models (VFMs) such as DINOv2 and CLIP have achieved impressive results on various downstream tasks, but their limited feature resolution hampers performance in applications requiring pixel-level understanding. Feature upsampling offers a promising direction to address this challenge. In this work, we identify two critical factors for enhancing feature upsampling: the upsampler architecture and the training objective. For the upsampler architecture, we introduce a coordinate-based cross-attention transformer that integrates the high-resolution images with coordinates and low-resolution VFM features to generate sharp, high-quality features. For the training objective, we propose constructing high-resolution pseudo-groundtruth features by leveraging class-agnostic masks and self-distillation. Our approach effectively captures fine-grained details and adapts flexibly to various input and feature resolutions. Through experiments, we demonstrate that our approach significantly outperforms existing feature upsampling techniques across various downstream tasks. Our code is released at https://github.com/andrehuang/loftup.