Looking Locally: Object-Centric Vision Transformers as Foundation Models for Efficient Segmentation

📄 arXiv: 2502.02763v2 📥 PDF

作者: Manuel Traub, Martin V. Butz

分类: cs.CV

发布日期: 2025-02-04 (更新: 2025-07-05)


💡 一句话要点

FLIP:一种高效的、以对象为中心的视觉Transformer,用于高效分割。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对象中心视觉 视觉Transformer 高效分割 小目标分割 多分辨率采样

📋 核心要点

  1. 现有分割模型处理高分辨率图像中小目标时,计算资源消耗巨大,效率低下。
  2. FLIP模型模仿生物视觉的中央凹机制,自适应地采样多分辨率图像块,聚焦目标区域。
  3. 实验表明,FLIP在多个数据集上显著优于SAM等模型,尤其在小目标分割上优势明显。

📝 摘要(中文)

当前最先进的分割模型在关注特定对象之前,会对整个图像进行编码,导致计算资源浪费,尤其是在高分辨率场景中分割小对象时。本文提出了一种名为FLIP(Fovea-Like Input Patching)的参数高效视觉模型,该模型通过生物学启发的自上而下注意力实现对象分割。FLIP选择性地从输入中采样以对象为中心的多分辨率图像块。因此,它将高分辨率处理分配给对象中心,同时保持较粗糙的周边上下文。这种离网、尺度不变的设计使FLIP能够大幅优于META的Segment Anything模型(SAM):FLIP-Tiny(0.51M参数)的平均IoU达到78.24%,而SAM-H(641.1M参数)的IoU为75.41%,参数量减少了1000倍以上。FLIP-Large甚至达到了80.33%的平均IoU(96.6M参数),速度仍然比SAM-H快约6倍。总共在六个基准上进行了评估。在五个已建立的基准(Hypersim、KITTI-360、OpenImages、COCO、LVIS)中,FLIP始终优于SAM及其各种变体。在新的ObjaScale数据集中,该数据集通过对象范围从图像面积的0.0001%到25%来测试尺度不变性,结果表明FLIP可以准确地分割非常小的对象,而现有模型则严重失败。FLIP为实时、以对象为中心的视觉应用开辟了新的可能性,并提供了更高的能源效率。我们认为FLIP可以作为一个强大的基础模型,因为它非常适合跟踪随时间变化的对象,例如,当集成到基于槽的场景分割架构中时。

🔬 方法详解

问题定义:论文旨在解决现有图像分割模型在高分辨率图像中分割小目标时效率低下的问题。现有方法通常先对整个图像进行编码,然后再关注特定对象,导致计算资源浪费,尤其是在需要分割的物体只占图像很小一部分时,计算效率会大幅降低。

核心思路:论文的核心思路是模仿生物视觉系统中的中央凹(fovea)机制,即人类视觉会选择性地关注视野中的特定区域,并以高分辨率处理这些区域,而对周边区域则以较低分辨率处理。FLIP模型通过自上而下的注意力机制,选择性地采样以对象为中心的多分辨率图像块,从而将计算资源集中在目标区域。

技术框架:FLIP模型的整体架构包括以下几个主要阶段:1) 对象提议(Object Proposal):使用现有的对象检测或分割模型来初步确定图像中可能包含目标的区域。2) 多分辨率采样(Multi-resolution Patching):根据对象提议的位置和大小,从输入图像中采样多个不同分辨率的图像块,中心位于对象提议的中心。3) Transformer编码(Transformer Encoding):使用Transformer编码器对采样的多分辨率图像块进行编码,提取特征。4) 分割预测(Segmentation Prediction):使用解码器将编码后的特征映射到分割掩码。

关键创新:FLIP模型最重要的技术创新点在于其对象中心的、多分辨率输入采样策略。与传统的全图像输入方法相比,FLIP能够更有效地利用计算资源,将高分辨率处理集中在目标区域,同时保持对周边环境的粗略感知。这种方法特别适用于分割小目标,因为它可以避免对大量无关区域进行高分辨率处理。

关键设计:FLIP的关键设计包括:1) 离网采样(Off-grid Sampling):采样点的位置不局限于规则的网格,而是根据对象提议的位置动态调整。2) 尺度不变性(Scale Invariance):通过采样不同分辨率的图像块,使模型能够处理不同大小的对象。3) 损失函数(Loss Function):使用标准的分割损失函数,如交叉熵损失或Dice损失,来训练模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FLIP模型在多个基准数据集上取得了显著的性能提升。例如,在ObjaScale数据集上,FLIP能够准确分割非常小的对象,而现有模型则表现不佳。在参数量远小于SAM-H的情况下,FLIP-Tiny的平均IoU达到了78.24%,超过了SAM-H的75.41%。FLIP-Large的平均IoU甚至达到了80.33%,并且速度比SAM-H快约6倍。这些结果表明,FLIP在效率和精度方面都具有显著优势。

🎯 应用场景

FLIP模型具有广泛的应用前景,尤其是在需要实时处理高分辨率图像的场景中。例如,可以应用于自动驾驶中的小目标检测与分割(如交通标志、行人),机器人视觉中的目标抓取,以及医学图像分析中的病灶检测等。此外,由于其高效的计算特性,FLIP也适用于资源受限的设备,如移动设备和嵌入式系统。

📄 摘要(原文)

Current state-of-the-art segmentation models encode entire images before focusing on specific objects. As a result, they waste computational resources - particularly when small objects are to be segmented in high-resolution scenes. We introduce FLIP (Fovea-Like Input Patching), a parameter-efficient vision model that realizes object segmentation through biologically-inspired top-down attention. FLIP selectively samples multi-resolution patches centered on objects of interest from the input. As a result, it allocates high-resolution processing to object centers while maintaining coarser peripheral context. This off-grid, scale-invariant design enables FLIP to outperform META's Segment Anything models (SAM) by large margins: With more than 1000x fewer parameters, FLIP-Tiny (0.51M parameters) reaches a mean IoU of 78.24% while SAM-H reaches 75.41% IoU (641.1M parameters). FLIP-Large even achieves 80.33% mean IoU (96.6M parameters), still running about 6$\times$ faster than SAM-H. We evaluate on six benchmarks in total. In five established benchmarks (Hypersim, KITTI-360, OpenImages, COCO, LVIS) FLIP consistently outperforms SAM and various variants of it. In our novel ObjaScale dataset, which stress-tests scale invariance with objects ranging from 0.0001% up-to 25% of the image area, we show that FLIP segments even very small objects accurately, where existing models fail severely. FLIP opens new possibilities for real-time, object-centric vision applications and offers much higher energy efficiency. We believe that FLIP can act as a powerful foundation model, as it is very well-suited to track objects over time, for example, when being integrated into slot-based scene segmentation architectures.