MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

📄 arXiv: 2603.25744v1 📥 PDF

作者: Bocheng Zou, Mu Cai, Mark Stanley, Dingfu Lu, Yong Jae Lee

分类: cs.CV

发布日期: 2026-03-26


💡 一句话要点

MuRF:释放视觉基础模型的多尺度潜力,提升推理性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉基础模型 多尺度融合 特征表示 免训练 图像分类 目标检测 DINOv2 SigLIP2

📋 核心要点

  1. 现有视觉基础模型推理时通常采用单尺度输入,忽略了多分辨率视图提供的互补信息。
  2. MuRF通过在多个分辨率下处理图像,并融合视觉基础模型提取的特征,构建统一的表示。
  3. 实验表明,MuRF可以作为一种通用的、免训练的增强方法,提升多种视觉任务的性能,适用于不同VFM架构。

📝 摘要(中文)

视觉基础模型(VFMs)已成为现代计算机视觉的基石,为各种任务提供强大的表征。虽然最近的进展允许这些模型在训练期间处理不同的输入尺寸,但推理通常仍限于单一、固定的尺度。这种普遍的单尺度范式忽略了视觉感知的一个基本属性:不同的分辨率提供互补的归纳偏置,其中低分辨率视图擅长全局语义识别,而高分辨率视图对于细粒度细化至关重要。在这项工作中,我们提出了多分辨率融合(MuRF),这是一种简单但普遍有效的策略,可以在推理时利用这种协同作用。MuRF不是依赖于单一视图,而是通过在多个分辨率下处理图像并通过冻结的VFM融合生成的特征来构建统一的表示。MuRF的普遍性是其最引人注目的属性。它不依赖于特定的架构,而是作为视觉表示的基本、免训练的增强。我们通过将MuRF应用于多个不同VFM系列(主要是DINOv2,但也展示了成功推广到像SigLIP2这样的对比模型)中的各种关键计算机视觉任务,从而在经验上验证了这一点。

🔬 方法详解

问题定义:现有视觉基础模型(VFMs)在推理阶段通常只使用单一固定尺度的输入图像。这种做法忽略了不同分辨率图像所蕴含的互补信息:低分辨率图像有利于全局语义信息的提取,而高分辨率图像则更适合捕捉细粒度的细节信息。因此,如何有效利用多尺度信息来提升VFMs的推理性能是一个关键问题。

核心思路:MuRF的核心思路是在推理阶段,将同一图像缩放到多个不同的分辨率,然后分别输入到预训练好的(冻结的)VFM中提取特征。最后,将这些来自不同分辨率的特征进行融合,得到一个更全面、更鲁棒的图像表示。这样做的目的是结合不同分辨率图像的优势,从而提升VFMs在各种视觉任务上的表现。

技术框架:MuRF的整体框架非常简单。首先,给定一张输入图像,将其缩放到多个预定义的分辨率。然后,将这些不同分辨率的图像分别输入到同一个预训练好的VFM中,提取对应的特征向量或特征图。接下来,使用一个融合模块(例如,简单的平均池化或可学习的权重)将这些来自不同分辨率的特征进行融合。最后,将融合后的特征用于下游的视觉任务,例如图像分类、目标检测或语义分割。整个过程不需要对VFM进行额外的训练。

关键创新:MuRF的关键创新在于其通用性和免训练性。它不是针对特定的VFM架构或特定的视觉任务设计的,而是一种通用的增强方法,可以应用于各种不同的VFMs和各种不同的视觉任务。此外,MuRF不需要对VFM进行额外的训练,可以直接利用预训练好的模型,从而节省了大量的计算资源和时间。

关键设计:MuRF的关键设计包括选择合适的分辨率集合以及设计有效的特征融合方法。论文中探索了不同的分辨率组合,并发现使用多个分辨率可以显著提升性能。对于特征融合,可以使用简单的平均池化,也可以使用可学习的权重来动态地调整不同分辨率特征的贡献。具体的分辨率选择和融合方法可以根据具体的VFM架构和视觉任务进行调整。

📊 实验亮点

实验结果表明,MuRF可以显著提升DINOv2和SigLIP2等视觉基础模型在各种视觉任务上的性能。例如,在图像分类任务中,MuRF可以带来1-2个百分点的精度提升。在目标检测任务中,MuRF可以提升AP指标。这些结果表明,MuRF能够有效利用多尺度信息,提升视觉表征的质量。

🎯 应用场景

MuRF作为一种通用的视觉表征增强方法,可以广泛应用于各种计算机视觉任务,例如图像分类、目标检测、语义分割、图像检索等。它尤其适用于那些需要同时考虑全局语义信息和细粒度细节信息的任务。MuRF的免训练特性使其易于部署和应用,有望成为提升现有视觉系统性能的有效工具。未来,可以探索更复杂的特征融合方法,以及自适应地选择最优分辨率集合。

📄 摘要(原文)

Vision Foundation Models (VFMs) have become the cornerstone of modern computer vision, offering robust representations across a wide array of tasks. While recent advances allow these models to handle varying input sizes during training, inference typically remains restricted to a single, fixed scale. This prevalent single-scale paradigm overlooks a fundamental property of visual perception: varying resolutions offer complementary inductive biases, where low-resolution views excel at global semantic recognition and high-resolution views are essential for fine-grained refinement. In this work, we propose Multi-Resolution Fusion (MuRF), a simple yet universally effective strategy to harness this synergy at inference time. Instead of relying on a single view, MuRF constructs a unified representation by processing an image at multiple resolutions through a frozen VFM and fusing the resulting features. The universality of MuRF is its most compelling attribute. It is not tied to a specific architecture, serving instead as a fundamental, training-free enhancement to visual representation. We empirically validate this by applying MuRF to a broad spectrum of critical computer vision tasks across multiple distinct VFM families - primarily DINOv2, but also demonstrating successful generalization to contrastive models like SigLIP2.