MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

📄 arXiv: 2603.25744 📥 PDF

作者: Bocheng Zou, Mu Cai, Mark Stanley, Dingfu Lu, Yong Jae Lee

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

MuRF:释放视觉基础模型的多尺度潜力,提升推理性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉基础模型 多尺度融合 推理优化 免训练 特征表示

📋 核心要点

  1. 现有视觉基础模型推理时通常采用单尺度输入,忽略了多分辨率视图所蕴含的互补信息。
  2. MuRF通过在推理时融合多个分辨率下的特征,构建统一的图像表示,无需额外训练。
  3. 实验表明,MuRF可以显著提升多种视觉基础模型在各类视觉任务上的性能,且具有良好的泛化性。

📝 摘要(中文)

视觉基础模型(VFMs)已成为现代计算机视觉的基石,为各种任务提供强大的表征。虽然最近的进展允许这些模型在训练期间处理不同的输入尺寸,但推理通常仍限于单一、固定尺度。这种普遍的单尺度范式忽略了视觉感知的一个基本属性:不同的分辨率提供互补的归纳偏置,其中低分辨率视图擅长全局语义识别,而高分辨率视图对于细粒度细化至关重要。在这项工作中,我们提出了多分辨率融合(MuRF),这是一种简单但普遍有效的策略,可以在推理时利用这种协同作用。MuRF不是依赖于单一视图,而是通过在多个分辨率下处理图像并通过冻结的VFM融合生成的特征来构建统一的表示。MuRF的普遍性是其最引人注目的属性。它不依赖于特定的架构,而是作为视觉表示的基本、免训练的增强。我们通过将MuRF应用于多个不同VFM系列(主要是DINOv2,但也展示了成功泛化到像SigLIP2这样的对比模型)中的各种关键计算机视觉任务,从而在经验上验证了这一点。

🔬 方法详解

问题定义:现有视觉基础模型在推理阶段通常只使用单一尺度的输入图像,这限制了模型对图像信息的充分利用。不同分辨率的图像包含不同的信息,低分辨率图像有利于全局语义理解,而高分辨率图像则有利于细节信息的提取。现有方法未能有效融合这些互补信息,导致模型性能受限。

核心思路:MuRF的核心思路是在推理阶段,将同一图像缩放到多个不同的分辨率,然后分别输入到预训练好的视觉基础模型中提取特征。最后,将这些不同分辨率下的特征进行融合,得到一个更全面、更鲁棒的图像表示。这样可以充分利用不同分辨率图像的优势,提高模型的性能。

技术框架:MuRF的整体框架非常简单。首先,给定一张输入图像,将其缩放到多个不同的分辨率。然后,将这些不同分辨率的图像分别输入到同一个预训练好的视觉基础模型中,得到对应的特征表示。接下来,将这些特征表示进行融合。论文中使用了简单的加权平均融合方法,但也可以尝试其他更复杂的融合方法。最后,将融合后的特征表示用于下游任务,如图像分类、目标检测等。

关键创新:MuRF的关键创新在于它提供了一种简单有效的、免训练的多尺度特征融合方法,可以显著提升现有视觉基础模型的推理性能。与需要重新训练模型的多尺度方法不同,MuRF可以直接应用于现有的预训练模型,无需任何额外的训练成本。此外,MuRF具有很强的通用性,可以应用于不同的视觉基础模型和不同的下游任务。

关键设计:MuRF的关键设计包括选择合适的分辨率范围和融合权重。论文中使用了经验性的分辨率范围,并对不同分辨率的特征赋予了不同的权重。具体来说,论文中使用了三个分辨率:原始分辨率、原始分辨率的一半和原始分辨率的四分之一。对于融合权重,论文中使用了简单的线性权重,但也可以尝试更复杂的权重学习方法。此外,论文中使用了冻结的视觉基础模型,这意味着在推理过程中,模型的参数不会被更新。

📊 实验亮点

实验结果表明,MuRF可以显著提升DINOv2等视觉基础模型在多个视觉任务上的性能。例如,在ImageNet图像分类任务上,MuRF可以将DINOv2的Top-1准确率提升1-2个百分点。此外,MuRF还成功泛化到了SigLIP2等对比学习模型上,证明了其通用性。这些结果表明,MuRF是一种有效且通用的多尺度特征融合方法。

🎯 应用场景

MuRF具有广泛的应用前景,可以应用于各种需要视觉理解的场景,例如图像分类、目标检测、图像分割、图像检索等。由于其免训练的特性,MuRF可以快速部署到现有的视觉系统中,提升系统的性能。未来,MuRF可以进一步扩展到视频理解、三维视觉等领域,为这些领域带来新的突破。

📄 摘要(原文)

Vision Foundation Models (VFMs) have become the cornerstone of modern computer vision, offering robust representations across a wide array of tasks. While recent advances allow these models to handle varying input sizes during training, inference typically remains restricted to a single, fixed scale. This prevalent single-scale paradigm overlooks a fundamental property of visual perception: varying resolutions offer complementary inductive biases, where low-resolution views excel at global semantic recognition and high-resolution views are essential for fine-grained refinement. In this work, we propose Multi-Resolution Fusion (MuRF), a simple yet universally effective strategy to harness this synergy at inference time. Instead of relying on a single view, MuRF constructs a unified representation by processing an image at multiple resolutions through a frozen VFM and fusing the resulting features. The universality of MuRF is its most compelling attribute. It is not tied to a specific architecture, serving instead as a fundamental, training-free enhancement to visual representation. We empirically validate this by applying MuRF to a broad spectrum of critical computer vision tasks across multiple distinct VFM families - primarily DINOv2, but also demonstrating successful generalization to contrastive models like SigLIP2.