An Effective Router for Vision-Language Model Selection

作者: Can Wang, Shengwei Wang, Bolin Zhang, Zhiying Tu, Dianhui Chu

分类: cs.AI

发布日期: 2026-06-08

💡 一句话要点

提出ARMS路由器以解决视觉语言模型选择问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 模型选择 路由器 多模态数据集 增量训练 特征表示 适应性训练

📋 核心要点

现有的视觉语言模型选择方法面临数据不足、特征表示无效和模型适应性差等挑战。
本文提出的ARMS路由器通过增强输入信号和采用有效架构来改善模型选择的准确性。
实验结果显示，ARMS在适应新模型方面表现优异，能够超越大型商业模型，且模型体积仅为800M。

📝 摘要（中文）

视觉语言模型（VLMs）因其性能和资源需求的多样性而广泛应用，用户在众多候选模型中选择合适的模型面临困难。现有研究揭示了语言模型中的性能悖论，并关注路由方法的解决方案。然而，为VLM选择开发路由器仍然是一个关键且具有挑战性的问题，主要面临缺乏专门数据、特征表示无效以及模型空间僵化和适应成本高等问题。本文构建了一个多模态数据集，包含七个主流VLM在32,626个独特图像-文本查询上的输出，并提出了ARMS路由器。ARMS通过VLM配置增强输入信号，采用简单有效的架构来改善查询和VLM能力的表示。实验结果表明，ARMS在适应新VLM方面表现出色，能够超越规模数百倍的商业模型如GPT-4o。

🔬 方法详解

问题定义：本文旨在解决视觉语言模型选择中的困难，现有方法在数据、特征表示和模型适应性方面存在不足。

核心思路：ARMS路由器通过结合VLM配置增强输入信号，采用简单有效的架构来提升查询和模型能力的表示，从而提高选择的准确性。

技术框架：ARMS的整体架构包括输入信号增强模块、特征表示模块和适应性训练模块，确保模型能够有效处理不同的VLM。

关键创新：ARMS的主要创新在于其独特的输入信号增强机制和两种扩展训练策略（增量训练和独立训练），使其能够适应更广泛的VLM空间。

关键设计：在设计中，ARMS采用了特定的损失函数和网络结构，确保在有限的模型规模下仍能有效学习和适应新模型。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ARMS在适应新VLM方面表现出色，能够在仅800M的模型规模下超越规模数百倍的商业模型如GPT-4o，展示了其在模型选择中的强大能力。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动内容生成和多模态检索等。ARMS路由器能够帮助用户快速选择最合适的视觉语言模型，从而提高任务效率和准确性，具有重要的实际价值和未来影响。

📄 摘要（原文）

Vision-language models (VLMs) with varying performance and resource requirements are widely deployed, making it difficult for users to select the most appropriate one among numerous VLM candidates. Existing work reveals the performance paradox phenomenon in language models and focuses on routing methods to solve it. However, developing a router for VLM selection is still a critical yet challenging problem, which primarily faces: 1) lack of specialized data, 2) ineffective feature representation, and 3) rigid model space and costly adaptation. In this paper, we construct a multimodal dataset for VLM selection, containing the outputs of seven mainstream VLMs on 32,626 unique image-text queries. We then propose ARMS, a router for VLM selection. ARMS enhances input signals with VLM profiles, employs a simple but effective architecture to improve representations of queries and VLM capabilities. To improve ARMS' adaptation to new VLMs, we propose two extension training strategies: incremental training and independent training. Experimental results on both in-distribution and out-of-distribution test sets demonstrate the effectiveness of ARMS. In particular, using our training strategy, ARMs (only 800M in size) can adapt to a broader VLM space and defeat commercial models like GPT-4o that are hundreds of times larger in scale. Our code, models, and datasets are available in the anonymous repository.

An Effective Router for Vision-Language Model Selection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理