VL-RouterBench: A Benchmark for Vision-Language Model Routing

📄 arXiv: 2512.23562v1 📥 PDF

作者: Zhehao Huang, Baijiong Lin, Jingyuan Zhang, Jingying Wang, Yuhang Liu, Ning Lu, Tao Li, Xiaolin Huang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-12-29


💡 一句话要点

VL-RouterBench:用于评估视觉-语言模型路由的系统性、可复现的基准测试。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 多模型路由 基准测试 性能评估 可复现性

📋 核心要点

  1. 现有视觉-语言模型路由缺乏系统性、可复现的评估基准,阻碍了该领域的发展。
  2. VL-RouterBench通过构建大规模样本-模型对的质量和成本矩阵,提供全面的评估框架。
  3. 实验表明,现有路由方法与理想情况仍有差距,为未来的研究提供了明确的方向。

📝 摘要(中文)

多模型路由已从工程技术演变为关键基础设施,但现有工作缺乏系统且可复现的基准来评估视觉-语言模型(VLM)。我们提出了VL-RouterBench,以系统地评估VLM路由系统的整体能力。该基准基于VLM的原始推理和评分日志,构建样本-模型对的质量和成本矩阵。在规模上,VL-RouterBench涵盖3个任务组的14个数据集,总计30,540个样本,包括15个开源模型和2个API模型,产生519,180个样本-模型对,总输入-输出token量为34,494,977。评估协议共同衡量平均准确率、平均成本和吞吐量,并从归一化成本和准确率的调和平均值构建排名分数,以实现跨路由器配置和成本预算的比较。在此基准上,我们评估了10种路由方法和基线,观察到显著的可路由性增益,但当前最佳路由器与理想的Oracle之间仍存在明显差距,表明通过更精细的视觉线索和文本结构建模,路由器架构仍有很大的改进空间。我们将开源完整的数据构建和评估工具链,以促进多模态路由研究中的可比性、可复现性和实际部署。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(VLM)路由缺乏系统性、可复现的评估基准的问题。现有方法难以全面评估不同路由策略的性能,阻碍了该领域的发展。缺乏统一的评估标准也使得不同方法之间的比较变得困难。

核心思路:论文的核心思路是构建一个大规模、多样化的基准测试集VL-RouterBench,该基准包含多个数据集、多种VLM模型,并提供统一的评估指标,从而能够系统地评估VLM路由系统的性能。通过分析不同路由策略在VL-RouterBench上的表现,可以发现现有方法的不足,并为未来的研究提供指导。

技术框架:VL-RouterBench的整体框架包括以下几个主要组成部分:1) 数据集:包含来自不同任务组的多个数据集,覆盖了广泛的视觉-语言任务。2) 模型:包含多个开源VLM模型和API模型,提供了多样化的模型选择。3) 评估指标:包括平均准确率、平均成本和吞吐量等指标,用于全面评估路由系统的性能。4) 排名分数:基于归一化成本和准确率的调和平均值,用于比较不同路由配置和成本预算下的性能。

关键创新:VL-RouterBench的关键创新在于其系统性和可复现性。它提供了一个统一的平台,用于评估和比较不同的VLM路由策略。此外,VL-RouterBench还提供了大规模的数据集和多样化的模型选择,使得评估结果更加可靠和具有代表性。

关键设计:VL-RouterBench的关键设计包括:1) 数据集的选择:选择具有代表性的数据集,覆盖不同的视觉-语言任务。2) 模型的选择:选择具有不同架构和性能的VLM模型,以提供多样化的选择。3) 评估指标的设计:设计能够全面评估路由系统性能的指标,包括准确率、成本和吞吐量。4) 排名分数的设计:设计能够公平比较不同路由配置和成本预算下的性能的排名分数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在VL-RouterBench上评估了10种路由方法和基线,结果表明,当前最佳路由器与理想的Oracle之间仍存在明显差距,表明路由器架构仍有很大的改进空间。观察到显著的可路由性增益,验证了多模型路由的有效性。该基准测试为未来的研究提供了明确的方向。

🎯 应用场景

该研究成果可应用于各种需要视觉-语言模型路由的场景,例如智能客服、图像搜索、自动驾驶等。通过使用VL-RouterBench评估和优化路由策略,可以提高系统的性能、降低成本,并提升用户体验。该基准测试也有助于推动多模态路由研究的发展。

📄 摘要(原文)

Multi-model routing has evolved from an engineering technique into essential infrastructure, yet existing work lacks a systematic, reproducible benchmark for evaluating vision-language models (VLMs). We present VL-RouterBench to assess the overall capability of VLM routing systems systematically. The benchmark is grounded in raw inference and scoring logs from VLMs and constructs quality and cost matrices over sample-model pairs. In scale, VL-RouterBench covers 14 datasets across 3 task groups, totaling 30,540 samples, and includes 15 open-source models and 2 API models, yielding 519,180 sample-model pairs and a total input-output token volume of 34,494,977. The evaluation protocol jointly measures average accuracy, average cost, and throughput, and builds a ranking score from the harmonic mean of normalized cost and accuracy to enable comparison across router configurations and cost budgets. On this benchmark, we evaluate 10 routing methods and baselines and observe a significant routability gain, while the best current routers still show a clear gap to the ideal Oracle, indicating considerable room for improvement in router architecture through finer visual cues and modeling of textual structure. We will open-source the complete data construction and evaluation toolchain to promote comparability, reproducibility, and practical deployment in multimodal routing research.