R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts

📄 arXiv: 2502.20395v2 📥 PDF

作者: Zhongyang Li, Ziyue Li, Tianyi Zhou

分类: cs.LG

发布日期: 2025-02-27 (更新: 2025-03-01)


💡 一句话要点

R2-T2:为多模态混合专家模型提出测试时重路由方法,提升下游任务性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 混合专家模型 测试时优化 路由算法 视觉语言模型

📋 核心要点

  1. 现有大型多模态模型在处理非语言模态时,感知能力不足,限制了其在复杂下游任务中的表现。
  2. R2-T2通过在测试时局部优化路由权重,使其向邻域内正确预测样本的权重靠拢,从而提升模型性能。
  3. 实验表明,R2-T2在多个具有挑战性的基准测试中,显著提升了现有LMMs的性能,且无需训练模型参数。

📝 摘要(中文)

大型多模态模型(LMMs)中,非语言模态(如视觉表征)的感知能力通常不如大型语言模型(LLMs)强大的推理能力,这阻碍了LMMs在具有挑战性的下游任务上的表现。最近,通过用混合专家(MoE)替换视觉编码器,缓解了这一弱点,MoE提供了各种下游任务所需的丰富、多粒度和多样化的表征。多模态MoE的性能在很大程度上取决于其路由器,路由器为每个输入重新加权和混合不同专家的表征。然而,我们发现端到端训练的路由器并不总是为每个测试样本产生最佳的路由权重。为了弥合这一差距,我们提出了一种新颖而有效的方法“测试时重路由(R2-T2)”,该方法通过将路由权重的向量移动到测试样本邻域中正确预测样本的向量,从而在测试时局部优化路由权重的向量。我们提出了三种具有不同优化目标和邻域搜索空间的R2-T2策略。R2-T2一致且显著地提高了最先进的LMMs在各种任务的具有挑战性的基准上的性能,而无需训练任何基础模型参数。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型(LMMs)中,视觉等非语言模态的感知能力弱于语言模型的问题。现有方法通过端到端训练路由器的MoE结构,但该路由器在测试时无法为每个样本生成最优的路由权重,导致性能瓶颈。

核心思路:论文的核心思路是在测试时对路由权重进行局部优化,即“重路由”。具体来说,对于每个测试样本,通过搜索其邻域内的已正确预测的样本,并调整该测试样本的路由权重,使其更接近这些正确预测样本的路由权重,从而提高预测准确率。

技术框架:R2-T2方法主要包含以下几个阶段:1) 对于给定的测试样本,使用原始LMM模型进行初步预测;2) 在训练集中搜索该测试样本的邻域,邻域由与测试样本特征相似的样本组成;3) 从邻域中筛选出预测正确的样本;4) 根据这些正确预测样本的路由权重,优化测试样本的路由权重;5) 使用优化后的路由权重,重新进行预测。论文提出了三种不同的R2-T2策略,它们的主要区别在于优化目标和邻域搜索空间。

关键创新:R2-T2的关键创新在于其测试时重路由的思想。与传统的端到端训练方法不同,R2-T2在测试阶段动态地调整路由权重,使其更适应当前输入样本的特征,从而提高了模型的泛化能力。这种方法不需要重新训练模型参数,因此具有很高的效率。

关键设计:论文提出了三种R2-T2策略,它们在邻域搜索和优化目标上有所不同。具体的技术细节包括:1) 如何定义样本之间的距离(例如,使用余弦相似度);2) 如何选择邻域的大小;3) 如何根据邻域内正确预测样本的路由权重来更新测试样本的路由权重(例如,使用加权平均或梯度下降)。论文还探讨了不同的优化目标,例如最小化预测损失或最大化预测置信度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

R2-T2在多个具有挑战性的多模态基准测试中取得了显著的性能提升。例如,在XXX数据集上,R2-T2将模型的准确率从X%提高到Y%,超过了当前最先进的方法Z%。更重要的是,R2-T2无需训练任何模型参数,即可实现如此显著的性能提升,这表明其具有很高的效率和实用价值。

🎯 应用场景

R2-T2方法可广泛应用于各种需要多模态信息融合的场景,例如图像描述生成、视觉问答、多模态对话等。该方法通过提升模型对非语言模态的感知能力,可以提高这些应用在复杂场景下的性能和鲁棒性。未来,R2-T2有望成为提升LMMs性能的重要技术手段。

📄 摘要(原文)

In large multimodal models (LMMs), the perception of non-language modalities (e.g., visual representations) is usually not on par with the large language models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on challenging downstream tasks. This weakness has been recently mitigated by replacing the vision encoder with a mixture-of-experts (MoE), which provides rich, multi-granularity, and diverse representations required by diverse downstream tasks. The performance of multimodal MoE largely depends on its router, which reweights and mixes the representations of different experts for each input. However, we find that the end-to-end trained router does not always produce the optimal routing weights for every test sample. To bridge the gap, we propose a novel and efficient method "Re-Routing in Test-Time (R2-T2)" that locally optimizes the vector of routing weights in test-time by moving it toward those vectors of the correctly predicted samples in a neighborhood of the test sample. We propose three R2-T2 strategies with different optimization objectives and neighbor-search spaces. R2-T2 consistently and greatly improves state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks, without training any base-model parameters.