Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts

📄 arXiv: 2604.08541v1 📥 PDF

作者: Haolei Xu, Haiwen Hong, Hongxing Li, Rui Zhou, Yang Zhang, Longtao Huang, Hui Xue, Yongliang Shen, Weiming Lu, Yueting Zhuang

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-09


💡 一句话要点

揭示多模态MoE模型“视而不思”现象,提出路由引导干预方法提升视觉推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 混合专家模型 视觉推理 路由机制 跨模态语义共享 领域专家 路由干扰

📋 核心要点

  1. 现有MoE模型在视觉-语言任务中存在“视而不思”问题,即能感知图像却无法有效推理。
  2. 论文提出“路由干扰”假说,认为视觉输入导致路由机制未能有效激活任务相关的推理专家。
  3. 设计路由引导干预方法,增强领域专家激活,实验表明在视觉推理任务上性能提升显著。

📝 摘要(中文)

多模态混合专家模型(MoE)在视觉-语言任务上取得了显著的性能。然而,我们发现了一个令人困惑的现象,称为“视而不思”:模型能够准确地感知图像内容,但在随后的推理中失败,而对于以纯文本形式呈现的相同问题却能正确解决。通过系统分析,我们首先验证了MoE架构中存在跨模态语义共享,排除了语义对齐失败作为唯一解释。然后,我们揭示了视觉专家和领域专家表现出层级的分离,图像输入导致在领域专家集中的中间层中,路由与文本输入产生显著差异。基于这些发现,我们提出了路由干扰假说:当处理视觉输入时,路由机制未能充分激活任务相关的推理专家。为了验证这一假设,我们设计了一种路由引导的干预方法,以增强领域专家的激活。在六个基准测试中对三个多模态MoE模型进行的实验表明,性能得到了一致的提升,在复杂的视觉推理任务上获得了高达3.17%的收益。我们的分析进一步表明,领域专家识别定位的是认知功能,而不是特定于样本的解决方案,从而实现了在具有不同信息结构的任务之间的有效迁移。

🔬 方法详解

问题定义:论文旨在解决多模态混合专家模型(MoE)在处理视觉-语言任务时出现的“视而不思”现象。现有方法在处理图像输入时,推理能力明显下降,即使对于纯文本形式的相同问题却能正确解决。这表明模型在视觉信息处理过程中存在某种干扰,导致无法有效利用已有的知识进行推理。

核心思路:论文的核心思路是提出“路由干扰”假说,认为视觉输入会干扰MoE模型的路由机制,导致任务相关的推理专家(领域专家)未能被充分激活。因此,通过干预路由机制,引导模型更多地激活领域专家,可以提升视觉推理能力。

技术框架:论文的技术框架主要包括以下几个部分:首先,通过实验验证MoE模型中存在跨模态语义共享,排除语义对齐问题。其次,分析视觉专家和领域专家在网络中的分布,发现它们在不同层级存在分离现象。然后,基于“路由干扰”假说,设计路由引导的干预方法。最后,通过实验验证该方法的有效性。

关键创新:论文最重要的技术创新点在于提出了“路由干扰”假说,并设计了相应的路由引导干预方法。该方法通过调整路由机制,使得模型在处理视觉输入时能够更多地激活领域专家,从而提升视觉推理能力。与现有方法相比,该方法直接针对路由机制进行干预,更加精准有效。

关键设计:论文的关键设计在于路由引导干预方法的具体实现。具体来说,该方法通过修改损失函数,鼓励模型在处理视觉输入时,更多地激活领域专家。此外,论文还对领域专家进行了识别和定位,以便更好地进行路由干预。具体的参数设置和网络结构细节在论文中有详细描述,但摘要中未明确给出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的路由引导干预方法在六个基准测试中对三个多模态MoE模型进行了验证,性能得到了一致的提升,在复杂的视觉推理任务上获得了高达3.17%的收益。此外,分析表明领域专家识别定位的是认知功能,而不是特定于样本的解决方案,从而实现了在具有不同信息结构的任务之间的有效迁移。

🎯 应用场景

该研究成果可应用于各种视觉-语言任务,例如视觉问答、图像描述、视觉推理等。通过提升模型对视觉信息的理解和推理能力,可以提高相关应用的性能和用户体验。未来,该研究可以进一步扩展到其他多模态任务和模型架构中,具有广阔的应用前景。

📄 摘要(原文)

Multimodal Mixture-of-Experts (MoE) models have achieved remarkable performance on vision-language tasks. However, we identify a puzzling phenomenon termed Seeing but Not Thinking: models accurately perceive image content yet fail in subsequent reasoning, while correctly solving identical problems presented as pure text. Through systematic analysis, we first verify that cross-modal semantic sharing exists in MoE architectures, ruling out semantic alignment failure as the sole explanation. We then reveal that visual experts and domain experts exhibit layer-wise separation, with image inputs inducing significant routing divergence from text inputs in middle layers where domain experts concentrate. Based on these findings, we propose the Routing Distraction hypothesis: when processing visual inputs, the routing mechanism fails to adequately activate task-relevant reasoning experts. To validate this hypothesis, we design a routing-guided intervention method that enhances domain expert activation. Experiments on three multimodal MoE models across six benchmarks demonstrate consistent improvements, with gains of up to 3.17% on complex visual reasoning tasks. Our analysis further reveals that domain expert identification locates cognitive functions rather than sample-specific solutions, enabling effective transfer across tasks with different information structures.