Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts

作者: Haolei Xu, Haiwen Hong, Hongxing Li, Rui Zhou, Yang Zhang, Longtao Huang, Hui Xue, Yongliang Shen, Weiming Lu, Yueting Zhuang

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-09

💡 一句话要点

揭示多模态MoE模型“视而不思”现象，提出路由引导干预方法提升视觉推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 混合专家模型 视觉推理 路由机制 跨模态语义共享 领域专家 路由干扰

📋 核心要点

现有MoE模型在视觉-语言任务中存在“视而不思”问题，即能感知图像却无法有效推理。
论文提出“路由干扰”假说，认为视觉输入导致路由机制未能有效激活任务相关的推理专家。
设计路由引导干预方法，增强领域专家激活，实验表明在视觉推理任务上性能提升显著。

📝 摘要（中文）

多模态混合专家模型(MoE)在视觉-语言任务上取得了显著的性能。然而，我们发现了一个令人困惑的现象，称为“视而不思”：模型能够准确地感知图像内容，但在随后的推理中失败，而对于以纯文本形式呈现的相同问题却能正确解决。通过系统分析，我们首先验证了MoE架构中存在跨模态语义共享，排除了语义对齐失败作为唯一解释。然后，我们揭示了视觉专家和领域专家表现出层级的分离，图像输入导致在领域专家集中的中间层中，路由与文本输入产生显著差异。基于这些发现，我们提出了路由干扰假说：当处理视觉输入时，路由机制未能充分激活任务相关的推理专家。为了验证这一假设，我们设计了一种路由引导的干预方法，以增强领域专家的激活。在六个基准测试中对三个多模态MoE模型进行的实验表明，性能得到了一致的提升，在复杂的视觉推理任务上获得了高达3.17%的收益。我们的分析进一步表明，领域专家识别定位的是认知功能，而不是特定于样本的解决方案，从而实现了在具有不同信息结构的任务之间的有效迁移。

🔬 方法详解

问题定义：论文旨在解决多模态混合专家模型(MoE)在处理视觉-语言任务时出现的“视而不思”现象。现有方法在处理图像输入时，推理能力明显下降，即使对于纯文本形式的相同问题却能正确解决。这表明模型在视觉信息处理过程中存在某种干扰，导致无法有效利用已有的知识进行推理。

核心思路：论文的核心思路是提出“路由干扰”假说，认为视觉输入会干扰MoE模型的路由机制，导致任务相关的推理专家（领域专家）未能被充分激活。因此，通过干预路由机制，引导模型更多地激活领域专家，可以提升视觉推理能力。

技术框架：论文的技术框架主要包括以下几个部分：首先，通过实验验证MoE模型中存在跨模态语义共享，排除语义对齐问题。其次，分析视觉专家和领域专家在网络中的分布，发现它们在不同层级存在分离现象。然后，基于“路由干扰”假说，设计路由引导的干预方法。最后，通过实验验证该方法的有效性。

关键创新：论文最重要的技术创新点在于提出了“路由干扰”假说，并设计了相应的路由引导干预方法。该方法通过调整路由机制，使得模型在处理视觉输入时能够更多地激活领域专家，从而提升视觉推理能力。与现有方法相比，该方法直接针对路由机制进行干预，更加精准有效。

关键设计：论文的关键设计在于路由引导干预方法的具体实现。具体来说，该方法通过修改损失函数，鼓励模型在处理视觉输入时，更多地激活领域专家。此外，论文还对领域专家进行了识别和定位，以便更好地进行路由干预。具体的参数设置和网络结构细节在论文中有详细描述，但摘要中未明确给出。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的路由引导干预方法在六个基准测试中对三个多模态MoE模型进行了验证，性能得到了一致的提升，在复杂的视觉推理任务上获得了高达3.17%的收益。此外，分析表明领域专家识别定位的是认知功能，而不是特定于样本的解决方案，从而实现了在具有不同信息结构的任务之间的有效迁移。

🎯 应用场景

该研究成果可应用于各种视觉-语言任务，例如视觉问答、图像描述、视觉推理等。通过提升模型对视觉信息的理解和推理能力，可以提高相关应用的性能和用户体验。未来，该研究可以进一步扩展到其他多模态任务和模型架构中，具有广阔的应用前景。

📄 摘要（原文）

Multimodal Mixture-of-Experts (MoE) models have achieved remarkable performance on vision-language tasks. However, we identify a puzzling phenomenon termed Seeing but Not Thinking: models accurately perceive image content yet fail in subsequent reasoning, while correctly solving identical problems presented as pure text. Through systematic analysis, we first verify that cross-modal semantic sharing exists in MoE architectures, ruling out semantic alignment failure as the sole explanation. We then reveal that visual experts and domain experts exhibit layer-wise separation, with image inputs inducing significant routing divergence from text inputs in middle layers where domain experts concentrate. Based on these findings, we propose the Routing Distraction hypothesis: when processing visual inputs, the routing mechanism fails to adequately activate task-relevant reasoning experts. To validate this hypothesis, we design a routing-guided intervention method that enhances domain expert activation. Experiments on three multimodal MoE models across six benchmarks demonstrate consistent improvements, with gains of up to 3.17% on complex visual reasoning tasks. Our analysis further reveals that domain expert identification locates cognitive functions rather than sample-specific solutions, enabling effective transfer across tasks with different information structures.

Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理