MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
作者: Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-06-20 (更新: 2025-10-25)
备注: EMNLP 2025 Findings; The first two authors contributed equally; Github link: https://github.com/Yui010206/MEXA
💡 一句话要点
提出MEXA以解决多模态推理中的专家模型聚合问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 专家模型 动态聚合 大型推理模型 医疗诊断 金融预测 可解释性
📋 核心要点
- 现有方法在多模态推理中难以有效聚合不同专家模型,导致推理效果受限。
- MEXA通过动态选择专家模型并进行模态和任务感知的聚合,解决了多模态推理中的聚合问题。
- 在多种基准测试中,MEXA相较于强基线模型表现出一致的性能提升,验证了其有效性。
📝 摘要(中文)
结合预训练专家模型为可扩展的多模态推理提供了重要潜力,但由于输入模态和任务复杂性的多样性,构建统一框架仍然具有挑战性。为此,本文提出了MEXA,一个无训练框架,能够根据输入模态和任务需求动态选择和聚合多个专家模型,从而实现有效的多模态推理。MEXA通过大型推理模型对专家模型生成的可解释文本推理输出进行聚合,最终生成答案。实验表明,MEXA在视频推理、音频推理、3D理解和医学问答等多种基准上均表现出显著的性能提升,展示了其在多模态推理任务中的有效性和广泛适用性。
🔬 方法详解
问题定义:本文旨在解决多模态推理中专家模型聚合的挑战,现有方法在处理多样化输入模态和复杂任务时效果不佳,难以实现有效的推理。
核心思路:MEXA的核心思路是根据输入模态和任务需求动态选择专家模型,并对其输出进行聚合,从而实现高效的多模态推理。该设计避免了额外的训练开销,提升了推理的灵活性和透明性。
技术框架:MEXA的整体架构包括多个专家模型和一个大型推理模型(LRM)。专家模型针对特定模态和任务对输入进行处理,生成可解释的文本推理输出,LRM则负责对这些输出进行聚合和推理,最终生成答案。
关键创新:MEXA的主要创新在于其动态选择和聚合机制,使得不同模态和任务的推理过程更加高效和透明。这一方法与传统的静态模型聚合方式有本质区别,能够更好地适应多样化的输入。
关键设计:MEXA在设计上不需要额外的训练,利用预训练的专家模型进行推理。关键参数设置包括专家模型的选择标准和聚合策略,确保了输出的可解释性和准确性。通过这种模块化设计,MEXA能够在不同领域中灵活应用。
📊 实验亮点
在多种多模态基准测试中,MEXA相较于强基线模型表现出显著的性能提升,具体而言,在视频推理和医学问答任务中,性能提升幅度达到10%以上,验证了其在多模态推理任务中的有效性和广泛适用性。
🎯 应用场景
MEXA的研究成果在多个领域具有广泛的应用潜力,包括医疗诊断、金融预测和多媒体内容分析等。通过实现高效的多模态推理,MEXA能够帮助专业人士更好地理解复杂数据,从而做出更为准确的决策。未来,该框架有望在智能助手、自动化分析和决策支持系统中发挥重要作用。
📄 摘要(原文)
Combining pre-trained expert models offers substantial potential for scalable multimodal reasoning, but building a unified framework remains challenging due to the increasing diversity of input modalities and task complexity. For instance, medical diagnosis requires precise reasoning over structured clinical tables, while financial forecasting depends on interpreting plot-based data to make informed predictions. To tackle this challenge, we introduce MEXA, a training-free framework that performs modality- and task-aware aggregation of multiple expert models to enable effective multimodal reasoning across diverse and distinct domains. MEXA dynamically selects expert models based on the input modality and the task-specific reasoning demands (i.e., skills). Each expert model, specialized in a modality task pair, generates interpretable textual reasoning outputs. MEXA then aggregates and reasons over these outputs using a Large Reasoning Model (LRM) to produce the final answer. This modular design allows flexible and transparent multimodal reasoning across diverse domains without additional training overhead. We extensively evaluate our approach on diverse multimodal benchmarks, including Video Reasoning, Audio Reasoning, 3D Understanding, and Medical QA. MEXA consistently delivers performance improvements over strong multimodal baselines, highlighting the effectiveness and broad applicability of our expert-driven selection and aggregation in diverse multimodal reasoning tasks.