Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs

📄 arXiv: 2604.14520v1 📥 PDF

作者: Ziyang Luo, Nian Liu, Junwei Han

分类: cs.CV

发布日期: 2026-04-16


💡 一句话要点

提出Chain of Modality框架,解决Omni-MLLMs中静态融合导致的性能瓶颈问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大语言模型 动态融合 模态编排 Omni-MLLMs

📋 核心要点

  1. 现有Omni-MLLMs采用静态融合方式,导致多模态推理性能低于单模态基线,存在位置偏差和对齐陷阱。
  2. 提出Chain of Modality (CoM)框架,通过动态编排输入模态的融合方式,自适应地选择并行、顺序或交错路径。
  3. CoM包含“直接决策”和“推理决策”两条路径,分别处理直接感知和分析审计任务,实现稳健的泛化能力。

📝 摘要(中文)

全模态大语言模型(Omni-MLLMs)旨在统一整合各种感官信息流。然而,最近的评估揭示了一个关键的性能悖论:单模态基线经常优于联合多模态推理。我们发现这种感知脆弱性源于当前模型普遍采用的静态融合拓扑结构,并识别出两种结构性缺陷:顺序输入中的位置偏差和交错格式中的对齐陷阱,这些缺陷系统性地扭曲了注意力,而与任务语义无关。为了解决这种功能刚性,我们提出了模态链(CoM),这是一种agentic框架,它将多模态融合从被动连接转变为动态编排。CoM自适应地编排输入拓扑,在并行、顺序和交错路径之间切换,以消除结构性偏差。此外,CoM将认知执行分为两个任务对齐的路径:用于直接感知的精简“直接决策”路径和用于分析审计的结构化“推理决策”路径。CoM在免训练或数据高效的SFT设置中运行,在各种基准测试中实现了稳健和一致的泛化。

🔬 方法详解

问题定义:现有Omni-MLLMs在处理多模态数据时,采用静态的融合方式,例如简单的拼接(concatenation)或交错(interleaving)。这种静态融合忽略了不同模态之间的关系以及任务的特性,导致模型容易受到输入顺序的位置偏差和模态对齐陷阱的影响,最终使得多模态模型的性能甚至不如单模态模型。因此,如何动态地、自适应地融合多模态信息,是本文要解决的核心问题。

核心思路:本文的核心思路是将多模态融合从静态的连接转变为动态的编排。具体来说,就是让模型能够根据输入模态的特性和当前的任务需求,自适应地选择合适的融合方式。例如,对于需要直接感知的任务,可以直接采用“直接决策”路径;而对于需要深入分析的任务,则采用“推理决策”路径。通过这种动态编排,可以有效地消除静态融合带来的结构性偏差,提高模型的性能。

技术框架:CoM框架主要包含三个部分:输入模态的动态编排、认知执行的双路径选择和决策输出。首先,CoM会根据输入模态的特性,选择合适的融合方式,包括并行、顺序和交错三种路径。然后,CoM会根据任务的类型,选择“直接决策”或“推理决策”路径。在“直接决策”路径中,模型直接根据融合后的多模态信息进行决策;而在“推理决策”路径中,模型会先进行推理,然后再进行决策。最后,模型输出最终的决策结果。

关键创新:CoM框架最重要的技术创新点在于其动态编排的机制。与现有方法采用的静态融合方式不同,CoM能够根据输入模态和任务的特性,自适应地选择合适的融合方式。这种动态编排可以有效地消除静态融合带来的结构性偏差,提高模型的性能。此外,CoM的双路径选择机制也能够更好地适应不同类型的任务。

关键设计:CoM框架的具体实现细节包括:如何选择合适的融合方式?如何设计“直接决策”和“推理决策”路径?如何训练模型?在选择融合方式时,可以采用启发式规则或学习的方式。在设计“直接决策”和“推理决策”路径时,可以采用不同的网络结构和损失函数。在训练模型时,可以采用监督学习或强化学习的方式。论文中提到CoM可以在免训练或数据高效的SFT设置中运行,具体的技术细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的CoM框架在多个多模态基准测试中取得了显著的性能提升。具体的数据和提升幅度在摘要中没有明确给出,但强调了CoM在免训练或数据高效的SFT设置下,实现了稳健和一致的泛化能力,表明其具有良好的实用价值。

🎯 应用场景

该研究成果可广泛应用于需要多模态信息融合的场景,例如智能机器人、自动驾驶、医疗诊断等。通过动态编排多模态信息,可以提高模型对复杂环境的感知和理解能力,从而实现更智能、更可靠的应用。

📄 摘要(原文)

Omni-modal Large Language Models (Omni-MLLMs) promise a unified integration of diverse sensory streams. However, recent evaluations reveal a critical performance paradox: unimodal baselines frequently outperform joint multimodal inference. We trace this perceptual fragility to the static fusion topologies universally employed by current models, identifying two structural pathologies: positional bias in sequential inputs and alignment traps in interleaved formats, which systematically distort attention regardless of task semantics. To resolve this functional rigidity, we propose Chain of Modality (CoM), an agentic framework that transitions multimodal fusion from passive concatenation to dynamic orchestration. CoM adaptively orchestrates input topologies, switching among parallel, sequential, and interleaved pathways to neutralize structural biases. Furthermore, CoM bifurcates cognitive execution into two task-aligned pathways: a streamlined Direct-Decide'' path for direct perception and a structuredReason-Decide'' path for analytical auditing. Operating in either a training-free or a data-efficient SFT setting, CoM achieves robust and consistent generalization across diverse benchmarks.