Mixture-of-Modality-Experts with Holistic Token Learning for Fine-Grained Multimodal Visual Analytics in Driver Action Recognition

作者: Tianyi Liu, Yiming Li, Wenqian Wang, Jiaojiao Wang, Chen Cai, Yi Wang, Kim-Hui Yap

分类: cs.CV

发布日期: 2026-04-07

备注: 11 pages, 3 figures

💡 一句话要点

提出MoME框架与HTL策略，提升驾驶员行为识别中细粒度多模态视觉分析能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 驾驶员行为识别 混合专家模型 令牌学习 视觉分析

📋 核心要点

现有方法难以适应模态可靠性的变化，无法有效捕捉驾驶员行为识别中的细粒度动作线索。
提出MoME框架，实现模态特定专家间的自适应协作；引入HTL策略，提升专家内部细化和专家间知识转移。
实验结果表明，MoME框架与HTL策略共同优于现有单模态和多模态方法，提升了多模态理解能力。

📝 摘要（中文）

在异构模态为决策提供互补但输入依赖的证据时，鲁棒的多模态视觉分析仍然具有挑战性。现有的多模态学习方法主要依赖于固定的融合模块或预定义的跨模态交互，这通常不足以适应变化的模态可靠性并捕获细粒度的动作线索。为了解决这个问题，我们提出了一个混合模态专家（MoME）框架，并结合了整体令牌学习（HTL）策略。MoME实现了模态特定专家之间的自适应协作，而HTL通过类别令牌和时空令牌改进了专家内部的细化和专家之间的知识转移。通过这种方式，我们的方法形成了一个以知识为中心的多模态学习框架，该框架提高了专家专业化程度，同时减少了多模态融合中的歧义。我们在驾驶员行为识别这一具有代表性的多模态理解任务上验证了所提出的框架。在公共基准上的实验结果表明，所提出的MoME框架和HTL策略共同优于具有代表性的单模态和多模态基线。额外的消融、验证和可视化结果进一步验证了所提出的HTL策略改进了细微的多模态理解，并提供了更好的可解释性。

🔬 方法详解

问题定义：论文旨在解决驾驶员行为识别中，由于不同模态数据（如视频、传感器数据）的可靠性随场景变化，以及现有方法难以捕捉细粒度动作线索而导致的多模态融合困难问题。现有方法通常采用固定的融合模块或预定义的跨模态交互，无法有效利用各模态的互补信息，导致识别精度不高。

核心思路：论文的核心思路是构建一个混合模态专家（MoME）框架，使不同模态的专家能够自适应地协作，并利用整体令牌学习（HTL）策略来增强专家内部的特征细化和专家之间的知识迁移。通过这种方式，模型能够更好地适应不同模态的可靠性变化，并捕捉到更细粒度的动作线索，从而提高驾驶员行为识别的准确性。

技术框架：整体框架包含多个模态特定的专家模块和一个融合模块。每个专家模块负责处理特定模态的数据，并提取相应的特征。HTL策略被应用于每个专家模块内部，以增强特征表示能力。融合模块则负责将不同专家的输出进行融合，并最终进行行为分类。具体流程是：首先，不同模态的数据分别输入到对应的专家模块中；然后，每个专家模块利用HTL策略进行特征提取和细化；最后，融合模块将所有专家的输出进行融合，并输出最终的驾驶员行为识别结果。

关键创新：论文的关键创新在于提出了MoME框架和HTL策略的结合。MoME框架允许模型根据输入数据的特点，自适应地选择合适的专家进行协作，从而提高了模型的鲁棒性。HTL策略通过引入类别令牌和时空令牌，增强了专家内部的特征表示能力，并促进了专家之间的知识迁移，从而提高了模型的识别精度。与现有方法相比，该方法能够更好地适应不同模态的可靠性变化，并捕捉到更细粒度的动作线索。

关键设计：HTL策略的关键设计在于引入了类别令牌和时空令牌。类别令牌用于指导特征提取过程，使其更加关注与类别相关的信息。时空令牌则用于捕捉动作的时序和空间信息。此外，论文还设计了一种自适应的融合机制，根据不同专家的输出置信度，动态地调整其在最终融合结果中的权重。损失函数方面，使用了交叉熵损失函数来训练模型，并采用了一些正则化技术来防止过拟合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的MoME框架和HTL策略在驾驶员行为识别任务上取得了显著的性能提升。具体而言，该方法在公开数据集上优于多个单模态和多模态基线方法，取得了最高的识别精度。消融实验验证了HTL策略中类别令牌和时空令牌的有效性。可视化结果表明，该方法能够更好地捕捉到细粒度的动作线索，并提供更好的可解释性。

🎯 应用场景

该研究成果可应用于高级驾驶辅助系统（ADAS）和自动驾驶领域，提升车辆对驾驶员行为的理解能力，从而实现更安全、更智能的驾驶体验。例如，系统可以根据驾驶员的行为状态（如疲劳驾驶、注意力不集中）及时发出警告，甚至自动介入控制车辆，避免交通事故的发生。此外，该技术还可用于驾驶员行为分析，为驾驶员培训和安全管理提供数据支持。

📄 摘要（原文）

Robust multimodal visual analytics remains challenging when heterogeneous modalities provide complementary but input-dependent evidence for decision-making.Existing multimodal learning methods mainly rely on fixed fusion modules or predefined cross-modal interactions, which are often insufficient to adapt to changing modality reliability and to capture fine-grained action cues. To address this issue, we propose a Mixture-of-Modality-Experts (MoME) framework with a Holistic Token Learning (HTL) strategy. MoME enables adaptive collaboration among modality-specific experts, while HTL improves both intra-expert refinement and inter-expert knowledge transfer through class tokens and spatio-temporal tokens. In this way, our method forms a knowledge-centric multimodal learning framework that improves expert specialization while reducing ambiguity in multimodal fusion.We validate the proposed framework on driver action recognition as a representative multimodal understanding taskThe experimental results on the public benchmark show that the proposed MoME framework and the HTL strategy jointly outperform representative single-modal and multimodal baselines. Additional ablation, validation, and visualization results further verify that the proposed HTL strategy improves subtle multimodal understanding and offers better interpretability.

Mixture-of-Modality-Experts with Holistic Token Learning for Fine-Grained Multimodal Visual Analytics in Driver Action Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理