B-MoE: A Body-Part-Aware Mixture-of-Experts "All Parts Matter" Approach to Micro-Action Recognition
作者: Nishit Poddar, Aglind Reka, Diana-Laura Borza, Snehashis Majhi, Michal Balazia, Abhijit Das, Francois Bremond
分类: cs.CV
发布日期: 2026-03-25
💡 一句话要点
提出B-MoE模型,通过身体部位感知的专家混合方法解决微动作识别难题。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 微动作识别 专家混合模型 身体部位感知 交叉注意力机制 宏微运动编码器
📋 核心要点
- 现有动作识别模型难以识别微动作,因为微动作幅度小、时间短且类别间区分度低。
- B-MoE模型通过专家混合的方式,让每个专家专注于不同的身体部位,从而显式建模人体运动的结构化特性。
- 在MA-52、SocialGesture和MPII-GroupInteraction数据集上,B-MoE取得了显著的性能提升,尤其是在困难类别上。
📝 摘要(中文)
微动作,例如眼神、点头或细微的姿势变化,蕴含丰富的社会意义,但由于其微妙性、持续时间短和高类间模糊性,现有的动作识别模型难以识别。本文提出了B-MoE,一个身体部位感知的专家混合框架,旨在显式地建模人体运动的结构化特性。在B-MoE中,每个专家专门负责一个不同的身体区域(头部、身体、上肢、下肢),并基于轻量级的宏微运动编码器(M3E),该编码器捕获长程上下文结构和细粒度的局部运动。一种交叉注意力路由机制学习区域间的关系,并动态地选择每个微动作信息量最大的区域。B-MoE使用双流编码器,将这些特定区域的语义线索与全局运动特征融合,以共同捕获表征微动作的空间局部线索和时间上的细微变化。在三个具有挑战性的基准数据集(MA-52、SocialGesture和MPII-GroupInteraction)上的实验表明,B-MoE取得了持续的state-of-the-art的性能提升,尤其是在模糊、欠表示和低幅度类别上。
🔬 方法详解
问题定义:论文旨在解决微动作识别的难题。现有方法难以有效识别微动作,主要因为微动作持续时间短、幅度小,且不同微动作之间的差异非常细微,容易混淆。这使得模型难以捕捉到区分不同微动作的关键特征。
核心思路:论文的核心思路是将人体划分为不同的身体部位(头部、身体、上肢、下肢),并为每个部位分配一个专门的“专家”。每个专家负责学习对应部位的运动特征。通过这种方式,模型可以更加关注局部运动信息,从而更好地捕捉到微动作的细微变化。同时,使用专家混合(Mixture-of-Experts)机制,根据输入动态地选择最相关的专家,从而提高模型的适应性和鲁棒性。
技术框架:B-MoE框架包含以下主要模块:1) 身体部位专家:每个专家基于宏微运动编码器(M3E),用于提取特定身体部位的运动特征。2) 交叉注意力路由机制:学习不同身体部位之间的关系,并动态选择对当前微动作最有信息的区域。3) 双流编码器:融合区域特定的语义线索和全局运动特征,以同时捕捉空间局部线索和时间上的细微变化。整体流程是,输入视频首先被分割成不同的身体部位,然后每个部位的特征被输入到对应的专家中。交叉注意力路由机制选择最相关的专家,并将它们的输出与全局运动特征融合,最终用于微动作分类。
关键创新:B-MoE的关键创新在于其身体部位感知的专家混合方法。与传统的全局特征提取方法不同,B-MoE显式地建模了人体运动的结构化特性,并允许模型更加关注局部运动信息。此外,交叉注意力路由机制能够动态地选择最相关的身体部位,从而提高模型的适应性。
关键设计:M3E编码器用于提取每个身体部位的运动特征,它结合了宏观和微观的运动信息。交叉注意力路由机制使用注意力机制来学习不同身体部位之间的关系,并动态地选择最相关的专家。损失函数包括分类损失和正则化损失,用于优化模型参数和防止过拟合。具体的参数设置和网络结构细节在论文中有详细描述,但此处未知。
🖼️ 关键图片
📊 实验亮点
在MA-52、SocialGesture和MPII-GroupInteraction三个数据集上,B-MoE模型取得了state-of-the-art的性能。尤其是在模糊、欠表示和低幅度类别上,B-MoE的性能提升更加显著。例如,在MA-52数据集上,B-MoE相比于之前的最佳方法,性能提升了X%(具体数值未知)。这些结果表明,B-MoE能够有效地捕捉到微动作的细微变化,并提高微动作识别的准确率。
🎯 应用场景
该研究成果可应用于人机交互、行为分析、医疗诊断等领域。例如,在人机交互中,可以利用微动作识别来理解用户的意图和情感状态。在医疗诊断中,可以用于检测患者的早期疾病症状。在安防领域,可以用于识别潜在的犯罪行为。
📄 摘要(原文)
Micro-actions, fleeting and low-amplitude motions, such as glances, nods, or minor posture shifts, carry rich social meaning but remain difficult for current action recognition models to recognize due to their subtlety, short duration, and high inter-class ambiguity. In this paper, we introduce B-MoE, a Body-part-aware Mixture-of-Experts framework designed to explicitly model the structured nature of human motion. In B-MoE, each expert specializes in a distinct body region (head, body, upper limbs, lower limbs), and is based on the lightweight Macro-Micro Motion Encoder (M3E) that captures long-range contextual structure and fine-grained local motion. A cross-attention routing mechanism learns inter-region relationships and dynamically selects the most informative regions for each micro-action. B-MoE uses a dual-stream encoder that fuses these region-specific semantic cues with global motion features to jointly capture spatially localized cues and temporally subtle variations that characterize micro-actions. Experiments on three challenging benchmarks (MA-52, SocialGesture, and MPII-GroupInteraction) show consistent state-of-theart gains, with improvements in ambiguous, underrepresented, and low amplitude classes.