A Multimodal Fusion Model Leveraging MLP Mixer and Handcrafted Features-based Deep Learning Networks for Facial Palsy Detection

📄 arXiv: 2503.10371v1 📥 PDF

作者: Heng Yim Nicole Oo, Min Hun Lee, Jeong Hoon Lim

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-03-13

备注: PAKDD 2025. arXiv admin note: text overlap with arXiv:2405.16496


💡 一句话要点

提出基于MLP Mixer和手工特征融合的多模态面瘫检测模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 面瘫检测 多模态融合 MLP Mixer 手工特征 深度学习

📋 核心要点

  1. 当前面瘫检测依赖于耗时且主观的临床评估,缺乏高效客观的自动化方法。
  2. 论文提出融合图像和手工特征的多模态深度学习模型,利用MLP Mixer和前馈网络分别处理不同类型数据。
  3. 实验表明,多模态融合模型在面瘫检测任务上取得了显著优于单模态模型的性能提升。

📝 摘要(中文)

本文提出了一种基于多模态融合的深度学习模型,用于面瘫的算法检测,旨在改进目前临床上劳动密集且主观的评估方法。该模型利用基于MLP Mixer的模型处理非结构化数据(如RGB图像或包含面部线段的图像),并使用前馈神经网络处理结构化数据(如面部landmark坐标、面部表情特征或手工特征),用于检测面瘫。通过对20名面瘫患者和20名健康受试者的视频进行研究,分析了不同数据模态的影响以及多模态融合方法的优势。实验结果表明,该多模态融合模型达到了96.00的F1分数,显著高于仅使用手工特征训练的前馈神经网络(82.80 F1)和仅使用原始RGB图像训练的MLP Mixer模型(89.00 F1)。

🔬 方法详解

问题定义:面瘫检测的现有方法主要依赖于临床医生的主观评估,效率低且容易受到观察者偏差的影响。因此,需要一种自动化的、客观的面瘫检测方法。现有方法,例如仅使用图像或手工特征的方法,无法充分利用不同模态的信息,导致检测精度不高。

核心思路:论文的核心思路是利用多模态融合的方法,将图像信息(通过MLP Mixer提取)和手工特征(通过前馈神经网络提取)结合起来,从而更全面地捕捉面瘫的特征。这样设计的目的是为了克服单一模态信息的局限性,提高检测的准确性和鲁棒性。

技术框架:整体框架包含两个主要分支:一个分支使用MLP Mixer处理RGB图像或包含面部线段的图像,提取图像特征;另一个分支使用前馈神经网络处理结构化数据,如面部landmark坐标、面部表情特征或手工特征。然后,将两个分支提取的特征进行融合,输入到分类器中进行面瘫检测。

关键创新:最重要的技术创新点在于多模态融合策略,它有效地结合了图像的全局信息和手工特征的局部细节。与仅使用单一模态信息的方法相比,该方法能够更全面地捕捉面瘫的特征,从而提高检测精度。此外,使用MLP Mixer处理图像数据也是一个创新点,它能够有效地提取图像特征,并且计算效率较高。

关键设计:MLP Mixer的具体结构和参数设置未知,前馈神经网络的层数和神经元数量也未知。损失函数和优化器的选择未知。手工特征的选择和提取方法未知。这些细节对于复现论文结果至关重要,但论文摘要中并未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,多模态融合模型在面瘫检测任务上取得了显著的性能提升,F1分数达到了96.00,显著高于仅使用手工特征训练的前馈神经网络(82.80 F1)和仅使用原始RGB图像训练的MLP Mixer模型(89.00 F1)。这表明多模态融合策略能够有效地结合不同模态的信息,提高检测精度。

🎯 应用场景

该研究成果可应用于开发自动化的面瘫辅助诊断系统,减轻临床医生的工作负担,提高诊断效率和准确性。此外,该技术还可以扩展到其他需要多模态信息融合的医学图像分析任务中,例如其他面部疾病的诊断或康复评估。

📄 摘要(原文)

Algorithmic detection of facial palsy offers the potential to improve current practices, which usually involve labor-intensive and subjective assessments by clinicians. In this paper, we present a multimodal fusion-based deep learning model that utilizes an MLP mixer-based model to process unstructured data (i.e. RGB images or images with facial line segments) and a feed-forward neural network to process structured data (i.e. facial landmark coordinates, features of facial expressions, or handcrafted features) for detecting facial palsy. We then contribute to a study to analyze the effect of different data modalities and the benefits of a multimodal fusion-based approach using videos of 20 facial palsy patients and 20 healthy subjects. Our multimodal fusion model achieved 96.00 F1, which is significantly higher than the feed-forward neural network trained on handcrafted features alone (82.80 F1) and an MLP mixer-based model trained on raw RGB images (89.00 F1).