FedMultiEmo: Real-Time Emotion Recognition via Multimodal Federated Learning
作者: Baran Can Gül, Suraksha Nadig, Stefanos Tziampazis, Nasser Jazdi, Michael Weyrich
分类: cs.LG
发布日期: 2025-07-21 (更新: 2025-07-22)
备注: Preprint version. Accepted for publication at IEEE ICECCME 2025
💡 一句话要点
FedMultiEmo:通过多模态联邦学习实现实时情感识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 多模态融合 情感识别 车载系统 隐私保护 卷积神经网络 随机森林
📋 核心要点
- 现有车载情感识别方法易受光照和遮挡影响,且生理数据个体差异大,集中式训练存在隐私风险。
- FedMultiEmo提出一种多模态联邦学习框架,融合视觉特征和生理信号,在边缘设备上进行训练,保护用户隐私。
- 实验表明,FedMultiEmo在保证隐私的同时,融合后的情感识别准确率达到87%,与集中式训练基线相当。
📝 摘要(中文)
车载情感识别是自适应驾驶辅助系统和最终乘员安全的基础。然而,实际部署受到以下因素的阻碍:(i)模态脆弱性——光照不足和遮挡会降低基于视觉的方法的性能;(ii)生理变异性——心率和皮肤电导模式因人而异;(iii)隐私风险——集中式训练需要传输敏感数据。为了应对这些挑战,我们提出了FedMultiEmo,这是一个保护隐私的框架,它在决策层融合了两种互补的模态:卷积神经网络从面部图像中提取的视觉特征,以及随机森林分类的生理线索(心率、皮肤电活动和皮肤温度)。FedMultiEmo建立在三个关键要素之上:(1)具有多数投票融合的多模态联邦学习管道,(2)在Raspberry Pi客户端和Flower服务器上的端到端边缘到云原型,以及(3)个性化的联邦平均方案,该方案根据本地数据量对客户端更新进行加权。在FER2013和自定义生理数据集上评估,联邦卷积神经网络达到77%的准确率,随机森林达到74%,它们的融合达到87%,与集中式基线相匹配,同时保持所有原始数据本地化。开发的系统在18轮内收敛,平均每轮时间为120秒,每个客户端的内存占用低于200 MB。这些结果表明,FedMultiEmo为汽车环境中实时、隐私感知的情感识别提供了一种实用的方法。
🔬 方法详解
问题定义:论文旨在解决车载环境下实时情感识别的问题。现有方法面临模态脆弱性(视觉信息易受环境影响)、生理变异性(个体生理数据差异大)以及隐私风险(集中式训练需要上传用户敏感数据)等痛点。
核心思路:论文的核心思路是利用多模态联邦学习,融合视觉特征和生理信号,在本地边缘设备上进行训练,从而解决上述问题。多模态融合可以提高鲁棒性,联邦学习可以保护用户隐私。
技术框架:FedMultiEmo的整体框架包括以下几个主要模块:1) 客户端:每个客户端运行一个本地模型,包括用于处理面部图像的卷积神经网络(CNN)和用于处理生理信号的随机森林(RF)。2) 服务器:服务器负责协调联邦学习过程,聚合来自客户端的模型更新。3) 多模态融合:在决策层进行融合,使用多数投票的方式结合CNN和RF的预测结果。4) 边缘到云原型:系统在Raspberry Pi客户端和Flower服务器上实现端到端原型。
关键创新:该论文的关键创新在于将多模态融合和联邦学习结合起来,提出了一种隐私保护的实时情感识别框架。与传统的集中式训练方法相比,FedMultiEmo无需上传原始数据,从而保护了用户隐私。此外,个性化的联邦平均方案根据本地数据量对客户端更新进行加权,提高了模型的性能。
关键设计:论文中一些关键的设计包括:1) 使用卷积神经网络提取面部图像的视觉特征。2) 使用随机森林对生理信号进行分类。3) 在决策层使用多数投票进行多模态融合。4) 使用个性化的联邦平均方案,根据本地数据量对客户端更新进行加权。5) 系统在Raspberry Pi上运行,内存占用低于200MB,满足车载环境的资源限制。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FedMultiEmo在FER2013和自定义生理数据集上取得了良好的性能。联邦卷积神经网络的准确率达到77%,随机森林达到74%,多模态融合后的准确率达到87%,与集中式训练的基线性能相当,同时保护了用户隐私。该系统在18轮内收敛,平均每轮时间为120秒,每个客户端的内存占用低于200 MB。
🎯 应用场景
FedMultiEmo可应用于车载自适应驾驶辅助系统,根据驾驶员的情绪状态调整车辆行为,提高驾驶安全性。此外,该框架也可扩展到其他需要隐私保护和多模态数据融合的场景,如智能家居、医疗健康等。
📄 摘要(原文)
In-vehicle emotion recognition underpins adaptive driver-assistance systems and, ultimately, occupant safety. However, practical deployment is hindered by (i) modality fragility - poor lighting and occlusions degrade vision-based methods; (ii) physiological variability - heart-rate and skin-conductance patterns differ across individuals; and (iii) privacy risk - centralized training requires transmission of sensitive data. To address these challenges, we present FedMultiEmo, a privacy-preserving framework that fuses two complementary modalities at the decision level: visual features extracted by a Convolutional Neural Network from facial images, and physiological cues (heart rate, electrodermal activity, and skin temperature) classified by a Random Forest. FedMultiEmo builds on three key elements: (1) a multimodal federated learning pipeline with majority-vote fusion, (2) an end-to-end edge-to-cloud prototype on Raspberry Pi clients and a Flower server, and (3) a personalized Federated Averaging scheme that weights client updates by local data volume. Evaluated on FER2013 and a custom physiological dataset, the federated Convolutional Neural Network attains 77% accuracy, the Random Forest 74%, and their fusion 87%, matching a centralized baseline while keeping all raw data local. The developed system converges in 18 rounds, with an average round time of 120 seconds and a per-client memory footprint below 200 MB. These results indicate that FedMultiEmo offers a practical approach to real-time, privacy-aware emotion recognition in automotive settings.