FedMultiEmo: Real-Time Emotion Recognition via Multimodal Federated Learning

作者: Baran Can Gül, Suraksha Nadig, Stefanos Tziampazis, Nasser Jazdi, Michael Weyrich

分类: cs.LG

发布日期: 2025-07-21 (更新: 2025-07-22)

备注: Preprint version. Accepted for publication at IEEE ICECCME 2025

💡 一句话要点

FedMultiEmo：通过多模态联邦学习实现实时情感识别

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 多模态融合 情感识别 车载系统 隐私保护 卷积神经网络 随机森林

📋 核心要点

现有车载情感识别方法易受光照和遮挡影响，且生理数据个体差异大，集中式训练存在隐私风险。
FedMultiEmo提出一种多模态联邦学习框架，融合视觉特征和生理信号，在边缘设备上进行训练，保护用户隐私。
实验表明，FedMultiEmo在保证隐私的同时，融合后的情感识别准确率达到87%，与集中式训练基线相当。

📝 摘要（中文）

车载情感识别是自适应驾驶辅助系统和最终乘员安全的基础。然而，实际部署受到以下因素的阻碍：（i）模态脆弱性——光照不足和遮挡会降低基于视觉的方法的性能；（ii）生理变异性——心率和皮肤电导模式因人而异；（iii）隐私风险——集中式训练需要传输敏感数据。为了应对这些挑战，我们提出了FedMultiEmo，这是一个保护隐私的框架，它在决策层融合了两种互补的模态：卷积神经网络从面部图像中提取的视觉特征，以及随机森林分类的生理线索（心率、皮肤电活动和皮肤温度）。FedMultiEmo建立在三个关键要素之上：（1）具有多数投票融合的多模态联邦学习管道，（2）在Raspberry Pi客户端和Flower服务器上的端到端边缘到云原型，以及（3）个性化的联邦平均方案，该方案根据本地数据量对客户端更新进行加权。在FER2013和自定义生理数据集上评估，联邦卷积神经网络达到77%的准确率，随机森林达到74%，它们的融合达到87%，与集中式基线相匹配，同时保持所有原始数据本地化。开发的系统在18轮内收敛，平均每轮时间为120秒，每个客户端的内存占用低于200 MB。这些结果表明，FedMultiEmo为汽车环境中实时、隐私感知的情感识别提供了一种实用的方法。

🔬 方法详解

问题定义：论文旨在解决车载环境下实时情感识别的问题。现有方法面临模态脆弱性（视觉信息易受环境影响）、生理变异性（个体生理数据差异大）以及隐私风险（集中式训练需要上传用户敏感数据）等痛点。

核心思路：论文的核心思路是利用多模态联邦学习，融合视觉特征和生理信号，在本地边缘设备上进行训练，从而解决上述问题。多模态融合可以提高鲁棒性，联邦学习可以保护用户隐私。

技术框架：FedMultiEmo的整体框架包括以下几个主要模块：1) 客户端：每个客户端运行一个本地模型，包括用于处理面部图像的卷积神经网络（CNN）和用于处理生理信号的随机森林（RF）。2) 服务器：服务器负责协调联邦学习过程，聚合来自客户端的模型更新。3) 多模态融合：在决策层进行融合，使用多数投票的方式结合CNN和RF的预测结果。4) 边缘到云原型：系统在Raspberry Pi客户端和Flower服务器上实现端到端原型。

关键创新：该论文的关键创新在于将多模态融合和联邦学习结合起来，提出了一种隐私保护的实时情感识别框架。与传统的集中式训练方法相比，FedMultiEmo无需上传原始数据，从而保护了用户隐私。此外，个性化的联邦平均方案根据本地数据量对客户端更新进行加权，提高了模型的性能。

关键设计：论文中一些关键的设计包括：1) 使用卷积神经网络提取面部图像的视觉特征。2) 使用随机森林对生理信号进行分类。3) 在决策层使用多数投票进行多模态融合。4) 使用个性化的联邦平均方案，根据本地数据量对客户端更新进行加权。5) 系统在Raspberry Pi上运行，内存占用低于200MB，满足车载环境的资源限制。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FedMultiEmo在FER2013和自定义生理数据集上取得了良好的性能。联邦卷积神经网络的准确率达到77%，随机森林达到74%，多模态融合后的准确率达到87%，与集中式训练的基线性能相当，同时保护了用户隐私。该系统在18轮内收敛，平均每轮时间为120秒，每个客户端的内存占用低于200 MB。

🎯 应用场景

FedMultiEmo可应用于车载自适应驾驶辅助系统，根据驾驶员的情绪状态调整车辆行为，提高驾驶安全性。此外，该框架也可扩展到其他需要隐私保护和多模态数据融合的场景，如智能家居、医疗健康等。

📄 摘要（原文）

In-vehicle emotion recognition underpins adaptive driver-assistance systems and, ultimately, occupant safety. However, practical deployment is hindered by (i) modality fragility - poor lighting and occlusions degrade vision-based methods; (ii) physiological variability - heart-rate and skin-conductance patterns differ across individuals; and (iii) privacy risk - centralized training requires transmission of sensitive data. To address these challenges, we present FedMultiEmo, a privacy-preserving framework that fuses two complementary modalities at the decision level: visual features extracted by a Convolutional Neural Network from facial images, and physiological cues (heart rate, electrodermal activity, and skin temperature) classified by a Random Forest. FedMultiEmo builds on three key elements: (1) a multimodal federated learning pipeline with majority-vote fusion, (2) an end-to-end edge-to-cloud prototype on Raspberry Pi clients and a Flower server, and (3) a personalized Federated Averaging scheme that weights client updates by local data volume. Evaluated on FER2013 and a custom physiological dataset, the federated Convolutional Neural Network attains 77% accuracy, the Random Forest 74%, and their fusion 87%, matching a centralized baseline while keeping all raw data local. The developed system converges in 18 rounds, with an average round time of 120 seconds and a per-client memory footprint below 200 MB. These results indicate that FedMultiEmo offers a practical approach to real-time, privacy-aware emotion recognition in automotive settings.

FedMultiEmo: Real-Time Emotion Recognition via Multimodal Federated Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理