Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition
作者: Muhammad Haseeb Aslam, Marco Pedersoli, Alessandro Lameiras Koerich, Eric Granger
分类: cs.CV
发布日期: 2024-08-16
💡 一句话要点
提出多教师特权知识蒸馏方法MT-PKDOT,提升多模态情感识别在模态缺失场景下的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态情感识别 特权知识蒸馏 多教师学习 结构相似性 最优传输
📋 核心要点
- 现有特权知识蒸馏方法未能充分利用多模态数据中的关系信息,且依赖单一教师模型,限制了模型的鲁棒性和泛化能力。
- 提出一种多教师特权知识蒸馏方法MT-PKDOT,通过自蒸馏对齐多个教师模型的表示,并利用正则化最优传输进行结构相似性知识蒸馏。
- 在Affwild2和Biovid数据集上的实验结果表明,MT-PKDOT方法优于现有特权知识蒸馏方法,显著提升了仅视觉模态下的情感识别性能。
📝 摘要(中文)
人类情感是一种复杂的现象,通过面部表情、语调、肢体语言和生理信号来传递和感知。多模态情感识别系统能够学习来自不同传感器的互补和冗余语义信息,从而表现良好。但在实际场景中,训练时使用的模态可能只有一部分在测试时可用。特权知识学习允许模型利用仅在训练期间可用的额外模态数据。现有的特权知识蒸馏(PKD)方法通常采用点对点匹配,未能显式捕捉关系信息。虽然最近有方法通过结构相似性进行蒸馏,但主要局限于从单一联合教师表示学习,限制了其鲁棒性、准确性和从多样多模态源学习的能力。本文提出了一种多教师PKD方法(MT-PKDOT),通过自蒸馏对齐不同的教师表示,然后将其蒸馏到学生模型。MT-PKDOT采用基于正则化最优传输(OT)的结构相似性KD机制进行蒸馏。在Affwild2和Biovid数据集上的验证结果表明,该方法优于SOTA PKD方法,在Biovid数据上将仅视觉基线提高了5.5%,在Affwild2数据集上,对于valence和arousal分别提高了3%和5%。实验表明,允许学生从多个不同来源学习可以提高准确性,并隐式地避免对学生模型的负迁移。
🔬 方法详解
问题定义:论文旨在解决多模态情感识别中,测试阶段部分模态缺失的问题。现有特权知识蒸馏方法主要存在两个痛点:一是未能充分利用多模态数据中的关系信息,二是依赖单一教师模型,导致鲁棒性和泛化能力不足。
核心思路:论文的核心思路是利用多个教师模型,每个教师模型基于不同的模态组合进行训练,从而提供更丰富的知识。通过自蒸馏对齐这些教师模型的表示,然后利用结构相似性知识蒸馏将知识传递给学生模型。这种方法可以有效利用多模态数据中的互补信息,并提高模型的鲁棒性。
技术框架:MT-PKDOT方法包含以下主要模块:1) 多教师模型训练:训练多个教师模型,每个模型使用不同的模态组合作为特权信息。2) 教师模型自蒸馏:使用自蒸馏方法对齐不同教师模型的表示,使其具有更强的可比性。3) 基于正则化最优传输的结构相似性知识蒸馏:利用正则化最优传输计算教师模型和学生模型之间的结构相似性,并将其作为知识蒸馏的损失函数。4) 学生模型训练:使用知识蒸馏损失函数和标准的情感识别损失函数联合训练学生模型。
关键创新:该方法最重要的技术创新点在于引入了多教师特权知识蒸馏框架,并结合了自蒸馏和基于正则化最优传输的结构相似性知识蒸馏。与现有方法的本质区别在于,该方法能够利用多个教师模型的知识,并显式地捕捉多模态数据中的关系信息。
关键设计:在教师模型自蒸馏阶段,可以使用KL散度等损失函数来对齐不同教师模型的表示。在基于正则化最优传输的结构相似性知识蒸馏阶段,需要选择合适的正则化参数和最优传输算法。此外,学生模型的网络结构和损失函数的设计也会影响最终的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MT-PKDOT方法在Affwild2和Biovid数据集上均取得了显著的性能提升。在Biovid数据集上,相对于仅视觉基线,MT-PKDOT方法提升了5.5%。在Affwild2数据集上,对于valence和arousal,分别提升了3%和5%。这些结果表明,该方法能够有效利用多教师模型的知识,并提高模型的鲁棒性。
🎯 应用场景
该研究成果可应用于人机交互、智能客服、心理健康监测等领域。通过提升在模态缺失情况下的情感识别准确率,可以使机器更好地理解人类情感,从而提供更自然、更智能的服务。例如,在视频会议中,如果语音信息缺失,系统仍然可以通过面部表情识别用户的情感状态。
📄 摘要(原文)
Human emotion is a complex phenomenon conveyed and perceived through facial expressions, vocal tones, body language, and physiological signals. Multimodal emotion recognition systems can perform well because they can learn complementary and redundant semantic information from diverse sensors. In real-world scenarios, only a subset of the modalities employed for training may be available at test time. Learning privileged information allows a model to exploit data from additional modalities that are only available during training. SOTA methods for PKD have been proposed to distill information from a teacher model (with privileged modalities) to a student model (without privileged modalities). However, such PKD methods utilize point-to-point matching and do not explicitly capture the relational information. Recently, methods have been proposed to distill the structural information. However, PKD methods based on structural similarity are primarily confined to learning from a single joint teacher representation, which limits their robustness, accuracy, and ability to learn from diverse multimodal sources. In this paper, a multi-teacher PKD (MT-PKDOT) method with self-distillation is introduced to align diverse teacher representations before distilling them to the student. MT-PKDOT employs a structural similarity KD mechanism based on a regularized optimal transport (OT) for distillation. The proposed MT-PKDOT method was validated on the Affwild2 and Biovid datasets. Results indicate that our proposed method can outperform SOTA PKD methods. It improves the visual-only baseline on Biovid data by 5.5%. On the Affwild2 dataset, the proposed method improves 3% and 5% over the visual-only baseline for valence and arousal respectively. Allowing the student to learn from multiple diverse sources is shown to increase the accuracy and implicitly avoids negative transfer to the student model.