Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

作者: Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus, Jesus Bermudez-Cameo, Jose J. Guerrero, Simone Schaub-Meyer

分类: cs.CV

发布日期: 2025-04-11 (更新: 2025-09-17)

备注: Project Page: https://visinf.github.io/KARMMA

💡 一句话要点

提出KARMMA，一种鲁棒于模态缺失的自中心动作识别多模态知识蒸馏方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自中心动作识别 多模态学习 知识蒸馏 模态缺失 鲁棒性 轻量级模型 深度学习

📋 核心要点

现有自中心动作识别方法在模态缺失时性能显著下降，限制了其在实际场景中的应用。
KARMMA通过知识蒸馏，将多模态教师模型的知识迁移到学生模型，使其在模态缺失时仍保持鲁棒性。
实验表明，KARMMA学生模型在保持竞争力的准确率的同时，显著降低了模态缺失带来的性能损失。

📝 摘要（中文）

现有的自中心动作识别方法通常仅依赖RGB视频，而额外的模态（如音频）可以提高在复杂场景中的准确性。然而，大多数先前的多模态方法假设所有模态在推理时都可用，这导致当输入缺失时，准确率显著下降，甚至失效。为了解决这个问题，我们提出KARMMA，一种用于自中心动作识别的多模态知识蒸馏方法，它对模态缺失具有鲁棒性，并且在训练或推理过程中不需要跨所有样本的模态对齐。KARMMA将知识从多模态教师模型提炼到多模态学生模型，学生模型受益于所有可用的模态，同时对缺失的模态保持鲁棒性，使其适用于各种多模态场景，而无需重新训练。我们的学生模型使用的计算资源比教师模型少约50%，从而形成了一个轻量级且快速的模型。在Epic-Kitchens和Something-Something数据集上的实验表明，我们的学生模型在实现具有竞争力的准确率的同时，显著降低了在模态缺失条件下的准确率下降。

🔬 方法详解

问题定义：现有自中心动作识别方法在推理阶段通常假设所有模态都可用。然而，在实际应用中，由于传感器故障、数据传输错误等原因，某些模态可能缺失。这会导致依赖于完整模态信息的方法性能急剧下降，甚至无法工作。因此，如何设计一种对模态缺失具有鲁棒性的自中心动作识别方法是一个关键问题。

核心思路：KARMMA的核心思路是利用知识蒸馏，将一个性能强大的多模态教师模型的知识迁移到一个轻量级的多模态学生模型。教师模型利用所有可用的模态进行训练，学习到丰富的模态间关系。学生模型在训练过程中学习模仿教师模型的输出，从而获得对模态缺失的鲁棒性。即使某些模态缺失，学生模型仍然可以利用剩余的模态信息进行准确的动作识别。

技术框架：KARMMA的整体框架包括一个多模态教师模型和一个多模态学生模型。教师模型可以是任何现有的多模态动作识别模型，例如，基于Transformer的模型。学生模型通常比教师模型更小，计算复杂度更低。训练过程包括两个阶段：首先，训练教师模型；然后，利用教师模型指导学生模型的训练。在训练学生模型时，使用知识蒸馏损失函数，鼓励学生模型的输出与教师模型的输出尽可能接近。

关键创新：KARMMA的关键创新在于其对模态缺失的鲁棒性。与传统的知识蒸馏方法不同，KARMMA专门设计用于处理模态缺失的情况。它不需要在训练或推理过程中进行模态对齐，这使得它更加灵活和通用。此外，KARMMA可以显著减少计算资源的使用，从而实现轻量级和快速的动作识别。

关键设计：KARMMA的关键设计包括：1) 使用交叉熵损失函数训练教师模型；2) 使用知识蒸馏损失函数训练学生模型，该损失函数包括softmax输出之间的KL散度和特征表示之间的L2损失；3) 学生模型和教师模型可以使用不同的网络结构，例如，学生模型可以使用更少的层或更小的特征维度；4) 在训练学生模型时，可以采用数据增强技术，例如，随机丢弃某些模态，以进一步提高其对模态缺失的鲁棒性。

🖼️ 关键图片

📊 实验亮点

在Epic-Kitchens和Something-Something数据集上的实验表明，KARMMA学生模型在模态缺失的情况下，相比于直接使用RGB模态的模型，准确率显著提升。例如，在Epic-Kitchens数据集上，当音频模态缺失时，KARMMA学生模型的准确率仅下降了较小的幅度，而直接使用RGB模态的模型准确率下降幅度较大。此外，KARMMA学生模型使用的计算资源比教师模型少约50%，验证了其轻量级的特性。

🎯 应用场景

KARMMA适用于各种需要自中心动作识别且模态可能缺失的场景，例如智能家居、可穿戴设备、机器人辅助等。在这些场景中，传感器数据可能由于各种原因而丢失或损坏，KARMMA可以保证系统在这些情况下仍然能够正常工作。此外，KARMMA的轻量级设计使其非常适合在资源受限的设备上部署。

📄 摘要（原文）

Existing methods for egocentric action recognition often rely solely on RGB videos, while additional modalities, e.g., audio, can improve accuracy in challenging scenarios. However, most prior multimodal approaches assume all modalities are available at inference, leading to significant accuracy drops, or even failure, when inputs are missing. To address this, we introduce KARMMA, a multimodal Knowledge distillation approach for egocentric Action Recognition robust to Missing ModAlities that requires no modality alignment across all samples during training or inference. KARMMA distills knowledge from a multimodal teacher into a multimodal student that benefits from all available modalities while remaining robust to missing ones, making it suitable for diverse multimodal scenarios without retraining. Our student uses approximately 50% fewer computational resources than our teacher, resulting in a lightweight and fast model. Experiments on Epic-Kitchens and Something-Something show that our student achieves competitive accuracy while significantly reducing accuracy drops under missing modality conditions.

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理