Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition

📄 arXiv: 2405.19917v3 📥 PDF

作者: Masashi Hatano, Ryo Hachiuma, Ryo Fujii, Hideo Saito

分类: cs.CV

发布日期: 2024-05-30 (更新: 2024-07-16)

备注: Accepted at ECCV'24

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出MM-CDFSL,通过多模态蒸馏和掩码推理解决自中心动作识别中的跨域少样本学习问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自中心动作识别 跨域少样本学习 多模态学习 知识蒸馏 掩码推理 领域自适应 计算效率

📋 核心要点

  1. 自中心动作识别在跨域少样本学习中面临着严重的域差距和高计算成本的挑战。
  2. MM-CDFSL利用多模态蒸馏,将不同模态的知识迁移到RGB模型,增强模型对目标域的适应性。
  3. 通过集成掩码推理减少输入令牌数量,降低计算成本,并在多个数据集上取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种新颖的跨域少样本学习(CD-FSL)任务,用于自中心动作识别,该任务具有多模态输入和无标签目标数据。本文同时解决了CD-FSL设置中自中心视频动作识别相关的两个关键挑战:(1)自中心视频中的极端域差距(例如,日常生活与工业领域);(2)实际应用中的计算成本。我们提出了MM-CDFSL,一种领域自适应且计算高效的方法,旨在增强对目标领域的适应性并降低推理成本。为了应对第一个挑战,我们提出使用教师模型将多模态蒸馏融入到学生RGB模型中。每个教师模型都在源数据和目标数据上独立训练,用于其各自的模态。仅利用无标签目标数据进行多模态蒸馏,增强了学生模型对目标领域的适应性。我们进一步引入了集成掩码推理,这是一种通过掩码减少输入令牌数量的技术。在这种方法中,集成预测减轻了由掩码引起的性能下降,有效地解决了第二个问题。我们的方法在多个自中心数据集上优于最先进的CD-FSL方法,在1-shot/5-shot设置下平均提高了6.12/6.10个百分点,同时实现了2.2倍的推理速度提升。

🔬 方法详解

问题定义:论文旨在解决自中心动作识别中的跨域少样本学习问题。现有方法在处理不同领域(如日常生活和工业环境)的自中心视频时,由于数据分布差异巨大,模型泛化能力不足。此外,现有方法通常计算成本较高,难以满足实际应用的需求。

核心思路:论文的核心思路是利用多模态信息和知识蒸馏来弥合源域和目标域之间的差距,并采用掩码推理来降低计算复杂度。通过将不同模态(如RGB、深度、光流等)的信息融合到RGB模型中,可以提高模型对目标域的适应性。掩码推理则通过减少输入令牌的数量来加速推理过程。

技术框架:MM-CDFSL方法包含以下主要模块:1) 多模态教师模型训练:分别在源域和目标域上训练不同模态的教师模型。2) 多模态知识蒸馏:利用无标签目标数据,将教师模型的知识蒸馏到学生RGB模型中。3) 集成掩码推理:通过掩码减少输入令牌数量,并使用集成预测来减轻性能下降。整体流程是先通过多模态蒸馏增强学生模型,再通过掩码推理加速推理。

关键创新:论文的关键创新在于将多模态蒸馏和集成掩码推理相结合,用于解决自中心动作识别中的跨域少样本学习问题。与现有方法相比,MM-CDFSL能够更有效地利用多模态信息来弥合域差距,并显著降低计算成本。

关键设计:在多模态蒸馏中,论文使用KL散度作为蒸馏损失函数,以衡量教师模型和学生模型之间的预测分布差异。在集成掩码推理中,论文采用随机掩码策略,并使用多个掩码模式进行集成预测,以提高鲁棒性。具体的掩码比例和集成数量需要根据实际数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MM-CDFSL在多个自中心动作识别数据集上取得了显著的性能提升,在1-shot和5-shot设置下,平均提高了6.12和6.10个百分点,同时实现了2.2倍的推理速度提升。实验结果表明,该方法能够有效地解决跨域少样本学习问题,并在计算效率方面具有优势。

🎯 应用场景

该研究成果可应用于智能监控、工业安全、人机交互等领域。例如,在工业环境中,可以利用该方法识别工人的不安全行为,从而提高生产安全。在智能家居中,可以识别用户的日常活动,提供个性化服务。该研究有助于推动自中心视觉技术在实际场景中的应用。

📄 摘要(原文)

We address a novel cross-domain few-shot learning task (CD-FSL) with multimodal input and unlabeled target data for egocentric action recognition. This paper simultaneously tackles two critical challenges associated with egocentric action recognition in CD-FSL settings: (1) the extreme domain gap in egocentric videos (e.g., daily life vs. industrial domain) and (2) the computational cost for real-world applications. We propose MM-CDFSL, a domain-adaptive and computationally efficient approach designed to enhance adaptability to the target domain and improve inference cost. To address the first challenge, we propose the incorporation of multimodal distillation into the student RGB model using teacher models. Each teacher model is trained independently on source and target data for its respective modality. Leveraging only unlabeled target data during multimodal distillation enhances the student model's adaptability to the target domain. We further introduce ensemble masked inference, a technique that reduces the number of input tokens through masking. In this approach, ensemble prediction mitigates the performance degradation caused by masking, effectively addressing the second issue. Our approach outperformed the state-of-the-art CD-FSL approaches with a substantial margin on multiple egocentric datasets, improving by an average of 6.12/6.10 points for 1-shot/5-shot settings while achieving $2.2$ times faster inference speed. Project page: https://masashi-hatano.github.io/MM-CDFSL/