Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning

📄 arXiv: 2405.20606v2 📥 PDF

作者: Yang Chen, Tian He, Junfeng Fu, Ling Wang, Jingcai Guo, Ting Hu, Hong Cheng

分类: cs.CV, cs.AI, cs.LG, cs.MM

发布日期: 2024-05-31 (更新: 2024-09-15)

备注: Accepted by IEEE Transactions on Multimedia

🔗 代码/项目: GITHUB


💡 一句话要点

提出C²VL框架,利用视觉-语言知识蒸馏提升骨骼动作表征学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 骨骼动作识别 视觉-语言模型 跨模态学习 知识蒸馏 对比学习 人体行为分析 自监督学习

📋 核心要点

  1. 现有基于骨骼的动作识别方法依赖大量标注或易破坏骨骼结构的预训练任务。
  2. C²VL框架利用视觉-语言知识提示,通过跨模态对比学习和知识蒸馏,学习更鲁棒的骨骼动作表征。
  3. 在多个数据集上实验表明,该方法超越现有技术,并在动作识别任务上取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种新颖的基于骨骼的训练框架(C²VL),该框架基于跨模态对比学习,利用渐进式知识蒸馏,从视觉-语言知识提示中学习与任务无关的人体骨骼动作表征。具体来说,我们通过预训练的大型多模态模型(LMM)生成的视觉-语言知识提示,建立视觉-语言动作概念空间,从而丰富骨骼动作空间所缺乏的细粒度细节。此外,我们在跨模态表征学习过程中提出了模内自相似性和模间交叉一致性的软化目标,以逐步控制和引导视觉-语言知识提示和相应骨骼之间的拉近程度。这些软实例判别和自我知识蒸馏策略有助于从嘈杂的骨骼-视觉-语言对中学习更好的基于骨骼的动作表征。在推理阶段,我们的方法只需要骨骼数据作为动作识别的输入,而不再需要视觉-语言提示。在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD数据集上的大量实验表明,我们的方法优于以前的方法,并取得了最先进的结果。

🔬 方法详解

问题定义:现有的基于骨骼的动作表征学习方法主要分为监督学习和自监督学习。监督学习依赖于大量人工标注的动作类别,成本高昂。自监督学习通常涉及骨骼变换(如裁剪),这可能会损害骨骼结构,影响表征学习的质量。因此,如何有效地利用无标注数据,同时避免破坏骨骼结构,是当前骨骼动作表征学习面临的关键问题。

核心思路:本文的核心思路是利用预训练的大型多模态模型(LMMs)提供的视觉-语言知识提示,来指导骨骼动作表征的学习。通过将骨骼数据与对应的视觉-语言描述对齐,可以有效地利用视觉-语言模态的丰富信息,弥补骨骼数据本身的不足。同时,采用渐进式知识蒸馏的方式,逐步将视觉-语言知识迁移到骨骼表征中,避免了直接使用视觉-语言特征可能引入的噪声。

技术框架:C²VL框架主要包含以下几个模块:1) 视觉-语言知识提示生成模块:利用预训练的LMMs,根据骨骼序列生成相应的视觉-语言描述,作为知识提示。2) 跨模态对比学习模块:通过对比学习,将骨骼表征与对应的视觉-语言知识提示在嵌入空间中拉近。3) 渐进式知识蒸馏模块:通过模内自相似性和模间交叉一致性的软化目标,逐步控制和引导知识迁移的程度。在推理阶段,只需要骨骼数据作为输入。

关键创新:该方法最重要的创新点在于利用视觉-语言知识提示来指导骨骼动作表征的学习。与传统的自监督学习方法相比,该方法不需要进行骨骼变换,避免了对骨骼结构的破坏。与直接使用视觉-语言特征的方法相比,该方法通过渐进式知识蒸馏,可以有效地过滤噪声,提高表征的鲁棒性。

关键设计:在跨模态对比学习中,使用了InfoNCE损失函数来最大化骨骼表征与对应视觉-语言知识提示之间的互信息。为了实现渐进式知识蒸馏,设计了模内自相似性和模间交叉一致性的软化目标。模内自相似性鼓励骨骼表征在不同视角下保持一致性,模间交叉一致性鼓励骨骼表征与视觉-语言知识提示保持一致性。这些软化目标通过可调节的权重参数来控制知识迁移的程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD数据集上的实验结果表明,C²VL框架显著优于现有的基于骨骼的动作识别方法,取得了state-of-the-art的性能。例如,在NTU RGB+D 60数据集上,C²VL框架的准确率比现有最佳方法提高了约2%。

🎯 应用场景

该研究成果可广泛应用于人体行为分析、智能监控、人机交互、虚拟现实等领域。例如,在智能监控中,可以利用该方法识别异常行为;在人机交互中,可以利用该方法理解用户的动作意图;在虚拟现实中,可以利用该方法生成更逼真的人体动作。

📄 摘要(原文)

Skeleton-based action representation learning aims to interpret and understand human behaviors by encoding the skeleton sequences, which can be categorized into two primary training paradigms: supervised learning and self-supervised learning. However, the former one-hot classification requires labor-intensive predefined action categories annotations, while the latter involves skeleton transformations (e.g., cropping) in the pretext tasks that may impair the skeleton structure. To address these challenges, we introduce a novel skeleton-based training framework (C$^2$VL) based on Cross-modal Contrastive learning that uses the progressive distillation to learn task-agnostic human skeleton action representation from the Vision-Language knowledge prompts. Specifically, we establish the vision-language action concept space through vision-language knowledge prompts generated by pre-trained large multimodal models (LMMs), which enrich the fine-grained details that the skeleton action space lacks. Moreover, we propose the intra-modal self-similarity and inter-modal cross-consistency softened targets in the cross-modal representation learning process to progressively control and guide the degree of pulling vision-language knowledge prompts and corresponding skeletons closer. These soft instance discrimination and self-knowledge distillation strategies contribute to the learning of better skeleton-based action representations from the noisy skeleton-vision-language pairs. During the inference phase, our method requires only the skeleton data as the input for action recognition and no longer for vision-language prompts. Extensive experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD datasets demonstrate that our method outperforms the previous methods and achieves state-of-the-art results. Code is available at: https://github.com/cseeyangchen/C2VL.