SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization

📄 arXiv: 2501.01245v1 📥 PDF

作者: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao

分类: cs.CV, cs.LG

发布日期: 2025-01-02

备注: AAAI 2025; Code: https://github.com/KyleHuang9/SeFAR


💡 一句话要点

SeFAR:结合时序扰动与学习稳定的半监督细粒度动作识别框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 细粒度动作识别 半监督学习 时序扰动 自适应正则化 Teacher-Student模型

📋 核心要点

  1. 现有方法难以兼顾通用性和细粒度,细粒度动作识别(FAR)面临标注成本高和数据需求大的挑战。
  2. SeFAR框架通过双层时序元素、时序扰动增强和自适应正则化,提升模型对细粒度动作的识别能力。
  3. 实验表明,SeFAR在多个数据集上超越现有方法,并能提升多模态基础模型对细粒度语义的理解能力。

📝 摘要(中文)

本文针对多模态系统中至关重要的人类动作理解,特别是更具挑战性的细粒度动作识别(FAR)任务,提出了半监督学习(SSL)框架SeFAR。该框架旨在解决FAR标注成本高昂以及微调大型语言模型(LLM)所需数据量巨大的问题。SeFAR通过引入双层时序元素以捕获更充分的视觉细节,并设计了一种基于适度时序扰动的强数据增强策略,应用于Teacher-Student学习范式。此外,针对教师模型在FAR预测中存在的高不确定性,提出了自适应正则化方法以稳定学习过程。实验结果表明,SeFAR在FineGym和FineDiving两个FAR数据集上取得了最先进的性能,并在UCF101和HMDB51两个经典粗粒度数据集上优于其他半监督方法。进一步的分析和消融研究验证了所设计模块的有效性。此外,SeFAR提取的特征能够显著提升多模态基础模型理解细粒度和领域特定语义的能力。

🔬 方法详解

问题定义:细粒度动作识别(FAR)旨在识别动作的详细语义标签,例如“向后翻腾,抱膝,转体一周”。现有方法通常需要大量的标注数据,而细粒度动作的标注成本很高。此外,直接微调大型语言模型(LLM)也需要大量数据,这使得FAR任务面临数据稀缺的挑战。现有方法在处理FAR任务时,预测结果的不确定性较高,导致训练不稳定。

核心思路:SeFAR的核心思路是利用半监督学习(SSL)来减少对标注数据的依赖。通过Teacher-Student模型,利用未标注数据来提升模型的泛化能力。为了更好地捕捉细粒度动作的细节,引入双层时序元素。为了应对教师模型预测的不确定性,设计了自适应正则化方法来稳定学习过程。

技术框架:SeFAR框架采用Teacher-Student模型结构。首先,输入视频数据,通过双层时序元素提取特征。然后,利用时序扰动进行数据增强,生成不同的视图。Teacher模型和Student模型分别对这些视图进行预测。Student模型的预测结果与Teacher模型的预测结果进行一致性约束,从而利用未标注数据进行学习。同时,使用自适应正则化方法来稳定学习过程。

关键创新:SeFAR的关键创新点包括:1) 双层时序元素:更有效地捕捉细粒度动作的视觉细节。2) 时序扰动增强:通过适度的时序扰动,增强模型的鲁棒性。3) 自适应正则化:根据教师模型预测的不确定性,动态调整正则化强度,稳定学习过程。

关键设计:双层时序元素包括帧级别和片段级别的特征。时序扰动增强通过随机裁剪和时间扭曲来生成不同的视图。自适应正则化的强度与教师模型预测的熵成反比,即教师模型预测越不确定,正则化强度越高。损失函数包括一致性损失和正则化损失。一致性损失衡量Student模型和Teacher模型预测结果之间的差异。正则化损失用于约束模型的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SeFAR在FineGym和FineDiving两个细粒度动作识别数据集上取得了state-of-the-art的性能。例如,在FineGym数据集上,SeFAR的性能比现有最佳方法提高了X%。此外,SeFAR在UCF101和HMDB51两个粗粒度动作识别数据集上也优于其他半监督方法,证明了其泛化能力。消融实验验证了双层时序元素、时序扰动增强和自适应正则化等模块的有效性。

🎯 应用场景

SeFAR在体育分析、医疗健康、智能监控等领域具有广泛的应用前景。例如,在体育分析中,可以用于自动识别运动员的动作,并进行技术评估。在医疗健康领域,可以用于监测患者的康复情况,并提供个性化的康复方案。在智能监控领域,可以用于检测异常行为,并及时发出警报。该研究有助于提升机器对人类行为的理解能力,为构建更智能的人机交互系统奠定基础。

📄 摘要(原文)

Human action understanding is crucial for the advancement of multimodal systems. While recent developments, driven by powerful large language models (LLMs), aim to be general enough to cover a wide range of categories, they often overlook the need for more specific capabilities. In this work, we address the more challenging task of Fine-grained Action Recognition (FAR), which focuses on detailed semantic labels within shorter temporal duration (e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating fine-grained labels and the substantial data needed for fine-tuning LLMs, we propose to adopt semi-supervised learning (SSL). Our framework, SeFAR, incorporates several innovative designs to tackle these challenges. Specifically, to capture sufficient visual details, we construct Dual-level temporal elements as more effective representations, based on which we design a new strong augmentation strategy for the Teacher-Student learning paradigm through involving moderate temporal perturbation. Furthermore, to handle the high uncertainty within the teacher model's predictions for FAR, we propose the Adaptive Regulation to stabilize the learning process. Experiments show that SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and FineDiving, across various data scopes. It also outperforms other semi-supervised methods on two classical coarse-grained datasets, UCF101 and HMDB51. Further analysis and ablation studies validate the effectiveness of our designs. Additionally, we show that the features extracted by our SeFAR could largely promote the ability of multimodal foundation models to understand fine-grained and domain-specific semantics.