CoCoDiff: Diversifying Skeleton Action Features via Coarse-Fine Text-Co-Guided Latent Diffusion

📄 arXiv: 2504.21266v1 📥 PDF

作者: Zhifu Zhao, Hanyang Hua, Jianan Li, Shaoxin Wu, Fu Li, Yangtao Zhou, Yang Li

分类: cs.CV

发布日期: 2025-04-30


💡 一句话要点

CoCoDiff:通过粗细粒度文本协同引导的潜在扩散模型,提升骨骼动作识别特征多样性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 骨骼动作识别 特征多样性 潜在扩散模型 文本引导 大型语言模型

📋 核心要点

  1. 现有动作识别方法依赖数据增强提升特征多样性,但效率低且易引入语义不一致。
  2. CoCoDiff利用潜在扩散模型,结合多粒度文本引导,生成多样且语义一致的动作特征。
  3. CoCoDiff作为即插即用模块,在多个骨骼动作识别数据集上取得了SOTA性能。

📝 摘要(中文)

本文提出了一种新颖的粗细粒度文本协同引导扩散模型(CoCoDiff),旨在解决动作识别任务中特征多样性不足的问题。现有方法通常通过在样本空间中扩展训练数据来促进特征多样性,但效率低下且容易产生语义不一致。CoCoDiff利用扩散模型和多粒度文本引导,在潜在空间中生成多样且语义一致的特征。具体而言,该方法将从骨骼序列中提取的时空特征输入到潜在扩散模型中,以生成多样化的动作表示。同时,引入粗细粒度文本协同引导策略,利用来自大型语言模型(LLM)的文本信息,确保生成的特征与原始输入之间的语义一致性。值得注意的是,CoCoDiff在训练期间作为一个即插即用的辅助模块运行,不会产生额外的推理成本。大量实验表明,CoCoDiff在基于骨骼的动作识别基准测试(包括NTU RGB+D、NTU RGB+D 120和Kinetics-Skeleton)上实现了SOTA性能。

🔬 方法详解

问题定义:现有基于骨骼的动作识别方法,为了提升模型的泛化能力和性能,通常需要增加训练数据的多样性。然而,传统的数据增强方法直接在样本空间进行操作,容易引入噪声和语义不一致性,并且效率较低。因此,如何在保证语义一致性的前提下,高效地生成多样化的动作特征是一个关键问题。

核心思路:CoCoDiff的核心思路是利用潜在扩散模型在潜在空间中生成多样化的动作特征表示。通过将骨骼序列的时空特征映射到潜在空间,并利用扩散模型学习潜在空间的分布,可以生成具有丰富变化但又保持语义一致的特征。此外,引入文本引导机制,利用大型语言模型提供的文本信息,进一步约束生成特征的语义一致性。

技术框架:CoCoDiff的整体框架包括以下几个主要模块:1) 特征提取模块:用于从骨骼序列中提取时空特征;2) 潜在扩散模型:用于在潜在空间中生成多样化的动作特征;3) 粗粒度文本引导模块:利用动作类别标签的文本描述,引导扩散模型的生成过程;4) 细粒度文本引导模块:利用大型语言模型生成的更详细的动作描述,进一步约束生成特征的语义一致性。整个框架在训练阶段作为辅助模块使用,不影响推理阶段的效率。

关键创新:CoCoDiff的关键创新在于:1) 提出了一种基于潜在扩散模型的特征生成方法,可以在潜在空间中高效地生成多样化的动作特征;2) 引入了粗细粒度文本协同引导策略,利用来自大型语言模型的文本信息,确保生成特征的语义一致性。与传统的数据增强方法相比,CoCoDiff能够更有效地提升特征的多样性,同时避免引入语义不一致性。

关键设计:CoCoDiff的关键设计包括:1) 潜在扩散模型的具体结构和训练方式,例如,选择合适的噪声调度策略和损失函数;2) 粗细粒度文本引导模块的具体实现方式,例如,如何将文本信息融入到扩散模型的生成过程中;3) 如何选择和利用大型语言模型,以生成高质量的动作描述;4) 如何平衡特征多样性和语义一致性之间的关系,例如,通过调整文本引导的强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoCoDiff在NTU RGB+D、NTU RGB+D 120和Kinetics-Skeleton等多个骨骼动作识别数据集上取得了SOTA性能。例如,在NTU RGB+D数据集上,CoCoDiff相比于现有最佳方法,准确率提升了显著百分比。这些结果验证了CoCoDiff在提升特征多样性和语义一致性方面的有效性。

🎯 应用场景

CoCoDiff可应用于各种基于骨骼的动作识别场景,例如视频监控、人机交互、康复训练等。通过提升动作识别模型的泛化能力和鲁棒性,可以提高这些应用场景的智能化水平和用户体验。此外,该方法还可以推广到其他需要特征多样性的任务中,例如图像生成、语音合成等。

📄 摘要(原文)

In action recognition tasks, feature diversity is essential for enhancing model generalization and performance. Existing methods typically promote feature diversity by expanding the training data in the sample space, which often leads to inefficiencies and semantic inconsistencies. To overcome these problems, we propose a novel Coarse-fine text co-guidance Diffusion model (CoCoDiff). CoCoDiff generates diverse yet semantically consistent features in the latent space by leveraging diffusion and multi-granularity textual guidance. Specifically, our approach feeds spatio-temporal features extracted from skeleton sequences into a latent diffusion model to generate diverse action representations. Meanwhile, we introduce a coarse-fine text co-guided strategy that leverages textual information from large language models (LLMs) to ensure semantic consistency between the generated features and the original inputs. It is noted that CoCoDiff operates as a plug-and-play auxiliary module during training, incurring no additional inference cost. Extensive experiments demonstrate that CoCoDiff achieves SOTA performance on skeleton-based action recognition benchmarks, including NTU RGB+D, NTU RGB+D 120 and Kinetics-Skeleton.