Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition
作者: Yang Chen, Miaoge Li, Zhijie Rao, Deze Zeng, Song Guo, Jingcai Guo
分类: cs.CV
发布日期: 2025-11-12
备注: Code is available at https://github.com/cseeyangchen/Flora
🔗 代码/项目: GITHUB
💡 一句话要点
提出Flora,通过邻域感知语义和开放式流解决鲁棒的零样本骨骼动作识别问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 零样本学习 骨骼动作识别 跨模态对齐 语义表示 流匹配 对比学习 邻域感知
📋 核心要点
- 现有零样本骨骼动作识别方法依赖脆弱的点对点对齐和受限的分类器,导致识别精度不高。
- Flora通过引入邻域感知语义调整和开放式分布感知流分类器,实现更鲁棒的跨模态对齐和更精细的决策边界。
- 在三个基准数据集上进行了验证,即使仅使用10%的已见数据训练,也表现出显著的性能提升。
📝 摘要(中文)
由于缺乏相应的骨骼先验知识,识别未见过的骨骼动作类别仍然极具挑战性。现有方法通常遵循“对齐-然后-分类”的范式,但面临两个根本问题,即(i)由不完善的语义引起的脆弱的点对点对齐,以及(ii)受静态决策边界和粗粒度锚点限制的刚性分类器。为了解决这些问题,我们提出了一种新的零样本骨骼动作识别方法,称为Flora,它建立在灵活的邻域感知语义调整和开放式分布感知流分类器的基础上。具体来说,我们通过结合相邻的类间上下文线索来灵活地调整文本语义,以形成方向感知的区域语义,并结合跨模态几何一致性目标,以确保稳定和鲁棒的点对区域对齐。此外,我们采用无噪声流匹配来弥合语义和骨骼潜在嵌入之间的模态分布差距,而无条件对比正则化增强了可区分性,从而通过token级别的速度预测实现了具有细粒度决策边界的分布感知分类器。在三个基准数据集上的大量实验验证了我们方法的有效性,即使仅使用10%的已见数据进行训练,也显示出特别令人印象深刻的性能。代码可在https://github.com/cseeyangchen/Flora获得。
🔬 方法详解
问题定义:论文旨在解决零样本骨骼动作识别问题,即识别训练集中未出现的动作类别。现有方法主要采用“对齐-然后-分类”的范式,但存在两个主要痛点:一是语义信息不完善导致点对点对齐脆弱;二是分类器受限于静态决策边界和粗粒度锚点,泛化能力不足。
核心思路:Flora的核心思路是构建更鲁棒的跨模态对齐和更精细的决策边界。通过引入邻域感知语义调整,利用类间上下文信息增强语义表示,从而实现更稳定的点对区域对齐。同时,采用开放式分布感知流分类器,利用流匹配弥合模态分布差距,并通过对比正则化增强可区分性,最终实现细粒度的决策边界。
技术框架:Flora主要包含两个核心模块:灵活的邻域感知语义调整模块和开放式分布感知流分类器模块。首先,通过邻域感知语义调整模块,将文本语义嵌入到方向感知的区域语义中,并利用跨模态几何一致性目标进行约束。然后,通过开放式分布感知流分类器模块,利用噪声自由流匹配弥合语义和骨骼潜在嵌入之间的模态分布差距,并通过无条件对比正则化增强可区分性。最后,通过token级别的速度预测实现细粒度的决策边界。
关键创新:Flora的关键创新在于:1) 引入邻域感知语义调整,利用类间上下文信息增强语义表示,实现更鲁棒的跨模态对齐;2) 采用开放式分布感知流分类器,利用流匹配和对比正则化,实现更精细的决策边界。与现有方法相比,Flora不再依赖于脆弱的点对点对齐和静态的决策边界,而是通过更灵活的语义表示和更精细的分类器,提高了零样本骨骼动作识别的性能。
关键设计:在邻域感知语义调整模块中,关键在于如何选择合适的邻域和如何融合邻域信息。论文采用了一种方向感知的区域语义表示方法,并利用跨模态几何一致性目标进行约束。在开放式分布感知流分类器模块中,关键在于如何利用流匹配弥合模态分布差距和如何利用对比正则化增强可区分性。论文采用了一种噪声自由流匹配方法和一种无条件对比正则化方法。
📊 实验亮点
Flora在三个基准数据集上进行了广泛的实验验证,结果表明其性能显著优于现有方法。特别是在仅使用10%的已见数据进行训练的情况下,Flora仍然能够取得令人印象深刻的性能,证明了其在数据稀缺场景下的鲁棒性。
🎯 应用场景
该研究成果可应用于智能监控、人机交互、康复训练等领域。例如,在智能监控中,可以识别异常行为;在人机交互中,可以实现更自然的人机交互方式;在康复训练中,可以辅助评估患者的康复情况。该研究的未来影响在于推动零样本学习在动作识别领域的应用,降低对标注数据的依赖,提高模型的泛化能力。
📄 摘要(原文)
Recognizing unseen skeleton action categories remains highly challenging due to the absence of corresponding skeletal priors. Existing approaches generally follow an "align-then-classify" paradigm but face two fundamental issues, i.e., (i) fragile point-to-point alignment arising from imperfect semantics, and (ii) rigid classifiers restricted by static decision boundaries and coarse-grained anchors. To address these issues, we propose a novel method for zero-shot skeleton action recognition, termed $\texttt{$\textbf{Flora}$}$, which builds upon $\textbf{F}$lexib$\textbf{L}$e neighb$\textbf{O}$r-aware semantic attunement and open-form dist$\textbf{R}$ibution-aware flow cl$\textbf{A}$ssifier. Specifically, we flexibly attune textual semantics by incorporating neighboring inter-class contextual cues to form direction-aware regional semantics, coupled with a cross-modal geometric consistency objective that ensures stable and robust point-to-region alignment. Furthermore, we employ noise-free flow matching to bridge the modality distribution gap between semantic and skeleton latent embeddings, while a condition-free contrastive regularization enhances discriminability, leading to a distribution-aware classifier with fine-grained decision boundaries achieved through token-level velocity predictions. Extensive experiments on three benchmark datasets validate the effectiveness of our method, showing particularly impressive performance even when trained with only 10\% of the seen data. Code is available at https://github.com/cseeyangchen/Flora.