PoseBridge: Bridging the Skeletonization Gap for Zero-Shot Skeleton-Based Action Recognition

📄 arXiv: 2605.11497v1 📥 PDF

作者: Sanghyeon Lee, Jinwoo Kim, Jong Taek Lee

分类: cs.CV

发布日期: 2026-05-12


💡 一句话要点

提出PoseBridge以解决零样本骨架动作识别中的语义损失问题

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 零样本学习 骨架动作识别 人类姿态估计 语义理解 深度学习

📋 核心要点

  1. 现有的零样本骨架动作识别方法在处理人-物体交互和姿态相关线索时存在语义损失,导致识别性能下降。
  2. PoseBridge通过提取姿态锚定的语义线索并进行骨架条件桥接,解决了传统方法中对齐时机不当的问题。
  3. 在NTU-RGB+D 60/120、PKU-MMD和Kinetics-200/400等数据集上,PoseBridge的性能提升显著,尤其在Kinetics-200/400 PURLS基准上表现突出。

📝 摘要(中文)

零样本骨架动作识别(ZSSAR)通常被视为骨架与文本对齐的问题:对关节坐标序列进行编码,将其与语言对齐,并分类未见过的动作。我们认为这种对齐往往为时已晚。骨架并不是完整的动作观察,而是人类姿态估计(HPE)的压缩输出;在对齐开始时,人-物体交互和姿态相关的视觉线索可能不再明显。为了解决这一问题,我们提出了PoseBridge,一个HPE感知的ZSSAR框架,通过中间HPE表示与骨架-文本对齐进行桥接。PoseBridge从生成骨架的同一HPE过程中提取姿态锚定的语义线索,通过骨架条件桥接和语义原型适应进行转移。在多个数据集上,PoseBridge显著提高了ZSSAR的性能。

🔬 方法详解

问题定义:论文要解决的具体问题是零样本骨架动作识别中的语义损失,现有方法在对齐阶段未能充分利用人类姿态估计的中间表示,导致动作识别性能下降。

核心思路:PoseBridge的核心思路是通过提取姿态锚定的语义线索,提前进行信息整合,而不是在后期进行简单的骨架与文本对齐,从而减少语义损失。

技术框架:PoseBridge的整体架构包括三个主要模块:首先是从HPE过程中提取姿态锚定的语义线索;其次是通过骨架条件桥接将这些线索与骨架进行结合;最后是进行语义原型适应以增强对未见动作的识别能力。

关键创新:PoseBridge的最重要技术创新在于其HPE感知的框架设计,能够在骨架生成的同时提取和利用语义信息,与传统方法相比,显著提高了识别的准确性和鲁棒性。

关键设计:在关键设计上,PoseBridge采用了特定的损失函数来优化骨架与语义线索之间的对齐,同时使用了适应性网络结构以提高对不同动作的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Kinetics-200/400 PURLS基准上,PoseBridge的表现尤为突出,相较于最强基线提升了13.3-17.4个百分点,展示了其在复杂场景下的有效性和优势。

🎯 应用场景

该研究在零样本动作识别领域具有广泛的应用潜力,特别是在需要处理多样化场景和复杂人-物体交互的实际应用中,如智能监控、虚拟现实和人机交互等。未来,PoseBridge的框架可以进一步扩展到其他领域,例如机器人动作理解和自动视频分析。

📄 摘要(原文)

Zero-shot skeleton-based action recognition (ZSSAR) is typically treated as a skeleton-text alignment problem: encode joint-coordinate sequences, align them with language, and classify unseen actions. We argue that this alignment is often too late. Skeletons are not complete action observations, but compressed outputs of human pose estimation (HPE); by the time alignment begins, human-object interactions and pose-relative visual cues may no longer be explicit. We call this upstream semantic loss. To address it, we propose PoseBridge, an HPE-aware ZSSAR framework that bridges intermediate HPE representations to skeleton-text alignment. Rather than adding an RGB action branch or object detector, PoseBridge extracts pose-anchored semantic cues from the same HPE process that produces skeletons, then transfers them through skeleton-conditioned bridging and semantic prototype adaptation. Across NTU-RGB+D 60/120, PKU-MMD, and Kinetics-200/400, PoseBridge improves ZSSAR performance under the evaluated protocols. On the Kinetics-200/400 PURLS benchmark, which contains in-the-wild videos with diverse scenes and action contexts, PoseBridge shows the clearest separation, improving the strongest compared baseline by 13.3-17.4 points across all eight splits. Our code will be publicly released.