TAG-Head: Time-Aligned Graph Head for Plug-and-Play Fine-grained Action Recognition
作者: Imtiaz Ul Hassan, Nik Bessis, Ardhendu Behera
分类: cs.CV
发布日期: 2026-04-13
备注: 15 pages, 3 figures, to appear in ICPR 2026
💡 一句话要点
提出TAG-Head,一个即插即用的时序对齐图头部,用于提升细粒度动作识别性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 细粒度动作识别 时空图神经网络 Transformer RGB视频 时序对齐 轻量级模型
📋 核心要点
- 细粒度动作识别面临挑战,现有方法依赖多模态信息,增加了标注和计算成本。
- TAG-Head通过Transformer编码器和时序对齐图结构,有效提取时空特征,提升识别精度。
- 实验表明,TAG-Head在多个数据集上超越了现有RGB方法,甚至优于部分多模态方法。
📝 摘要(中文)
细粒度人类动作识别(FHAR)极具挑战性,因为视觉上相似的动作仅在细微的时空线索上存在差异。许多最新的系统通过额外的模态(例如,姿势、文本、光流)来增强可区分性,但这增加了标注负担和计算成本。我们引入了TAG-Head,一个轻量级的时空图头部,它使用RGB信息来升级标准3D骨干网络(SlowFast、R(2+1)D-34、I3D等),用于FHAR。我们的流程首先将具有可学习3D位置编码的Transformer编码器应用于骨干网络tokens,从而捕获跨越空间和时间的长程依赖关系。然后,通过一个图来细化得到的特征,该图包含:(i)完全连接的帧内边,以解决帧内的细微外观差异;(ii)时间对齐的时序边,将跨帧相同空间位置的特征连接起来,以稳定运动线索,而不会过度平滑。该头部结构紧凑(参数/FLOP开销小),可跨骨干网络即插即用,并与骨干网络进行端到端训练。在FineGym(Gym99和Gym288)和HAA500上的大量评估表明,TAG-Head在仅使用RGB的模型中设置了新的最先进水平,并且超过了许多依赖特权信息(视频+姿势+文本)的最新多模态方法。消融实验分解了Transformer和图拓扑的贡献,复杂度分析证实了低延迟。TAG-Head通过在纤薄的可组合图头部中显式地将全局上下文与高分辨率空间交互和低方差时间连续性相结合,从而推进了FHAR。该设计的简单性使得在偏爱仅使用RGB传感器的实际系统中能够直接采用,同时提供通常与更重或多模态模型相关的性能提升。代码将在GitHub上发布。
🔬 方法详解
问题定义:细粒度动作识别旨在区分视觉上相似但具有细微时空差异的动作。现有方法通常依赖于额外的模态信息(如姿态、文本、光流),这增加了标注成本和计算复杂度,限制了其在实际应用中的部署。
核心思路:论文的核心思路是设计一个轻量级的、即插即用的图头部(TAG-Head),它能够有效地提取RGB视频中的时空特征,从而提升细粒度动作识别的性能。该方法通过Transformer编码器捕获全局上下文信息,并通过时序对齐图结构来建模帧内和帧间关系,从而实现对细微动作差异的有效区分。
技术框架:TAG-Head的整体架构包含以下几个主要模块:首先,使用标准的3D骨干网络(如SlowFast、R(2+1)D-34、I3D)提取视频帧的特征。然后,将这些特征输入到具有可学习3D位置编码的Transformer编码器中,以捕获长程时空依赖关系。接下来,将Transformer的输出输入到图结构中,该图包含帧内全连接边和时序对齐的帧间边。最后,使用图神经网络对特征进行细化,并输出动作类别的预测结果。整个流程可以端到端地进行训练。
关键创新:TAG-Head的关键创新在于其时序对齐的图结构。传统的图神经网络通常忽略了时间信息,或者简单地将所有帧连接在一起,这可能导致过度平滑和信息丢失。TAG-Head通过将相同空间位置的特征在时间维度上对齐,从而有效地建模了动作的运动轨迹,并减少了噪声的干扰。此外,TAG-Head的轻量级设计使其可以方便地集成到各种现有的3D骨干网络中。
关键设计:在Transformer编码器中,使用了可学习的3D位置编码,以区分不同空间和时间位置的特征。在图结构中,帧内边采用全连接的方式,以捕获帧内的细微外观差异。时序对齐的帧间边将相邻帧中相同空间位置的特征连接起来,以稳定运动线索。损失函数采用标准的交叉熵损失函数,用于优化动作分类的性能。
🖼️ 关键图片
📊 实验亮点
TAG-Head在FineGym(Gym99和Gym288)和HAA500数据集上取得了显著的性能提升,在仅使用RGB的模型中达到了新的state-of-the-art。例如,在FineGym数据集上,TAG-Head超越了许多依赖于姿态、文本等额外模态的方法。消融实验表明,Transformer编码器和时序对齐图结构都对性能提升做出了贡献。
🎯 应用场景
TAG-Head在细粒度动作识别领域具有广泛的应用前景,例如体育动作分析、医疗康复评估、视频监控等。该方法仅依赖RGB信息,降低了对额外传感器的需求,使其更易于部署在实际场景中。未来,可以进一步探索TAG-Head在其他视频理解任务中的应用,例如视频描述生成、视频问答等。
📄 摘要(原文)
Fine-grained human action recognition (FHAR) is challenging because visually similar actions differ by subtle spatio-temporal cues. Many recent systems enhance discriminability with extra modalities (e.g., pose, text, optical flow), but this increases annotation burden and computational cost. We introduce TAG-Head, a lightweight spatio-temporal graph head that upgrades standard 3D backbones (SlowFast, R(2+1)D-34, I3D, etc.) for FHAR using RGB only. Our pipeline first applies a Transformer encoder with learnable 3D positional encodings to the backbone tokens, capturing long-range dependencies across space and time. The resulting features are then refined by a graph in which (i) fully-connected intra-frame edges to resolve subtle appearance differences within frames, and (ii) time-aligned temporal edges that connect features at the same spatial location across frames to stabilise motion cues without over-smoothing. The head is compact (little parameter/FLOP overhead), plug-and-play across backbones, and trained end-to-end with the backbone. Extensive evaluations on FineGym (Gym99 and Gym288) and HAA500 show that TAG-Head sets a new state-of-the-art among RGB-only models and surpasses many recent multimodal approaches (video + pose + text) that rely on privileged information. Ablations disentangle the contributions of the Transformer and the graph topology, and complexity analyses confirm low latency. TAG-Head advances FHAR by explicitly coupling global context with high-resolution spatial interactions and low-variance temporal continuity inside a slim, composable graph head. The simplicity of the design enables straightforward adoption in practical systems that favour RGB-only sensors, while delivering performance gains typically associated with heavier or multimodal models. Code will be released on GitHub.