STAR: Semantic-Temporal Adaptive Representation Learning for Few-Shot Action Recognition

作者: Hongli Liu, Yu Wang, Shengjie Zhao

分类: cs.CV, cs.AI

发布日期: 2026-05-13

备注: Accepted for publication in IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)

DOI: 10.1109/TCSVT.2026.3688705

🔗 代码/项目: GITHUB

💡 一句话要点

提出STAR框架，通过语义时序自适应表示学习解决小样本动作识别中的语义时序错位问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 小样本学习 动作识别 语义对齐 时序建模 Mamba 视觉语言模型 跨模态学习

📋 核心要点

现有小样本动作识别方法难以有效对齐语义信息和时序信息，导致模型泛化能力受限。
STAR框架通过语义对齐和时间感知两个模块，弥合语义和时间差距，提升模型对动作序列的理解。
实验结果表明，STAR在多个小样本动作识别数据集上显著优于现有方法，尤其在少样本情况下提升明显。

📝 摘要（中文）

小样本动作识别(FSAR)要求模型仅从少量标注样本中泛化到新的动作类别。尽管视觉-语言模型取得了一些进展，但现有方法仍然存在语义-时间错位的问题，即静态文本提示无法捕捉在序列中稀疏出现的决定性视觉线索，并且对多尺度时间动态的建模不足，因为短期判别线索和长期依赖关系通常被过度平滑或碎片化。为了解决这些挑战，我们提出了语义时序自适应表示学习(STAR)，一个统一的框架，由语义对齐组件和时间感知组件组成，有效地弥合了语义和时间差距，并将Mamba的序列建模能力转移到FSAR中。语义对齐模块引入了一种时间语义注意力(TSA)机制，该机制执行帧级跨模态对齐与文本提示，确保细粒度的语义-时间一致性。时间感知模块包含一个语义时间原型精炼器(STPR)，它将语义引导的Mamba块与多频率时间采样和双向状态空间细化相结合，产生具有增强的判别保真度和时间一致性的语义对齐原型。此外，从大型语言模型(LLM)导出的时间相关的类描述符提供了长期的语义指导。在五个FSAR基准上的大量实验表明，STAR始终优于最先进的方法。例如，在1-shot设置下，STAR在SSv2-Full和SSv2-Small数据集上分别实现了高达8.1%和6.7%的增益，在HMDB51上实现了7.3%的增益，验证了其在有限监督下的有效性。

🔬 方法详解

问题定义：小样本动作识别任务旨在仅利用少量标注样本识别新的动作类别。现有方法，特别是基于视觉-语言模型的方法，在处理动作序列时，面临语义和时间上的错位问题。静态的文本提示难以捕捉动作序列中关键的视觉线索，而对多尺度时间动态的建模不足，导致短期线索和长期依赖关系被过度平滑或割裂。

核心思路：STAR框架的核心思路是通过语义对齐和时间感知两个模块，显式地建模语义和时间信息，从而解决语义-时间错位问题。语义对齐模块旨在将视觉特征与文本描述对齐，而时间感知模块则关注动作序列中的时间动态，从而提升模型对动作的理解能力。

技术框架：STAR框架包含两个主要模块：语义对齐模块和时间感知模块。语义对齐模块使用时间语义注意力(TSA)机制，对帧级别的视觉特征和文本提示进行跨模态对齐。时间感知模块包含一个语义时间原型精炼器(STPR)，它结合了语义引导的Mamba块、多频率时间采样和双向状态空间细化，以生成具有增强判别性和时间一致性的原型。此外，框架还利用大型语言模型(LLM)生成时间相关的类描述符，提供长期的语义指导。

关键创新：STAR框架的关键创新在于其统一的语义时序自适应表示学习方法。具体来说，TSA机制实现了细粒度的语义-时间一致性，而STPR则有效地建模了多尺度时间动态，并利用Mamba结构提升了序列建模能力。此外，利用LLM生成时间相关的类描述符，为模型提供了更丰富的语义信息。

关键设计：TSA机制使用注意力机制来对齐视觉特征和文本提示，其关键在于如何设计注意力权重，以捕捉帧级别的语义相关性。STPR模块的关键在于如何设计Mamba块，以及如何进行多频率时间采样和双向状态空间细化，以有效地建模时间动态。此外，如何利用LLM生成时间相关的类描述符，并将其融入到模型中，也是一个关键的设计选择。

🖼️ 关键图片

📊 实验亮点

STAR框架在五个小样本动作识别基准数据集上取得了显著的性能提升。例如，在SSv2-Full和SSv2-Small数据集的1-shot设置下，分别取得了8.1%和6.7%的性能增益。在HMDB51数据集上，取得了7.3%的性能增益。这些结果表明，STAR框架在小样本动作识别任务中具有很强的竞争力。

🎯 应用场景

该研究成果可应用于视频监控、人机交互、智能安防等领域。例如，在视频监控中，可以利用该技术识别异常行为；在人机交互中，可以识别用户的手势和动作；在智能安防中，可以识别潜在的威胁行为。该研究的未来影响在于提升机器对人类行为的理解能力，从而实现更智能、更安全的社会。

📄 摘要（原文）

Few-shot action recognition (FSAR) requires models to generalize to novel action categories from only a handful of annotated samples. Despite progress with vision-language models, existing approaches still suffer from semantic-temporal misalignment, where static textual prompts fail to capture decisive visual cues that appear sparsely across sequences, and from inadequate modeling of multi-scale temporal dynamics, as short-term discriminative cues and long-range dependencies are often either oversmoothed or fragmented. To address these challenges, we propose Semantic Temporal Adaptive Representation Learning (STAR), a unified framework, consisting of a semantic-alignment component and a temporal-aware component, effectively bridging the semantic and temporal gaps and transferring the sequence modeling capability of Mamba into the FSAR. The semantic alignment module introduces a Temporal Semantic Attention (TSA) mechanism, which performs frame-level cross-modal alignment with textual cues, ensuring fine-grained semantic-temporal consistency. The temporal-aware module incorporates a Semantic Temporal Prototype Refiner (STPR) that integrates semantic-guided Mamba blocks with multi-frequency temporal sampling and bidirectional state-space refinement, yielding semantically aligned prototypes with enhanced discriminative fidelity and temporal consistency. Furthermore, temporally dependent class descriptors derived from large language models (LLMs) provide long-range semantic guidance. Extensive experiments on five FSAR benchmarks demonstrate the consistent superiority of STAR over state-of-the-art methods. For instance, STAR achieves up to 8.1% and 6.7% gains on the SSv2-Full and SSv2-Small datasets under the 1-shot setting, and 7.3% on HMDB51, validating its effectiveness under limited supervision. The code is available at https://github.com/HongliLiu1/STAR-main.

STAR: Semantic-Temporal Adaptive Representation Learning for Few-Shot Action Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理