Knowledge is Power: Advancing Few-shot Action Recognition with Multimodal Semantics from MLLMs

📄 arXiv: 2603.26033v1 📥 PDF

作者: Jiazheng Xing, Chao Xu, Hangjie Yuan, Mengmeng Wang, Jun Dan, Hangwei Qian, Yong Liu

分类: cs.CV

发布日期: 2026-03-27


💡 一句话要点

提出FSAR-LLaVA,利用MLLM多模态语义知识增强少样本动作识别

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 少样本学习 动作识别 多模态学习 大型语言模型 视频理解

📋 核心要点

  1. 现有少样本动作识别方法主要依赖生成字幕,形成次优的特征->字幕->特征流程,且度量学习仅在视觉空间进行。
  2. FSAR-LLaVA利用MLLM作为知识库,通过多模态特征增强模块提取并解耦视觉和文本特征,弥合元训练和元测试集的分布差距。
  3. 该方法设计了复合任务导向的原型构建和无需训练的多模态原型匹配度量,在多种任务上取得了优越的性能。

📝 摘要(中文)

本文提出FSAR-LLaVA,一种端到端的方法,利用多模态大型语言模型(MLLM,如Video-LLaVA)作为多模态知识库,直接增强少样本动作识别(FSAR)。该方法首先利用MLLM的多模态解码器提取时空和语义丰富的特征表示,并通过多模态特征增强模块将其解耦并增强为不同的视觉和文本特征,充分利用语义知识。其次,利用MLLM的通用性,设计灵活适应不同场景的输入提示,并使用其对齐的输出来驱动复合任务导向的原型构建,有效弥合元训练和元测试集之间的分布差距。最后,为了使多模态特征能够联合指导度量学习,引入了一种无需训练的多模态原型匹配度量,自适应地选择最具决定性的线索,并有效地利用MLLM产生的解耦特征表示。大量实验表明,该方法在各种任务中表现出卓越的性能,且仅需最少的训练参数。

🔬 方法详解

问题定义:现有少样本动作识别方法存在局限性,主要体现在两个方面:一是依赖于生成字幕的方式,将视频特征转换为文本描述,再从文本描述中提取特征,这种特征->字幕->特征的流程并非最优;二是度量学习通常只在视觉空间进行,忽略了文本模态的信息。这些方法无法充分利用多模态信息,限制了少样本动作识别的性能。

核心思路:FSAR-LLaVA的核心思路是直接利用多模态大型语言模型(MLLM)作为知识库,提取视频的时空和语义信息,并将这些信息解耦为视觉和文本特征,从而更有效地进行少样本动作识别。通过设计特定的模块和度量方式,充分利用MLLM的强大能力,弥合元训练和元测试集之间的分布差距。

技术框架:FSAR-LLaVA的整体框架包含以下几个主要模块:1) 多模态特征提取:利用MLLM的多模态解码器提取时空和语义丰富的特征表示。2) 多模态特征增强模块:将提取的特征解耦并增强为不同的视觉和文本特征。3) 复合任务导向的原型构建:利用MLLM的通用性,设计输入提示,并使用其输出来构建原型,以弥合分布差距。4) 多模态原型匹配度量:引入无需训练的度量方式,自适应地选择最具决定性的线索,并利用解耦的特征表示。

关键创新:该论文的关键创新在于:1) 端到端的多模态融合:首次提出端到端的方法,直接利用MLLM作为知识库增强少样本动作识别,避免了次优的特征->字幕->特征流程。2) 多模态特征解耦与增强:设计了多模态特征增强模块,将MLLM提取的特征解耦为视觉和文本特征,并分别进行增强。3) 复合任务导向的原型构建:利用MLLM的通用性,设计输入提示,并使用其输出来构建原型,有效弥合了元训练和元测试集之间的分布差距。4) 无需训练的多模态原型匹配度量:引入了一种无需训练的度量方式,自适应地选择最具决定性的线索,并利用解耦的特征表示。

关键设计:在输入提示设计方面,论文充分利用了MLLM的通用性,设计了能够灵活适应不同场景的输入提示。在多模态原型匹配度量方面,该方法采用了一种无需训练的方式,避免了额外的参数训练,并能够自适应地选择最具决定性的线索。具体的网络结构和损失函数等细节未在摘要中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FSAR-LLaVA在各种少样本动作识别任务中表现出卓越的性能,且仅需最少的训练参数。具体的性能数据和对比基线未在摘要中给出,属于未知信息。但强调了该方法在不同任务上的优越性和参数效率。

🎯 应用场景

该研究成果可应用于智能监控、视频内容分析、人机交互等领域。例如,在智能监控中,可以快速识别异常行为;在视频内容分析中,可以自动识别视频中的动作;在人机交互中,可以根据用户的动作进行响应。该研究有望推动人工智能在视频理解领域的应用。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have propelled the field of few-shot action recognition (FSAR). However, preliminary explorations in this area primarily focus on generating captions to form a suboptimal feature->caption->feature pipeline and adopt metric learning solely within the visual space. In this paper, we propose FSAR-LLaVA, the first end-to-end method to leverage MLLMs (such as Video-LLaVA) as a multimodal knowledge base for directly enhancing FSAR. First, at the feature level, we leverage the MLLM's multimodal decoder to extract spatiotemporally and semantically enriched representations, which are then decoupled and enhanced by our Multimodal Feature-Enhanced Module into distinct visual and textual features that fully exploit their semantic knowledge for FSAR. Next, we leverage the versatility of MLLMs to craft input prompts that flexibly adapt to diverse scenarios, and use their aligned outputs to drive our designed Composite Task-Oriented Prototype Construction, effectively bridging the distribution gap between meta-train and meta-test sets. Finally, to enable multimodal features to guide metric learning jointly, we introduce a training-free Multimodal Prototype Matching Metric that adaptively selects the most decisive cues and efficiently leverages the decoupled feature representations produced by MLLMs. Extensive experiments demonstrate superior performance across various tasks with minimal trainable parameters.