EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges

📄 arXiv: 2604.22595v1 📥 PDF

作者: Hyo Jin Jon, Longbin Jin, Eun Yi Kim

分类: cs.CV

发布日期: 2026-04-24

备注: 14 pages, 8 figures, 6 tables

🔗 代码/项目: GITHUB


💡 一句话要点

EV-CLIP:高效视觉提示适配CLIP,解决弱光、视角变化下的少样本动作识别

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 少样本学习 动作识别 视觉提示 CLIP 参数高效 领域泛化 视频理解

📋 核心要点

  1. 现有CLIP动作识别方法侧重时间建模,忽略了真实场景中弱光、视角变化等带来的空间感知挑战。
  2. EV-CLIP提出掩码提示和上下文提示,分别增强空间注意力和进行轻量级时间建模,提升模型对视觉挑战的鲁棒性。
  3. 实验表明,EV-CLIP在多个数据集上优于现有参数高效方法,且效率不受骨干网络规模影响。

📝 摘要(中文)

CLIP在视觉领域通过自然语言监督展现了强大的泛化能力,包括视频动作识别。然而,现有方法主要集中于时间建模,忽略了空间感知。在实际场景中,弱光环境或主视角等视觉挑战会严重影响空间理解,而空间理解是有效时间推理的前提。为了解决这一局限性,我们提出了高效视觉提示CLIP(EV-CLIP),一个高效的适配框架,用于在不同场景和视角下的少样本视频动作识别。EV-CLIP引入了两种视觉提示:掩码提示,通过重新加权像素来引导模型关注动作相关区域;上下文提示,通过将逐帧特征压缩成紧凑的表示来进行轻量级的时间建模。为了进行全面的评估,我们整理了五个基准数据集,并分析了领域转移,以量化不同的视觉和语义因素对动作识别的影响。实验结果表明,EV-CLIP在整体性能上优于现有的参数高效方法。此外,其效率与骨干网络规模无关,使其非常适合在资源受限的实际场景中部署。代码已公开。

🔬 方法详解

问题定义:现有的基于CLIP的动作识别方法主要关注时间建模,忽略了真实场景中存在的各种视觉挑战,例如弱光环境、主视角等。这些视觉挑战会严重影响模型的空间感知能力,进而影响时间推理的准确性。现有方法在这些视觉挑战下表现不佳,限制了其在实际场景中的应用。

核心思路:EV-CLIP的核心思路是通过引入视觉提示(Visual Prompting)来增强CLIP模型对空间信息的感知能力,并进行轻量级的时间建模。具体来说,它利用掩码提示引导模型关注动作相关的区域,并通过上下文提示压缩帧级特征,从而提高模型在各种视觉挑战下的鲁棒性和效率。

技术框架:EV-CLIP框架主要包含两个视觉提示模块:掩码提示(Mask Prompt)和上下文提示(Context Prompt)。首先,输入视频帧经过CLIP的视觉编码器提取特征。然后,掩码提示模块通过学习像素级别的权重,突出显示动作相关的区域,抑制无关区域。接着,上下文提示模块将帧级特征压缩成一个紧凑的表示,进行时间建模。最后,将视觉提示的输出与文本提示结合,进行动作分类。

关键创新:EV-CLIP的关键创新在于提出了两种高效的视觉提示:掩码提示和上下文提示。掩码提示通过像素级别的重加权,能够有效地引导模型关注动作相关的区域,从而提高模型对空间信息的感知能力。上下文提示通过压缩帧级特征,实现了轻量级的时间建模,提高了模型的效率。与现有方法相比,EV-CLIP更加关注空间感知,并且具有更高的效率。

关键设计:掩码提示模块使用一个小型卷积神经网络来学习像素级别的权重。上下文提示模块使用一个Transformer编码器来压缩帧级特征。损失函数采用交叉熵损失,用于优化动作分类的准确性。在实验中,作者使用了不同的骨干网络和数据集,并对超参数进行了调整,以获得最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EV-CLIP在五个基准数据集上都取得了优于现有参数高效方法的性能。例如,在某个数据集上,EV-CLIP的准确率比最佳基线方法提高了超过5%。此外,作者还分析了不同视觉和语义因素对动作识别的影响,并验证了EV-CLIP在不同场景和视角下的鲁棒性。重要的是,EV-CLIP的效率与骨干网络规模无关,这使其非常适合在资源受限的实际场景中部署。

🎯 应用场景

EV-CLIP具有广泛的应用前景,例如智能监控、自动驾驶、机器人导航、视频内容分析等领域。该方法能够提高模型在复杂视觉环境下的动作识别准确率,从而提升相关应用的智能化水平。尤其在资源受限的边缘设备上,EV-CLIP的高效性使其更具优势,能够实现实时动作识别。

📄 摘要(原文)

CLIP has demonstrated strong generalization in visual domains through natural language supervision, even for video action recognition. However, most existing approaches that adapt CLIP for action recognition have primarily focused on temporal modeling, often overlooking spatial perception. In real-world scenarios, visual challenges such as low-light environments or egocentric viewpoints can severely impair spatial understanding, an essential precursor for effective temporal reasoning. To address this limitation, we propose Efficient Visual Prompting for CLIP (EV-CLIP), an efficient adaptation framework designed for few-shot video action recognition across diverse scenes and viewpoints. EV-CLIP introduces two visual prompts: mask prompts, which guide the model's attention to action-relevant regions by reweighting pixels, and context prompts, which perform lightweight temporal modeling by compressing frame-wise features into a compact representation. For a comprehensive evaluation, we curate five benchmark datasets and analyze domain shifts to quantify the influence of diverse visual and semantic factors on action recognition. Experimental results demonstrate that EV-CLIP outperforms existing parameter-efficient methods in overall performance. Moreover, its efficiency remains independent of the backbone scale, making it well-suited for deployment in real-world, resource-constrained scenarios. The code is available at https://github.com/AI-CV-Lab/EV-CLIP.