Learning to Generalize without Bias for Open-Vocabulary Action Recognition

作者: Yating Yu, Congqi Cao, Yifan Zhang, Yanning Zhang

分类: cs.CV

发布日期: 2025-02-27 (更新: 2025-07-24)

备注: Accepted by ICCV2025 (Highlight)

🔗 代码/项目: GITHUB

💡 一句话要点

提出Open-MeDe框架，解决开放词汇动作识别中CLIP静态偏置导致的泛化性问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇动作识别 元学习 泛化能力 静态偏置 CLIP 跨批次元优化 自集成

📋 核心要点

现有视频学习器利用CLIP初始化，但易过拟合于静态特征，导致泛化性受损，尤其是在上下文外动作识别中。
Open-MeDe采用元学习方法，通过跨批次元优化和自集成，提升模型在开放词汇动作识别中的泛化能力。
实验结果表明，Open-MeDe在上下文内和上下文外场景中均优于现有技术，展现了强大的泛化性能。

📝 摘要（中文）

本文提出了一种名为Open-MeDe的元优化框架，旨在解决开放词汇动作识别中由CLIP静态偏置引起的泛化性问题。Open-MeDe从泛化的新视角出发，采用元学习方法，以经济高效的方式提升已知到开放的泛化能力以及图像到视频的去偏置能力。具体而言，Open-MeDe引入了一种跨批次元优化方案，通过虚拟评估显式地鼓励视频学习器快速泛化到任意后续数据，从而引导更平滑的优化过程。优化过程中不使用CLIP正则化，从而隐式地缓解了视频元学习器固有的静态偏置。此外，本文还应用了优化轨迹上的自集成，以获得通用的最优参数，从而实现对上下文内和上下文外新数据的鲁棒泛化。大量评估表明，Open-MeDe不仅超越了为上下文内开放词汇动作识别量身定制的现有正则化方法，而且在上下文外场景中也表现出色。

🔬 方法详解

问题定义：开放词汇动作识别旨在识别训练集中未见过的动作类别。现有方法通常依赖CLIP的视觉-文本对齐能力，但CLIP的静态偏置会导致模型过度关注静态特征，从而在面对上下文外（out-of-context）的动作时泛化能力下降。现有方法未能有效解决CLIP带来的静态偏置问题，导致模型在新的、未知的动作场景中表现不佳。

核心思路：Open-MeDe的核心思路是通过元学习的方式，让模型学习如何更好地泛化到新的数据分布。具体来说，通过跨批次元优化，模拟模型在不同数据批次上的表现，从而鼓励模型学习更鲁棒的特征表示，减少对静态偏置的依赖。此外，通过优化轨迹上的自集成，进一步提升模型的泛化能力。

技术框架：Open-MeDe的整体框架包含以下几个主要步骤：1) 使用CLIP初始化视频学习器；2) 采用跨批次元优化方案，在多个数据批次上进行训练，模拟模型在不同数据上的表现；3) 在优化过程中，不使用CLIP正则化，以减少静态偏置的影响；4) 对优化轨迹上的多个模型进行自集成，得到最终的模型。

关键创新：Open-MeDe的关键创新在于其元优化框架，该框架通过跨批次元优化和自集成，有效地解决了CLIP静态偏置带来的泛化性问题。与现有方法不同，Open-MeDe不是简单地对CLIP进行正则化或重组，而是从元学习的角度出发，让模型学习如何更好地泛化到新的数据分布。

关键设计：Open-MeDe的关键设计包括：1) 跨批次元优化方案，通过模拟模型在不同数据批次上的表现，鼓励模型学习更鲁棒的特征表示；2) 不使用CLIP正则化，以减少静态偏置的影响；3) 优化轨迹上的自集成，通过对多个模型进行集成，进一步提升模型的泛化能力。具体的损失函数和网络结构细节在论文中有详细描述，但摘要中未明确提及。

🖼️ 关键图片

📊 实验亮点

Open-MeDe在多个开放词汇动作识别数据集上取得了显著的性能提升。实验结果表明，Open-MeDe不仅超越了现有的正则化方法，而且在上下文外场景中也表现出色。具体的性能数据和对比基线在论文中有详细描述，但摘要中未明确提及具体的数值提升。

🎯 应用场景

Open-MeDe在开放词汇动作识别领域具有广泛的应用前景，例如视频监控、智能安防、人机交互等。该方法可以提升模型在复杂、多变的现实场景中的泛化能力，从而实现更准确、更可靠的动作识别。未来，该方法可以进一步扩展到其他视觉任务中，例如图像分类、目标检测等。

📄 摘要（原文）

Leveraging the effective visual-text alignment and static generalizability from CLIP, recent video learners adopt CLIP initialization with further regularization or recombination for generalization in open-vocabulary action recognition in-context. However, due to the static bias of CLIP, such video learners tend to overfit on shortcut static features, thereby compromising their generalizability, especially to novel out-of-context actions. To address this issue, we introduce Open-MeDe, a novel Meta-optimization framework with static Debiasing for Open-vocabulary action recognition. From a fresh perspective of generalization, Open-MeDe adopts a meta-learning approach to improve known-to-open generalizing and image-to-video debiasing in a cost-effective manner. Specifically, Open-MeDe introduces a cross-batch meta-optimization scheme that explicitly encourages video learners to quickly generalize to arbitrary subsequent data via virtual evaluation, steering a smoother optimization landscape. In effect, the free of CLIP regularization during optimization implicitly mitigates the inherent static bias of the video meta-learner. We further apply self-ensemble over the optimization trajectory to obtain generic optimal parameters that can achieve robust generalization to both in-context and out-of-context novel data. Extensive evaluations show that Open-MeDe not only surpasses state-of-the-art regularization methods tailored for in-context open-vocabulary action recognition but also substantially excels in out-of-context scenarios.Code is released at https://github.com/Mia-YatingYu/Open-MeDe.

Learning to Generalize without Bias for Open-Vocabulary Action Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理