Online Zero-Shot Classification with CLIP

作者: Qi Qian, Juhua Hu

分类: cs.CV, cs.LG

发布日期: 2024-08-23

备注: accepted by ECCV'24

🔗 代码/项目: GITHUB

💡 一句话要点

提出OnZeta在线零样本分类方法，利用目标数据分布提升CLIP性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 在线学习 零样本分类 CLIP 视觉语言模型 目标数据分布

📋 核心要点

现有零样本分类方法未能充分利用目标数据的分布信息，限制了其在实际应用中的性能。
提出OnZeta方法，通过在线标签学习和代理学习，动态建模目标数据分布并缩小模态差距。
实验表明，OnZeta在ImageNet上达到78.94%的准确率，并在其他13个下游任务上平均提升超过3%。

📝 摘要（中文）

CLIP等视觉-语言预训练模型能够实现零样本迁移，根据候选类别名称对图像进行分类。尽管CLIP在各种下游任务上表现出令人印象深刻的零样本性能，但目标数据的分布尚未得到充分利用。本文研究了一种新的在线零样本迁移场景，其中每个图像以随机顺序到达以进行分类，并且仅访问一次以立即获得预测，而无需存储其表示。与原始零样本分类相比，所提出的框架保持了在线服务的灵活性，同时考虑了到达图像的统计信息作为辅助信息来捕获目标数据的分布，这有助于提高实际应用中的性能。为了应对有效在线优化的挑战，我们首先开发在线标签学习来建模目标数据分布。然后，通过提出的在线代理学习方法进一步优化视觉空间中每个类别的代理，以减轻图像和文本之间的模态差距。两种在线策略的收敛性都可以得到理论保证。通过结合来自在线标签学习和代理学习的预测标签，我们的在线零样本迁移方法（OnZeta）在不访问整个数据集的情况下，在ImageNet上实现了78.94％的准确率。此外，在其他13个具有不同视觉编码器的下游任务上的大量实验表明，平均提高了3％以上，这证明了我们提案的有效性。

🔬 方法详解

问题定义：论文旨在解决在线零样本分类问题，即在图像逐个到达且仅访问一次的情况下，如何利用CLIP模型进行有效分类。现有零样本分类方法通常忽略目标数据的分布信息，导致在实际应用中性能受限。此外，直接应用CLIP进行在线分类无法适应目标数据的动态变化，模态差距问题依然存在。

核心思路：论文的核心思路是利用在线学习方法动态地建模目标数据的分布，并优化视觉空间中每个类别的代理，从而缩小图像和文本之间的模态差距。通过在线标签学习，模型可以自适应地调整类别权重，更好地拟合目标数据分布。同时，在线代理学习可以优化视觉空间中的类别表示，使其更接近实际图像的特征分布。

技术框架：OnZeta方法包含两个主要模块：在线标签学习和在线代理学习。首先，在线标签学习模块根据已到达图像的预测结果，动态调整类别权重，从而建模目标数据分布。然后，在线代理学习模块利用调整后的类别权重，优化视觉空间中每个类别的代理，从而缩小模态差距。最终，结合两个模块的预测结果，得到最终的分类结果。

关键创新：论文的关键创新在于提出了在线标签学习和在线代理学习两种在线学习策略，能够动态地建模目标数据分布并缩小模态差距。与传统的零样本分类方法相比，OnZeta方法能够更好地适应目标数据的动态变化，从而提高分类性能。此外，论文还提供了两种在线策略的收敛性理论保证。

关键设计：在线标签学习采用指数加权平均的方式更新类别权重，学习率是一个关键参数。在线代理学习使用梯度下降法优化视觉空间中的类别代理，损失函数结合了分类损失和正则化项。具体损失函数和学习率的选择需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

OnZeta方法在ImageNet上实现了78.94%的准确率，无需访问整个数据集。在其他13个下游任务上，OnZeta方法平均提升超过3%，证明了其有效性。实验结果表明，OnZeta方法能够有效地利用目标数据分布信息，提高零样本分类性能。

🎯 应用场景

该研究成果可应用于各种需要在线零样本分类的场景，例如：视频监控、图像检索、推荐系统等。在这些场景中，数据分布可能随时间变化，OnZeta方法能够动态适应这些变化，提高分类准确率，具有重要的实际应用价值。

📄 摘要（原文）

Vision-language pre-training such as CLIP enables zero-shot transfer that can classify images according to the candidate class names. While CLIP demonstrates an impressive zero-shot performance on diverse downstream tasks, the distribution from the target data has not been leveraged sufficiently. In this work, we study a novel online zero-shot transfer scenario, where each image arrives in a random order for classification and is visited only once to obtain prediction immediately without storing its representation. Compared with the vanilla zero-shot classification, the proposed framework preserves its flexibility for online service while considering the statistics of the arrived images as the side information to capture the distribution of target data, which can help improve the performance of real-world applications. To tackle the challenge of effective online optimization, we first develop online label learning to model the target data distribution. Then, the proxy of each class in the vision space is further optimized with the proposed online proxy learning method to mitigate the modality gap between images and text. The convergence of both online strategies can be theoretically guaranteed. By combining the predicted label from the online label learning and proxy learning, our online zero-shot transfer method (OnZeta) achieves $78.94\%$ accuracy on ImageNet without accessing the entire data set. Moreover, extensive experiments on other 13 downstream tasks with different vision encoders show a more than $3\%$ improvement on average, which demonstrates the effectiveness of our proposal. Code is available at \url{https://github.com/idstcv/OnZeta}.

Online Zero-Shot Classification with CLIP

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理