Meta CLIP 2: A Worldwide Scaling Recipe
作者: Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu
分类: cs.CV, cs.CL
发布日期: 2025-07-29 (更新: 2025-08-01)
备注: 10 pages
💡 一句话要点
Meta CLIP 2:提出一种全球范围扩展CLIP训练的有效方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言CLIP 对比学习 图像文本预训练 零样本学习 多模态学习
📋 核心要点
- 现有CLIP模型主要依赖英语数据,扩展到全球多语言数据面临数据质量和性能下降的挑战。
- Meta CLIP 2提出了一种新的训练配方,旨在克服多语言CLIP的“多语言诅咒”问题,实现英语和非英语数据的互利。
- 实验表明,Meta CLIP 2在零样本ImageNet分类和多语言基准测试中均取得了显著提升,超越了现有方法。
📝 摘要(中文)
对比语言-图像预训练(CLIP)是一种流行的基础模型,支持从零样本分类、检索到多模态大型语言模型(MLLM)的编码器。虽然CLIP已成功在来自英语世界的数十亿规模图像-文本对上进行训练,但进一步将CLIP的训练扩展到从全球网络数据中学习仍然具有挑战性:(1)没有可用的策展方法来处理来自非英语世界的数据点;(2)现有的多语言CLIP的英语性能比其仅英语版本更差,即LLM中常见的“多语言诅咒”。在此,我们提出了Meta CLIP 2,这是第一个从头开始在全球网络规模的图像-文本对上训练CLIP的配方。为了推广我们的发现,我们进行了严格的消融实验,仅进行了必要的最小更改以应对上述挑战,并提出了一个配方,使英语和非英语世界的数据能够相互受益。在零样本ImageNet分类中,Meta CLIP 2 ViT-H/14超过了其仅英语版本0.8%和mSigLIP 0.7%,并且令人惊讶地在多语言基准测试中设置了新的最先进水平,而没有系统级别的混淆因素(例如,翻译、定制的架构更改),例如CVQA(57.4%),Babel-ImageNet(50.2%)和XM3600(64.3%)上的图像到文本检索。
🔬 方法详解
问题定义:现有CLIP模型在扩展到全球多语言数据时,面临两个主要问题:一是缺乏有效的非英语数据策展方法,导致数据质量参差不齐;二是多语言CLIP模型在英语任务上的性能往往低于仅英语模型,即所谓的“多语言诅咒”。这限制了CLIP模型在全球范围内的应用。
核心思路:Meta CLIP 2的核心思路是通过一种精心设计的训练配方,使得模型能够同时从英语和非英语数据中学习,从而克服“多语言诅咒”。该配方旨在平衡不同语言数据的影响,并提高模型在各种语言环境下的泛化能力。
技术框架:Meta CLIP 2的整体框架仍然基于CLIP的对比学习范式,但其训练流程和数据处理方式进行了改进。具体来说,可能包括以下几个主要模块/阶段:1. 多语言数据收集与清洗;2. 数据增强与预处理;3. 模型训练(使用对比损失);4. 模型评估与调优。
关键创新:Meta CLIP 2的关键创新在于其训练配方,该配方能够有效地利用全球范围内的多语言数据,同时避免性能下降。这种配方可能包括以下几个方面:1. 针对非英语数据的特定数据清洗和过滤策略;2. 一种新的损失函数或训练策略,用于平衡不同语言数据的影响;3. 一种自适应的学习率调整策略,以适应不同语言数据的特点。
关键设计:具体的参数设置、损失函数、网络结构等技术细节在论文中应该有详细描述。例如,损失函数可能采用对比损失,并加入权重项来平衡不同语言数据的影响。网络结构可能采用ViT-H/14等大型视觉Transformer模型。具体的超参数设置,如学习率、batch size等,也需要根据实验结果进行调整。
🖼️ 关键图片
📊 实验亮点
Meta CLIP 2 ViT-H/14 在零样本 ImageNet 分类中超越了其仅英语版本 0.8% 和 mSigLIP 0.7%。在多语言基准测试中,Meta CLIP 2 在 CVQA 上达到 57.4%,Babel-ImageNet 上达到 50.2%,XM3600 图像到文本检索上达到 64.3%,均取得了新的 state-of-the-art 结果。
🎯 应用场景
Meta CLIP 2 的潜在应用领域包括跨语言图像检索、多语言图像描述生成、视觉问答、以及作为多模态大型语言模型(MLLM)的编码器。该研究成果有助于提升AI模型在全球范围内的可用性和性能,促进跨文化交流和信息共享。
📄 摘要(原文)
Contrastive Language-Image Pretraining (CLIP) is a popular foundation model, supporting from zero-shot classification, retrieval to encoders for multimodal large language models (MLLMs). Although CLIP is successfully trained on billion-scale image-text pairs from the English world, scaling CLIP's training further to learning from the worldwide web data is still challenging: (1) no curation method is available to handle data points from non-English world; (2) the English performance from existing multilingual CLIP is worse than its English-only counterpart, i.e., "curse of multilinguality" that is common in LLMs. Here, we present Meta CLIP 2, the first recipe training CLIP from scratch on worldwide web-scale image-text pairs. To generalize our findings, we conduct rigorous ablations with minimal changes that are necessary to address the above challenges and present a recipe enabling mutual benefits from English and non-English world data. In zero-shot ImageNet classification, Meta CLIP 2 ViT-H/14 surpasses its English-only counterpart by 0.8% and mSigLIP by 0.7%, and surprisingly sets new state-of-the-art without system-level confounding factors (e.g., translation, bespoke architecture changes) on multilingual benchmarks, such as CVQA with 57.4%, Babel-ImageNet with 50.2% and XM3600 with 64.3% on image-to-text retrieval.