Meta CLIP 2: A Worldwide Scaling Recipe

作者: Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu

分类: cs.CV, cs.CL

发布日期: 2025-07-29 (更新: 2025-08-01)

备注: 10 pages

💡 一句话要点

Meta CLIP 2：提出一种全球范围扩展CLIP训练的有效方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言CLIP 对比学习 图像文本预训练 零样本学习 多模态学习

📋 核心要点

现有CLIP模型主要依赖英语数据，扩展到全球多语言数据面临数据质量和性能下降的挑战。
Meta CLIP 2提出了一种新的训练配方，旨在克服多语言CLIP的“多语言诅咒”问题，实现英语和非英语数据的互利。
实验表明，Meta CLIP 2在零样本ImageNet分类和多语言基准测试中均取得了显著提升，超越了现有方法。

📝 摘要（中文）

对比语言-图像预训练（CLIP）是一种流行的基础模型，支持从零样本分类、检索到多模态大型语言模型（MLLM）的编码器。虽然CLIP已成功在来自英语世界的数十亿规模图像-文本对上进行训练，但进一步将CLIP的训练扩展到从全球网络数据中学习仍然具有挑战性：（1）没有可用的策展方法来处理来自非英语世界的数据点；（2）现有的多语言CLIP的英语性能比其仅英语版本更差，即LLM中常见的“多语言诅咒”。在此，我们提出了Meta CLIP 2，这是第一个从头开始在全球网络规模的图像-文本对上训练CLIP的配方。为了推广我们的发现，我们进行了严格的消融实验，仅进行了必要的最小更改以应对上述挑战，并提出了一个配方，使英语和非英语世界的数据能够相互受益。在零样本ImageNet分类中，Meta CLIP 2 ViT-H/14超过了其仅英语版本0.8%和mSigLIP 0.7%，并且令人惊讶地在多语言基准测试中设置了新的最先进水平，而没有系统级别的混淆因素（例如，翻译、定制的架构更改），例如CVQA（57.4%），Babel-ImageNet（50.2%）和XM3600（64.3%）上的图像到文本检索。

🔬 方法详解

问题定义：现有CLIP模型在扩展到全球多语言数据时，面临两个主要问题：一是缺乏有效的非英语数据策展方法，导致数据质量参差不齐；二是多语言CLIP模型在英语任务上的性能往往低于仅英语模型，即所谓的“多语言诅咒”。这限制了CLIP模型在全球范围内的应用。

核心思路：Meta CLIP 2的核心思路是通过一种精心设计的训练配方，使得模型能够同时从英语和非英语数据中学习，从而克服“多语言诅咒”。该配方旨在平衡不同语言数据的影响，并提高模型在各种语言环境下的泛化能力。

技术框架：Meta CLIP 2的整体框架仍然基于CLIP的对比学习范式，但其训练流程和数据处理方式进行了改进。具体来说，可能包括以下几个主要模块/阶段：1. 多语言数据收集与清洗；2. 数据增强与预处理；3. 模型训练（使用对比损失）；4. 模型评估与调优。

关键创新：Meta CLIP 2的关键创新在于其训练配方，该配方能够有效地利用全球范围内的多语言数据，同时避免性能下降。这种配方可能包括以下几个方面：1. 针对非英语数据的特定数据清洗和过滤策略；2. 一种新的损失函数或训练策略，用于平衡不同语言数据的影响；3. 一种自适应的学习率调整策略，以适应不同语言数据的特点。

关键设计：具体的参数设置、损失函数、网络结构等技术细节在论文中应该有详细描述。例如，损失函数可能采用对比损失，并加入权重项来平衡不同语言数据的影响。网络结构可能采用ViT-H/14等大型视觉Transformer模型。具体的超参数设置，如学习率、batch size等，也需要根据实验结果进行调整。

🖼️ 关键图片

📊 实验亮点

Meta CLIP 2 ViT-H/14 在零样本 ImageNet 分类中超越了其仅英语版本 0.8% 和 mSigLIP 0.7%。在多语言基准测试中，Meta CLIP 2 在 CVQA 上达到 57.4%，Babel-ImageNet 上达到 50.2%，XM3600 图像到文本检索上达到 64.3%，均取得了新的 state-of-the-art 结果。

🎯 应用场景

Meta CLIP 2 的潜在应用领域包括跨语言图像检索、多语言图像描述生成、视觉问答、以及作为多模态大型语言模型（MLLM）的编码器。该研究成果有助于提升AI模型在全球范围内的可用性和性能，促进跨文化交流和信息共享。

📄 摘要（原文）

Contrastive Language-Image Pretraining (CLIP) is a popular foundation model, supporting from zero-shot classification, retrieval to encoders for multimodal large language models (MLLMs). Although CLIP is successfully trained on billion-scale image-text pairs from the English world, scaling CLIP's training further to learning from the worldwide web data is still challenging: (1) no curation method is available to handle data points from non-English world; (2) the English performance from existing multilingual CLIP is worse than its English-only counterpart, i.e., "curse of multilinguality" that is common in LLMs. Here, we present Meta CLIP 2, the first recipe training CLIP from scratch on worldwide web-scale image-text pairs. To generalize our findings, we conduct rigorous ablations with minimal changes that are necessary to address the above challenges and present a recipe enabling mutual benefits from English and non-English world data. In zero-shot ImageNet classification, Meta CLIP 2 ViT-H/14 surpasses its English-only counterpart by 0.8% and mSigLIP by 0.7%, and surprisingly sets new state-of-the-art without system-level confounding factors (e.g., translation, bespoke architecture changes) on multilingual benchmarks, such as CVQA with 57.4%, Babel-ImageNet with 50.2% and XM3600 with 64.3% on image-to-text retrieval.

Meta CLIP 2: A Worldwide Scaling Recipe

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理