jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images
作者: Andreas Koukounas, Georgios Mastrapas, Sedigheh Eslami, Bo Wang, Mohammad Kalim Akram, Michael Günther, Isabelle Mohr, Saba Sturua, Nan Wang, Han Xiao
分类: cs.CL, cs.CV, cs.IR
发布日期: 2024-12-11 (更新: 2025-04-24)
备注: 30 pages, 1-10 main paper, 10-12 refs, 12-30 benchmarks
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出jina-clip-v2,通过多任务多阶段对比学习提升多语言多模态文本和图像的嵌入效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 对比学习 跨模态检索 多语言模型 文本图像嵌入 视觉文档理解 零样本学习
📋 核心要点
- 现有CLIP模型在单模态文本任务和多语言理解方面存在不足,对视觉丰富文档的理解也不够充分。
- jina-clip-v2采用多任务多阶段对比学习,在文本对、三元组和图像-文本对上进行训练,支持纯文本和跨模态任务。
- 实验表明,jina-clip-v2在零样本文本检索、语义文本相似性和跨模态检索任务中,性能优于现有CLIP模型。
📝 摘要(中文)
对比语言-图像预训练(CLIP)已被广泛应用于跨模态信息检索和多模态理解任务。然而,CLIP模型主要针对跨模态视觉-语言任务进行优化,在单模态文本任务中表现不佳。此外,这些模型通常在英语数据集上训练,因此缺乏多语言理解能力。另外,从视觉理解的角度来看,以前基于CLIP的模型对视觉丰富的文档的理解不足。本文提出了jina-clip-v2,一个对比视觉-语言模型,通过多任务和多阶段对比学习范式在文本对、三元组和图像-文本对上进行训练,以支持纯文本和跨模态任务。我们采用了一个多语言文本编码器,并将训练数据集扩展到包括来自29种非英语语言的多语言文本,包括印地语、中文、德语、法语等,以及视觉丰富的文档图像。我们评估了模型的性能,并表明jina-clip-v2在零样本纯文本检索、语义文本相似性和英语和多语言环境下的跨模态检索任务中,相对于最先进的基于CLIP的模型取得了显著的改进。jina-clip-v2还提供了嵌入维度的灵活性,使用户能够选择表示的粒度。jina-clip-v2已在https://huggingface.co/jinaai/jina-clip-v2上公开。
🔬 方法详解
问题定义:现有CLIP模型主要针对跨模态视觉-语言任务优化,在单模态文本任务中表现不佳,并且缺乏多语言理解能力,对视觉丰富文档的理解也不足。这些限制了CLIP在更广泛的应用场景中的使用。
核心思路:jina-clip-v2的核心思路是通过多任务和多阶段的对比学习,同时优化模型在单模态文本和跨模态视觉-语言任务上的性能。通过引入多语言文本数据和视觉丰富文档图像,提升模型的多语言理解能力和对复杂视觉信息的处理能力。
技术框架:jina-clip-v2采用对比学习框架,包含文本编码器和图像编码器。训练过程分为多个阶段,包括:1) 在文本对上进行对比学习,提升文本语义表示能力;2) 在文本三元组上进行对比学习,进一步优化文本表示;3) 在图像-文本对上进行对比学习,实现跨模态对齐。模型使用多语言文本编码器,并扩展训练数据集,包含多种语言的文本和视觉丰富文档图像。
关键创新:jina-clip-v2的关键创新在于多任务多阶段的对比学习范式,以及对多语言文本和视觉丰富文档图像的有效利用。通过多阶段训练,模型能够逐步提升文本表示能力和跨模态对齐能力。引入多语言数据和视觉丰富文档图像,显著提升了模型的多语言理解能力和对复杂视觉信息的处理能力。
关键设计:jina-clip-v2的关键设计包括:1) 使用多语言文本编码器,支持多种语言的文本输入;2) 采用多任务损失函数,同时优化单模态文本和跨模态视觉-语言任务;3) 设计多阶段训练策略,逐步提升模型性能;4) 提供灵活的嵌入维度选择,允许用户根据需求调整表示的粒度。
🖼️ 关键图片
📊 实验亮点
jina-clip-v2在零样本文本检索、语义文本相似性和跨模态检索任务中,相对于现有CLIP模型取得了显著的改进。具体性能数据在论文中给出,表明jina-clip-v2在多语言和跨模态场景下具有更强的竞争力。模型还提供了嵌入维度的灵活性,允许用户根据需求调整表示的粒度。
🎯 应用场景
jina-clip-v2可应用于多语言信息检索、跨模态内容理解、语义文本相似度计算等领域。例如,可以用于构建多语言图像搜索引擎,提升跨语言文档检索的准确性,以及增强对视觉文档的理解能力。该研究的实际价值在于提升了多模态模型的通用性和适用性,未来可能促进跨语言和跨模态人工智能应用的发展。
📄 摘要(原文)
Contrastive Language-Image Pretraining (CLIP) has been widely used for crossmodal information retrieval and multimodal understanding tasks. However, CLIP models are mainly optimized for crossmodal vision-language tasks and underperform in single-mode text tasks. Moreover, these models are often trained on English datasets and therefore lack multilingual understanding. Additionally, from a visual understanding perspective, previous CLIP-based models exhibit insufficient understanding of visually rich documents. In this work, we propose jina-clip-v2, a contrastive vision-language model trained on text pairs, triplets and image-text pairs via a multi-task and multi-stage contrastive learning paradigm in order to support both text-only and crossmodal tasks. We employ a multilingual text encoder and expand the training dataset to include multilingual texts from 29 non-English languages, including Hindi, Chinese, German, French, and others, as well as images of visually rich documents. We evaluate the model's performance and show that jina-clip-v2 achieves notable improvements over state-of-the-art CLIP-based models in zero-shot text-only retrieval, semantic textual similarity, and crossmodal retrieval tasks in both English and multilingual settings. jina-clip-v2 also provides for flexibility in embedding dimensionality, enabling users to select the granularity of the representations. jina-clip-v2 is publicly available at https://huggingface.co/jinaai/jina-clip-v2.