Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval

📄 arXiv: 2409.19961v1 📥 PDF

作者: Yabing Wang, Le Wang, Qiang Zhou, Zhibin Wang, Hao Li, Gang Hua, Wei Tang

分类: cs.CV, cs.CL

发布日期: 2024-09-30

备注: Accepted by ACM Multimedia

🔗 代码/项目: GITHUB


💡 一句话要点

提出LECCR,利用多模态LLM增强跨语言跨模态检索中的视觉和非英语表示对齐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言跨模态检索 多模态LLM 视觉语义增强 特征对齐 软化匹配

📋 核心要点

  1. 跨语言跨模态检索面临视觉和文本语义鸿沟以及非英语表示质量低的挑战,阻碍了跨模态对齐。
  2. LECCR利用多模态LLM生成视觉内容描述,构建多视图语义槽,增强视觉特征的语义信息,缩小模态差距。
  3. 引入英语指导下的软化匹配,提供更可靠的视觉和非英语特征对应关系,并在多个基准测试中取得显著效果。

📝 摘要(中文)

跨语言跨模态检索(CCR)旨在根据非英语查询检索视觉相关内容,而无需在训练期间依赖人工标注的跨模态数据对。一种常见方法是利用机器翻译(MT)创建伪并行数据对,从而建立视觉和非英语文本数据之间的对应关系。然而,由于视觉和文本之间存在显著的语义差距,以及预训练编码器和数据噪声导致非英语表示质量较低,对齐它们的表示构成挑战。为了克服这些挑战,我们提出LECCR,一种新颖的解决方案,它结合了多模态大型语言模型(MLLM)来改善视觉和非英语表示之间的对齐。具体来说,我们首先使用MLLM生成详细的视觉内容描述,并将它们聚合到封装不同语义的多视图语义槽中。然后,我们将这些语义槽作为内部特征,并利用它们与视觉特征进行交互。通过这样做,我们增强了视觉特征中的语义信息,缩小了模态之间的语义差距,并生成用于后续多级匹配的局部视觉语义。此外,为了进一步增强视觉和非英语特征之间的对齐,我们引入了在英语指导下的软化匹配。这种方法提供了视觉和非英语特征之间更全面和可靠的模态间对应关系。在四个CCR基准测试(即Multi30K、MSCOCO、VATEX和MSR-VTT-CN)上进行的大量实验证明了我们提出的方法的有效性。

🔬 方法详解

问题定义:论文旨在解决跨语言跨模态检索(CCR)中,视觉特征和非英语文本特征难以对齐的问题。现有方法依赖机器翻译生成伪并行数据,但由于视觉和文本的语义鸿沟以及非英语表示质量的限制,导致检索效果不佳。现有方法的痛点在于无法有效弥合模态间的语义差距,以及无法充分利用非英语文本的语义信息。

核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)的强大语义理解和生成能力,增强视觉特征的语义表达,并引入英语指导下的软化匹配,从而更有效地对齐视觉和非英语文本特征。通过MLLM生成更丰富的视觉描述,弥补视觉和文本之间的语义鸿沟。

技术框架:LECCR的整体框架包含以下几个主要阶段:1) 使用MLLM生成视觉内容的详细描述,并将其组织成多视图语义槽;2) 将这些语义槽作为内部特征,与视觉特征进行交互,增强视觉特征的语义信息;3) 在英语指导下,对视觉特征和非英语文本特征进行软化匹配,建立更可靠的模态间对应关系。

关键创新:论文的关键创新在于:1) 引入MLLM来增强视觉特征的语义表达,弥合模态间的语义鸿沟;2) 提出多视图语义槽的概念,将MLLM生成的视觉描述组织成结构化的语义表示;3) 引入英语指导下的软化匹配,提高跨语言场景下的特征对齐效果。与现有方法相比,LECCR更有效地利用了MLLM的语义理解能力,并针对跨语言场景进行了优化。

关键设计:论文中关键的设计包括:1) MLLM的选择和微调策略,以确保其能够生成高质量的视觉描述;2) 多视图语义槽的构建方式,如何选择和组织不同的语义信息;3) 英语指导下的软化匹配的具体实现方式,如何利用英语信息来指导跨语言特征的对齐;4) 损失函数的设计,如何平衡不同模态之间的对齐和检索性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LECCR在Multi30K、MSCOCO、VATEX和MSR-VTT-CN四个跨语言跨模态检索基准测试上进行了广泛的实验,结果表明LECCR显著优于现有方法。具体性能提升数据在论文中给出,表明该方法在跨语言跨模态检索任务上的有效性。

🎯 应用场景

该研究成果可应用于跨语言图像/视频搜索、多语言电商平台、国际新闻事件分析等领域。通过提升跨语言跨模态检索的准确性,可以帮助用户更方便地获取所需信息,促进不同语言和文化之间的交流与理解。未来,该技术有望应用于更广泛的多模态信息检索和理解任务。

📄 摘要(原文)

Cross-lingual cross-modal retrieval (CCR) aims to retrieve visually relevant content based on non-English queries, without relying on human-labeled cross-modal data pairs during training. One popular approach involves utilizing machine translation (MT) to create pseudo-parallel data pairs, establishing correspondence between visual and non-English textual data. However, aligning their representations poses challenges due to the significant semantic gap between vision and text, as well as the lower quality of non-English representations caused by pre-trained encoders and data noise. To overcome these challenges, we propose LECCR, a novel solution that incorporates the multi-modal large language model (MLLM) to improve the alignment between visual and non-English representations. Specifically, we first employ MLLM to generate detailed visual content descriptions and aggregate them into multi-view semantic slots that encapsulate different semantics. Then, we take these semantic slots as internal features and leverage them to interact with the visual features. By doing so, we enhance the semantic information within the visual features, narrowing the semantic gap between modalities and generating local visual semantics for subsequent multi-level matching. Additionally, to further enhance the alignment between visual and non-English features, we introduce softened matching under English guidance. This approach provides more comprehensive and reliable inter-modal correspondences between visual and non-English features. Extensive experiments on four CCR benchmarks, \ie Multi30K, MSCOCO, VATEX, and MSR-VTT-CN, demonstrate the effectiveness of our proposed method. Code: \url{https://github.com/LiJiaBei-7/leccr}.