Parrot: Multilingual Visual Instruction Tuning

📄 arXiv: 2406.02539v3 📥 PDF

作者: Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2024-06-04 (更新: 2025-05-26)

备注: Accepted to ICML 2025. Code and dataset are available at: https://github.com/AIDC-AI/Parrot

🔗 代码/项目: GITHUB


💡 一句话要点

PARROT:提出一种多语言视觉指令调优方法,解决多语言token对齐问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言视觉指令调优 多模态学习 混合专家模型 视觉Token对齐 跨语言理解

📋 核心要点

  1. 现有MLLM的监督微调方法在处理多语言时,由于数据集的语言不平衡,导致非英语语言性能下降。
  2. PARROT利用文本指导进行视觉token对齐,通过混合专家模型将视觉token转换为特定语言的表示。
  3. PARROT在多语言基准测试MMMB上取得了领先性能,并在多种多模态任务中表现出色。

📝 摘要(中文)

多模态大型语言模型(MLLM)如GPT-4o的快速发展,标志着迈向通用人工智能的重要一步。现有方法通常通过监督微调(SFT)将视觉编码器与LLM对齐,但这通常会因训练过程而降低其处理多种语言的能力。我们通过实验观察到,主要以英语为中心的SFT数据集由于多语言token对齐失败,会降低非英语语言的性能。为了解决这个问题,我们提出PARROT,一种新颖的方法,利用文本指导在语言层面进行视觉token对齐。PARROT根据不同的语言输入调节视觉token,并使用混合专家(MoE)来对齐多语言token。通过计算初始视觉特征和文本嵌入之间的交叉注意力,我们选择最相关的专家,将视觉token转换为特定于语言的表示。此外,我们引入了大规模多语言多模态基准(MMMB),这是一个包含6种语言、15个类别和12,000个问题的新基准,用于评估多语言能力。PARROT在多语言基准和各种多模态任务上都实现了最先进的性能。代码和数据集可在https://github.com/AIDC-AI/Parrot 获取。

🔬 方法详解

问题定义:现有方法在将视觉编码器与大型语言模型对齐时,主要依赖于以英语为中心的监督微调数据集。这导致模型在处理非英语语言时性能显著下降,核心问题在于多语言token的对齐失败,使得模型无法有效理解和处理不同语言的视觉信息。

核心思路:PARROT的核心思路是利用文本指导进行视觉token对齐,从而解决多语言token对齐问题。通过将视觉token与不同语言的文本输入相结合,并使用混合专家模型(MoE)来学习特定语言的视觉表示,从而提高模型在多语言环境下的性能。

技术框架:PARROT的整体框架包括以下几个主要模块:1) 视觉编码器:提取图像的初始视觉特征。2) 文本编码器:将不同语言的文本输入编码为文本嵌入。3) 混合专家模型(MoE):包含多个专家网络,每个专家网络负责处理特定语言的视觉token。4) 交叉注意力机制:计算初始视觉特征和文本嵌入之间的交叉注意力,选择最相关的专家。5) 语言特定视觉表示:将视觉token转换为特定于语言的表示。

关键创新:PARROT的关键创新在于利用文本指导进行视觉token对齐,并引入混合专家模型来处理多语言视觉信息。与现有方法相比,PARROT能够更好地处理多语言环境下的视觉信息,从而提高模型在多语言任务中的性能。此外,MMMB基准的提出也为多语言多模态模型的评估提供了新的标准。

关键设计:PARROT的关键设计包括:1) 使用交叉注意力机制选择最相关的专家,从而实现视觉token的语言特定转换。2) 混合专家模型的结构和训练方式,确保每个专家能够有效地处理特定语言的视觉信息。3) 大规模多语言多模态基准(MMMB)的设计,包含多种语言和类别,用于全面评估模型的多语言能力。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PARROT在多语言基准测试MMMB上取得了最先进的性能,证明了其在多语言视觉理解方面的优越性。具体性能数据和对比基线在论文中进行了详细展示(未知)。此外,PARROT在各种多模态任务上也表现出色,进一步验证了其通用性和有效性。

🎯 应用场景

PARROT的研究成果可广泛应用于多语言智能客服、跨语言图像搜索、多语言内容创作等领域。通过提升多语言多模态模型的性能,可以更好地服务于全球用户,促进不同语言文化之间的交流与理解。未来,该技术有望应用于更复杂的跨语言场景,例如多语言机器人交互、全球化教育等。

📄 摘要(原文)

The rapid development of Multimodal Large Language Models (MLLMs), such as GPT-4o, marks a significant step toward artificial general intelligence. Existing methods typically align vision encoders with LLMs via supervised fine-tuning (SFT), but this often deteriorates their ability to handle multiple languages as training progresses. We empirically observe that imbalanced SFT datasets, largely English-centric, degrade performance on non-English languages due to the failure in multilingual token alignment. To address this, we propose PARROT, a novel approach that leverages textual guidance for visual token alignment at the language level. PARROT conditions visual tokens on diverse language inputs and uses Mixture-of-Experts (MoE) to align multilingual tokens. By computing cross-attention between initial visual features and textual embeddings, we select the most relevant experts, converting visual tokens into language-specific representations. Additionally, we introduce the Massive Multilingual Multimodal Benchmark (MMMB), a new benchmark comprising 6 languages, 15 categories, and 12,000 questions, to assess multilingual capabilities. PARROT achieves state-of-the-art performance on both the multilingual benchmarks and a wide range of multimodal tasks. Code and dataset are available at: https://github.com/AIDC-AI/Parrot