Aya Vision: Advancing the Frontier of Multilingual Multimodality
作者: Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker
分类: cs.CL, cs.CV, cs.LG
发布日期: 2025-05-13
💡 一句话要点
Aya Vision:通过数据合成与模型融合,推进多语言多模态前沿
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言多模态 视觉语言模型 数据合成 模型合并 灾难性遗忘 指令学习 跨模态学习
📋 核心要点
- 多模态语言模型构建面临数据对齐、质量和灾难性遗忘等挑战,多语言环境加剧了这些问题。
- 论文提出一种合成注释框架,用于生成高质量多语言多模态指令数据,并采用跨模态模型合并技术缓解灾难性遗忘。
- Aya-Vision-8B和Aya-Vision-32B在多模态任务上超越了Qwen、Pixtral、Llama-3等多个大型模型,性能显著提升。
📝 摘要(中文)
构建多模态语言模型面临根本性挑战:需要对齐视觉和语言模态,构建高质量的指令数据,并避免引入视觉后现有文本能力的退化。这些困难在多语言环境中进一步放大,不同语言的多模态数据需求加剧了现有数据稀缺性,机器翻译经常扭曲含义,灾难性遗忘更为明显。为了应对上述挑战,我们提出了涵盖数据和建模的新技术。首先,我们开发了一个合成注释框架,该框架可以管理高质量、多样化的多语言多模态指令数据,使Aya Vision模型能够对多种语言的多模态输入产生自然的、人类偏好的响应。作为补充,我们提出了一种跨模态模型合并技术,该技术可以减轻灾难性遗忘,有效地保留纯文本功能,同时增强多模态生成性能。Aya-Vision-8B与Qwen-2.5-VL-7B、Pixtral-12B甚至更大的Llama-3.2-90B-Vision等强大的多模态模型相比,实现了同类最佳的性能。我们进一步使用Aya-Vision-32B扩展了这种方法,该模型优于Molmo-72B和LLaMA-3.2-90B-Vision等两倍以上的模型。我们的工作推进了多模态前沿的多语言进展,并提供了对有效降低计算需求同时提供极高性能的技术的见解。
🔬 方法详解
问题定义:论文旨在解决多语言多模态模型构建中的三大难题:视觉和语言模态的对齐、高质量多语言指令数据的匮乏以及引入视觉信息后模型原有文本能力的退化(灾难性遗忘)。现有方法在多语言环境下数据稀缺问题更加突出,机器翻译质量难以保证,且容易发生灾难性遗忘,导致模型性能下降。
核心思路:论文的核心思路是双管齐下:一方面,通过合成数据生成高质量、多样化的多语言多模态指令数据,缓解数据稀缺问题;另一方面,采用跨模态模型合并技术,在引入视觉能力的同时,尽可能保留模型原有的文本能力,避免灾难性遗忘。
技术框架:Aya Vision的整体框架包含两个主要部分:1) 多语言多模态数据合成框架:用于生成高质量的指令数据,涵盖多种语言和模态。具体实现细节未知,但强调了数据质量和多样性。2) 跨模态模型合并技术:用于将预训练的文本模型与视觉模型进行融合,同时保留文本能力。具体融合方式未知,但目标是减轻灾难性遗忘。
关键创新:论文的关键创新在于结合了数据和模型两个层面的优化策略。数据层面的创新是提出了一个有效的多语言多模态数据合成框架,能够低成本地生成高质量的训练数据。模型层面的创新是提出了一种跨模态模型合并技术,能够在引入视觉能力的同时,尽可能保留模型原有的文本能力。这种数据和模型协同优化的方法是与现有方法的本质区别。
关键设计:论文中关于数据合成框架和模型合并技术的具体设计细节并未详细公开。数据合成框架的关键可能在于如何设计有效的prompt和生成策略,以保证数据的质量和多样性。模型合并技术的关键可能在于如何设计合适的融合策略和损失函数,以平衡视觉能力和文本能力的保留。
🖼️ 关键图片
📊 实验亮点
Aya-Vision-8B在多模态任务上超越了Qwen-2.5-VL-7B、Pixtral-12B等模型,甚至与更大的Llama-3.2-90B-Vision模型相比也表现出色。Aya-Vision-32B进一步扩展了该方法,性能优于Molmo-72B和LLaMA-3.2-90B-Vision等更大规模的模型,证明了该方法的有效性和可扩展性。
🎯 应用场景
Aya Vision的研究成果可广泛应用于多语言智能客服、跨文化内容创作、多语言教育、辅助翻译等领域。该研究有助于构建更智能、更通用、更易于使用的多语言多模态人工智能系统,促进不同语言和文化之间的交流与理解,具有重要的社会价值和商业潜力。
📄 摘要(原文)
Building multimodal language models is fundamentally challenging: it requires aligning vision and language modalities, curating high-quality instruction data, and avoiding the degradation of existing text-only capabilities once vision is introduced. These difficulties are further magnified in the multilingual setting, where the need for multimodal data in different languages exacerbates existing data scarcity, machine translation often distorts meaning, and catastrophic forgetting is more pronounced. To address the aforementioned challenges, we introduce novel techniques spanning both data and modeling. First, we develop a synthetic annotation framework that curates high-quality, diverse multilingual multimodal instruction data, enabling Aya Vision models to produce natural, human-preferred responses to multimodal inputs across many languages. Complementing this, we propose a cross-modal model merging technique that mitigates catastrophic forgetting, effectively preserving text-only capabilities while simultaneously enhancing multimodal generative performance. Aya-Vision-8B achieves best-in-class performance compared to strong multimodal models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which outperforms models more than twice its size, such as Molmo-72B and LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the multi-modal frontier, and provides insights into techniques that effectively bend the need for compute while delivering extremely high performance.