Ovis: Structural Embedding Alignment for Multimodal Large Language Model
作者: Shiyin Lu, Yang Li, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Han-Jia Ye
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2024-05-31 (更新: 2024-06-17)
🔗 代码/项目: GITHUB
💡 一句话要点
Ovis:结构化嵌入对齐的多模态大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉嵌入 结构化嵌入 嵌入对齐 视觉问答
📋 核心要点
- 现有MLLM的文本和视觉嵌入方式不一致,文本使用结构化嵌入,视觉使用连续嵌入,导致融合困难。
- Ovis通过引入可学习的视觉嵌入表,将视觉嵌入也转换为结构化形式,从而对齐两种模态的嵌入。
- 实验表明,Ovis在多个多模态基准测试中超越了同等规模的开源模型,甚至超过了Qwen-VL-Plus。
📝 摘要(中文)
当前的多模态大语言模型(MLLM)通常通过连接器(如MLP)将预训练的LLM与另一个预训练的视觉Transformer集成,从而赋予LLM视觉能力。然而,MLLM中两种嵌入策略之间的不对齐——基于嵌入查找表的结构化文本嵌入和由视觉编码器直接生成的连续嵌入——给视觉和文本信息的更无缝融合带来了挑战。我们提出了Ovis,一种新颖的MLLM架构,旨在结构化地对齐视觉和文本嵌入。Ovis将一个额外的可学习视觉嵌入表集成到视觉编码器的过程中。为了捕获丰富的视觉语义,每个图像块多次索引视觉嵌入表,从而产生最终的视觉嵌入,它是索引嵌入的概率组合。这种结构化方法模仿了用于生成文本嵌入的方法。在各种多模态基准上的经验评估表明,Ovis优于类似参数规模的开源MLLM,甚至在整体上超过了专有模型Qwen-VL-Plus。这些结果突出了Ovis的结构化视觉表示在推进MLLM架构设计和促进更有效的多模态学习方面的潜力。
🔬 方法详解
问题定义:现有MLLM模型在融合视觉和文本信息时面临挑战,主要原因是视觉和文本嵌入方式的不一致。文本嵌入通常是结构化的,基于嵌入查找表,而视觉嵌入是由视觉编码器直接生成的连续向量。这种差异导致两种模态的信息难以有效融合,限制了MLLM的性能。
核心思路:Ovis的核心思路是通过结构化视觉嵌入来对齐视觉和文本嵌入。具体来说,Ovis在视觉编码器中引入一个可学习的视觉嵌入表,使得视觉特征能够像文本一样,通过索引嵌入表来获得结构化的表示。这样,视觉和文本信息都以结构化的形式存在,更容易进行融合。
技术框架:Ovis的整体架构包括一个预训练的LLM、一个视觉编码器和一个连接器。视觉编码器是经过修改的,包含一个可学习的视觉嵌入表。图像首先被分割成patch,然后每个patch多次索引视觉嵌入表,得到多个视觉嵌入。这些嵌入通过概率组合的方式融合,得到最终的视觉表示。连接器负责将视觉表示传递给LLM进行后续处理。
关键创新:Ovis最重要的技术创新在于引入了结构化的视觉嵌入。与传统的连续视觉嵌入相比,结构化嵌入能够更好地对齐文本嵌入,从而促进更有效的多模态融合。此外,通过多次索引和概率组合,Ovis能够捕获更丰富的视觉语义。
关键设计:Ovis的关键设计包括视觉嵌入表的大小、索引次数和概率组合的方式。具体来说,视觉嵌入表的大小需要根据数据集和模型规模进行调整。索引次数决定了每个patch能够捕获的视觉语义的丰富程度。概率组合的方式可以使用softmax函数或其他概率分布函数。这些参数需要通过实验进行优化。
🖼️ 关键图片
📊 实验亮点
Ovis在多个多模态基准测试中取得了显著的性能提升。例如,在某些数据集上,Ovis超越了同等规模的开源MLLM,并且在整体性能上超过了专有模型Qwen-VL-Plus。这些结果表明,Ovis的结构化视觉表示方法是有效的,并且具有很大的潜力。
🎯 应用场景
Ovis架构的潜在应用领域包括图像描述、视觉问答、多模态对话等。通过更有效地融合视觉和文本信息,Ovis可以提升这些任务的性能,并为开发更智能的多模态应用提供基础。此外,Ovis的结构化嵌入对齐方法也可以应用于其他多模态学习任务,例如视频理解、语音识别等。
📄 摘要(原文)
Current Multimodal Large Language Models (MLLMs) typically integrate a pre-trained LLM with another pre-trained vision transformer through a connector, such as an MLP, endowing the LLM with visual capabilities. However, the misalignment between two embedding strategies in MLLMs -- the structural textual embeddings based on an embedding look-up table and the continuous embeddings generated directly by the vision encoder -- makes challenges for a more seamless fusion of visual and textual information. We propose Ovis, a novel MLLM architecture designed to structurally align visual and textual embeddings. Ovis integrates an additional learnable visual embedding table into the visual encoder's process. To capture rich visual semantics, each image patch indexes the visual embedding table multiple times, resulting in a final visual embedding that is a probabilistic combination of the indexed embeddings. This structural approach mirrors the method used for generating textual embeddings. Empirical evaluations on various multimodal benchmarks show that Ovis outperforms open-source MLLMs of similar parameter scales and even surpasses the proprietary model Qwen-VL-Plus overall. These results highlight the potential of Ovis' structured visual representation for advancing MLLM architectural design and promoting more effective multimodal learning. Code, datasets, and models are available at https://github.com/AIDC-AI/Ovis.