DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
作者: Zhiyu Wu, Xiaokang Chen, Zizheng Pan, Xingchao Liu, Wen Liu, Damai Dai, Huazuo Gao, Yiyang Ma, Chengyue Wu, Bingxuan Wang, Zhenda Xie, Yu Wu, Kai Hu, Jiawei Wang, Yaofeng Sun, Yukun Li, Yishi Piao, Kang Guan, Aixin Liu, Xin Xie, Yuxiang You, Kai Dong, Xingkai Yu, Haowei Zhang, Liang Zhao, Yisong Wang, Chong Ruan
分类: cs.CV, cs.AI, cs.CL
发布日期: 2024-12-13
🔗 代码/项目: GITHUB
💡 一句话要点
DeepSeek-VL2:面向高级多模态理解的混合专家视觉语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 混合专家模型 高分辨率图像处理 多头潜在注意力 动态平铺视觉编码
📋 核心要点
- 现有视觉语言模型难以兼顾高分辨率图像处理和高效推理,限制了其在复杂场景下的应用。
- DeepSeek-VL2通过动态平铺视觉编码和多头潜在注意力机制,实现了高分辨率图像处理和高效推理。
- 实验表明,DeepSeek-VL2在视觉问答、OCR等任务上取得了优异的性能,参数量与现有模型相比更少。
📝 摘要(中文)
本文提出了DeepSeek-VL2,这是一个先进的大型混合专家(MoE)视觉语言模型系列,通过两个关键升级显著改进了其前身DeepSeek-VL。在视觉组件方面,我们采用了一种动态平铺视觉编码策略,旨在处理具有不同宽高比的高分辨率图像。在语言组件方面,我们利用具有多头潜在注意力机制的DeepSeekMoE模型,该机制将键值缓存压缩为潜在向量,从而实现高效推理和高吞吐量。DeepSeek-VL2在一个改进的视觉语言数据集上进行训练,在各种任务中表现出卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉定位。我们的模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别具有10亿、28亿和45亿个激活参数。与现有的开源密集和基于MoE的模型相比,DeepSeek-VL2以相似或更少的激活参数实现了有竞争力的或最先进的性能。代码和预训练模型可在https://github.com/deepseek-ai/DeepSeek-VL2公开访问。
🔬 方法详解
问题定义:现有视觉语言模型在处理高分辨率图像时,计算复杂度高,难以进行高效推理。同时,对于不同宽高比的图像,缺乏灵活的编码策略。这限制了模型在文档理解、图表分析等需要处理复杂视觉信息的任务中的应用。
核心思路:DeepSeek-VL2的核心思路是解耦视觉编码和语言建模,分别针对高分辨率图像处理和高效推理进行优化。通过动态平铺视觉编码,自适应地处理不同宽高比的图像,降低计算量。利用多头潜在注意力机制,压缩键值缓存,减少推理过程中的内存占用和计算开销。
技术框架:DeepSeek-VL2的整体架构是一个基于Transformer的视觉语言模型。它包含视觉编码器和语言解码器两个主要模块。视觉编码器采用动态平铺策略,将高分辨率图像分割成多个tile,并提取每个tile的特征。语言解码器基于DeepSeekMoE模型,利用多头潜在注意力机制进行高效的语言建模。视觉特征和语言特征通过跨模态注意力机制进行融合。
关键创新:DeepSeek-VL2的关键创新在于动态平铺视觉编码和多头潜在注意力机制。动态平铺视觉编码能够根据图像的宽高比和内容自适应地调整tile的大小,从而在保证图像质量的同时降低计算量。多头潜在注意力机制通过将键值缓存压缩为潜在向量,显著减少了推理过程中的内存占用和计算开销。
关键设计:动态平铺视觉编码的具体实现包括tile大小的选择策略和tile特征的融合方式。多头潜在注意力机制的关键在于潜在向量的维度和注意力计算方式。此外,损失函数的设计也至关重要,需要平衡不同任务之间的性能。
🖼️ 关键图片
📊 实验亮点
DeepSeek-VL2在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等任务上取得了显著的性能提升。例如,在某些视觉问答基准测试中,DeepSeek-VL2的性能超过了现有开源模型,同时使用的激活参数更少。与同等规模的模型相比,DeepSeek-VL2在处理高分辨率图像时表现出更高的效率。
🎯 应用场景
DeepSeek-VL2在多个领域具有广泛的应用前景,包括智能文档处理、视觉问答系统、图像搜索、机器人导航等。它可以用于自动提取文档中的信息、回答用户提出的视觉相关问题、根据图像内容进行搜索、以及帮助机器人在复杂环境中进行导航。该研究的实际价值在于提升了视觉语言模型的性能和效率,使其能够更好地应用于实际场景。未来,DeepSeek-VL2有望成为多模态人工智能的重要组成部分。
📄 摘要(原文)
We present DeepSeek-VL2, an advanced series of large Mixture-of-Experts (MoE) Vision-Language Models that significantly improves upon its predecessor, DeepSeek-VL, through two key major upgrades. For the vision component, we incorporate a dynamic tiling vision encoding strategy designed for processing high-resolution images with different aspect ratios. For the language component, we leverage DeepSeekMoE models with the Multi-head Latent Attention mechanism, which compresses Key-Value cache into latent vectors, to enable efficient inference and high throughput. Trained on an improved vision-language dataset, DeepSeek-VL2 demonstrates superior capabilities across various tasks, including but not limited to visual question answering, optical character recognition, document/table/chart understanding, and visual grounding. Our model series is composed of three variants: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small and DeepSeek-VL2, with 1.0B, 2.8B and 4.5B activated parameters respectively. DeepSeek-VL2 achieves competitive or state-of-the-art performance with similar or fewer activated parameters compared to existing open-source dense and MoE-based models. Codes and pre-trained models are publicly accessible at https://github.com/deepseek-ai/DeepSeek-VL2.