NVLM: Open Frontier-Class Multimodal LLMs

作者: Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuolin Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

分类: cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

发布日期: 2024-09-17 (更新: 2024-10-22)

备注: Fixed the typos. For more information, please visit our project page at: https://research.nvidia.com/labs/adlr/NVLM-1

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

NVLM 1.0：媲美GPT-4o的前沿多模态大语言模型，提升文本性能并开源

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉语言 高分辨率图像处理 模型架构设计 数据集质量 OCR 1-D tile-tagging

📋 核心要点

现有方法在多模态大语言模型的设计上存在效率和推理能力之间的权衡，需要更优的架构。
NVLM 1.0通过比较decoder-only和cross-attention模型，提出了一种新架构，提升训练效率和多模态推理能力。
实验表明，NVLM 1.0在视觉-语言任务上达到SOTA，纯文本性能也得到提升，且数据集质量比规模更重要。

📝 摘要（中文）

本文介绍了NVLM 1.0，一系列前沿的多模态大语言模型（LLM），在视觉-语言任务上取得了最先进的结果，可与领先的专有模型（如GPT-4o）和开源模型（如Llama 3-V 405B和InternVL 2）相媲美。值得注意的是，NVLM 1.0在多模态训练后，其纯文本性能优于其LLM骨干网络。在模型设计方面，我们对仅解码器的多模态LLM（如LLaVA）和基于交叉注意力的模型（如Flamingo）进行了全面比较。基于两种方法的优缺点，我们提出了一种新颖的架构，提高了训练效率和多模态推理能力。此外，我们为基于tile的动态高分辨率图像引入了1-D tile-tagging设计，显著提高了多模态推理和OCR相关任务的性能。关于训练数据，我们精心策划并提供了关于多模态预训练和监督微调数据集的详细信息。我们的研究结果表明，数据集质量和任务多样性比规模更重要，即使在所有架构的预训练阶段也是如此。值得注意的是，我们为NVLM-1.0模型开发了生产级多模态，使其在视觉-语言任务中表现出色，同时保持甚至提高了纯文本性能。为此，我们将高质量的纯文本数据集集成到多模态训练中，同时加入了大量多模态数学和推理数据，从而提高了跨模态的数学和编码能力。为了推进该领域的研究，我们发布了模型权重，并将很快开源训练代码。

🔬 方法详解

问题定义：现有的大型多模态语言模型在处理视觉和语言信息时，通常面临训练效率和多模态推理能力之间的权衡。例如，decoder-only模型（如LLaVA）训练效率高，但多模态推理能力可能不足；而基于交叉注意力的模型（如Flamingo）推理能力强，但训练成本较高。此外，如何有效处理高分辨率图像，并从中提取关键信息，也是一个挑战。

核心思路：NVLM 1.0的核心思路是结合decoder-only和cross-attention模型的优点，设计一种新的架构，既能保证训练效率，又能提升多模态推理能力。此外，通过引入1-D tile-tagging设计，更好地处理高分辨率图像，提升OCR等任务的性能。同时，强调高质量和多样化的数据集在多模态训练中的重要性。

技术框架：NVLM 1.0的整体架构未知，但可以推断其包含以下主要模块/阶段：1) 视觉编码器：用于提取图像特征；2) 多模态融合模块：将视觉特征和文本信息融合；3) 大语言模型（LLM）骨干网络：用于生成文本；4) 1-D tile-tagging模块：用于处理高分辨率图像。训练过程包括多模态预训练和监督微调两个阶段。

关键创新：NVLM 1.0的关键创新点在于：1) 提出了一种新的多模态LLM架构，该架构在训练效率和多模态推理能力之间取得了更好的平衡；2) 引入了1-D tile-tagging设计，显著提高了高分辨率图像处理能力，尤其是在OCR相关任务中；3) 强调了高质量和多样化的数据集在多模态训练中的重要性，即使在预训练阶段也是如此。

关键设计：关于关键设计细节，论文中提到：1) 对decoder-only和cross-attention模型进行了全面比较，并基于它们的优缺点设计了新的架构，但具体架构细节未知；2) 引入了1-D tile-tagging设计，用于处理tile-based的动态高分辨率图像，但具体实现细节未知；3) 精心策划了多模态预训练和监督微调数据集，并强调了数据集质量和任务多样性的重要性，但具体的数据集构成和比例未知。

🖼️ 关键图片

📊 实验亮点

NVLM 1.0在视觉-语言任务上取得了state-of-the-art的结果，与GPT-4o等领先的专有模型以及Llama 3-V 405B和InternVL 2等开源模型相媲美。值得注意的是，NVLM 1.0在多模态训练后，其纯文本性能优于其LLM骨干网络。1-D tile-tagging设计显著提高了多模态推理和OCR相关任务的性能。数据集质量和任务多样性比规模更重要。

🎯 应用场景

NVLM 1.0具有广泛的应用前景，包括智能客服、图像描述生成、视觉问答、文档理解、自动驾驶等领域。其强大的多模态推理能力和高分辨率图像处理能力，使其能够更好地理解和处理复杂的现实世界场景，为各行业提供更智能、更高效的解决方案。开源的模型权重和即将开源的训练代码，也将促进多模态大语言模型领域的研究和发展。

📄 摘要（原文）

We introduce NVLM 1.0, a family of frontier-class multimodal large language models (LLMs) that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved text-only performance over its LLM backbone after multimodal training. In terms of model design, we perform a comprehensive comparison between decoder-only multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g., Flamingo). Based on the strengths and weaknesses of both approaches, we propose a novel architecture that enhances both training efficiency and multimodal reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for tile-based dynamic high-resolution images, which significantly boosts performance on multimodal reasoning and OCR-related tasks. Regarding training data, we meticulously curate and provide detailed information on our multimodal pretraining and supervised fine-tuning datasets. Our findings indicate that dataset quality and task diversity are more important than scale, even during the pretraining phase, across all architectures. Notably, we develop production-grade multimodality for the NVLM-1.0 models, enabling them to excel in vision-language tasks while maintaining and even improving text-only performance compared to their LLM backbones. To achieve this, we craft and integrate a high-quality text-only dataset into multimodal training, alongside a substantial amount of multimodal math and reasoning data, leading to enhanced math and coding capabilities across modalities. To advance research in the field, we release the model weights at https://huggingface.co/nvidia/NVLM-D-72B and will open-source the training code for the community soon.

NVLM: Open Frontier-Class Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理