Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence

📄 arXiv: 2502.09927v1 📥 PDF

作者: Granite Vision Team, Leonid Karlinsky, Assaf Arbelle, Abraham Daniels, Ahmed Nassar, Amit Alfassi, Bo Wu, Eli Schwartz, Dhiraj Joshi, Jovana Kondic, Nimrod Shabtay, Pengyuan Li, Roei Herzig, Shafiq Abedin, Shaked Perek, Sivan Harary, Udi Barzelay, Adi Raz Goldfarb, Aude Oliva, Ben Wieles, Bishwaranjan Bhattacharjee, Brandon Huang, Christoph Auer, Dan Gutfreund, David Beymer, David Wood, Hilde Kuehne, Jacob Hansen, Joseph Shtok, Ken Wong, Luis Angel Bathen, Mayank Mishra, Maksym Lysak, Michele Dolfi, Mikhail Yurochkin, Nikolaos Livathinos, Nimrod Harel, Ophir Azulai, Oshri Naparstek, Rafael Teixeira de Lima, Rameswar Panda, Sivan Doveh, Shubham Gupta, Subhro Das, Syed Zawad, Yusik Kim, Zexue He, Alexander Brooks, Gabe Goodhart, Anita Govindjee, Derek Leist, Ibrahim Ibrahim, Aya Soffer, David Cox, Kate Soule, Luis Lastras, Nirmit Desai, Shila Ofek-koifman, Sriram Raghavan, Tanveer Syeda-Mahmood, Peter Staar, Tal Drory, Rogerio Feris

分类: cs.CV, cs.AI

发布日期: 2025-02-14

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

Granite Vision:轻量级开源多模态模型,专为企业智能设计

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉文档理解 多模态模型 轻量级模型 企业智能 指令跟随 安全分类 大型语言模型

📋 核心要点

  1. 现有视觉文档理解模型通常体积庞大,难以在资源受限的企业环境中部署和应用。
  2. Granite Vision通过轻量级的架构和专门的训练数据,实现了视觉模态与语言模型的有效对齐。
  3. 该模型在视觉文档理解和LiveXiv基准测试中表现出色,同时提供安全分类机制以识别有害输入。

📝 摘要(中文)

Granite Vision是一个轻量级、具备视觉能力的大型语言模型,专为企业用例设计,尤其擅长视觉文档理解。该模型在一个全面的指令跟随数据集上进行训练,包括文档相关任务(如从表格、图表、示意图、草图和信息图中提取内容)以及通用图像任务。Granite Vision的架构以视觉模态对齐为中心,采用一个decoder-only的20亿参数Granite大型语言模型。此外,我们引入了一种专门的安全分类方法,在测试时利用稀疏的注意力向量来识别潜在的有害输入。尽管架构轻量,Granite Vision在与视觉文档理解相关的标准基准以及LiveXiv基准上取得了优异的成果。LiveXiv基准旨在通过使用不断更新的Arxiv论文语料库来避免测试集污染。我们以Apache-2许可证发布该模型,允许研究和商业用途,同时提供对训练数据和其他相关细节的完全可见性。

🔬 方法详解

问题定义:现有视觉文档理解模型通常参数量巨大,计算成本高昂,难以在企业级应用中部署。此外,模型在处理表格、图表等复杂文档结构时,性能往往不尽如人意。同时,缺乏有效的安全机制来过滤有害输入也是一个潜在的问题。

核心思路:Granite Vision的核心在于构建一个轻量级但功能强大的多模态模型,专注于企业级视觉文档理解任务。通过精心设计的训练数据和模态对齐策略,使模型能够有效地理解和提取文档中的信息。同时,引入安全分类机制,提高模型的安全性。

技术框架:Granite Vision的整体架构基于一个decoder-only的20亿参数Granite大型语言模型。视觉信息通过视觉编码器进行处理,然后与语言模型进行对齐。模型训练采用指令跟随的方式,使其能够根据指令执行各种文档理解任务。此外,模型还包含一个安全分类模块,用于识别潜在的有害输入。

关键创新:Granite Vision的关键创新在于其轻量级的架构和专门针对企业级视觉文档理解任务的训练数据。通过优化模型结构和训练策略,在保证性能的同时,显著降低了计算成本。此外,安全分类模块的引入提高了模型的安全性,使其更适合在企业环境中部署。

关键设计:模型采用decoder-only架构,有利于生成任务。视觉编码器的具体结构未知。训练数据包含大量的文档相关任务,例如表格内容提取、图表理解等。安全分类模块利用稀疏的注意力向量来识别潜在的有害输入,具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Granite Vision在视觉文档理解相关的标准基准以及LiveXiv基准上取得了优异的成果,具体性能数据未知。该模型在保证性能的同时,显著降低了计算成本,使其更适合在资源受限的环境中部署。此外,安全分类模块的引入提高了模型的安全性。

🎯 应用场景

Granite Vision可广泛应用于企业级文档处理场景,例如自动化数据提取、智能文档分析、合同审查、财务报表处理等。该模型能够帮助企业提高工作效率,降低运营成本,并提供更智能的决策支持。未来,该模型有望与企业现有的信息系统集成,实现更全面的智能化。

📄 摘要(原文)

We introduce Granite Vision, a lightweight large language model with vision capabilities, specifically designed to excel in enterprise use cases, particularly in visual document understanding. Our model is trained on a comprehensive instruction-following dataset, including document-related tasks, such as content extraction from tables, charts, diagrams, sketches, and infographics, as well as general image tasks. The architecture of Granite Vision is centered around visual modality alignment with a decoder-only, 2 billion parameter Granite large language model. Additionally, we introduce a dedicated safety classification approach in test-time that leverages a sparse set of attention vectors to identify potential harmful inputs. Despite its lightweight architecture, Granite Vision achieves strong results in standard benchmarks related to visual document understanding, as well as on the LiveXiv benchmark, which is designed to avoid test set contamination by using a constantly updated corpus of recently published Arxiv papers. We are releasing the model under the Apache-2 license, allowing for both research and commercial use, while offering complete visibility into the training data and other relevant details. See https://huggingface.co/ibm-granite/ for model weights.