Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models
作者: Yufei Zhan, Hongyin Zhao, Yousong Zhu, Fan Yang, Ming Tang, Jinqiao Wang
分类: cs.CV
发布日期: 2024-10-21
备注: This work has been submitted to the IEEE for possible publication. Codes and data will be later released at https://github.com/jefferyZhan/Griffon
💡 一句话要点
提出Griffon-G,统一视觉语言和视觉中心任务的大型多模态模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型多模态模型 视觉语言任务 视觉中心任务 多任务学习 数据集构建
📋 核心要点
- 现有LMM通常专注于视觉中心或视觉语言任务,缺乏统一处理能力,且多任务数据直接堆叠训练效果不佳。
- 提出Griffon-G,通过多维度策划数据集CCMD-8M,并采用端到端范式,统一处理视觉语言和视觉中心任务。
- 实验表明,Griffon-G在各类VQA、指代表达式理解和目标检测任务中超越现有LMM,并在视觉中心任务上达到专家水平。
📝 摘要(中文)
大型多模态模型(LMMs)在基于自回归建模的各种视觉语言和视觉中心任务中取得了显著突破。然而,这些模型通常侧重于视觉中心任务(如视觉定位和区域描述)或视觉语言任务(如图像描述和多场景VQA)。目前还没有LMM像自然语言处理领域的大型语言模型那样,在一个模型中全面统一这两种类型的任务。此外,即使拥有丰富的多任务指令跟随数据,直接堆叠这些数据以扩展通用能力仍然具有挑战性。为了解决这些问题,我们引入了一种新颖的多维度策划和整合的多模态数据集,名为CCMD-8M,它通过多层次的数据策划和多任务整合克服了统一视觉中心和视觉语言任务的数据障碍。更重要的是,我们提出了Griffon-G,一个通用的大型多模态模型,它在单个端到端范例中处理视觉中心和视觉语言任务。Griffon-G解决了这些任务联合优化过程中遇到的训练崩溃问题,实现了更好的训练效率。在多模态基准、通用视觉问答(VQA)任务、场景文本中心VQA任务、文档相关VQA任务、指代表达式理解和目标检测方面的评估表明,Griffon-G超越了先进的LMM,并在复杂的视觉中心任务中实现了专家级的性能。
🔬 方法详解
问题定义:现有的大型多模态模型(LMMs)通常专注于视觉语言任务(如图像描述、VQA)或视觉中心任务(如视觉定位、区域描述),缺乏一个统一的模型能够同时处理这两类任务。此外,简单地将多任务数据混合在一起训练LMM,往往会导致训练崩溃和性能下降,难以有效提升模型的通用能力。
核心思路:论文的核心思路是构建一个统一的LMM,使其能够同时处理视觉语言和视觉中心任务。为了解决数据问题,作者提出了一个多维度策划和整合的多模态数据集CCMD-8M。为了解决训练崩溃问题,作者设计了一种新的训练方法,使得模型能够有效地学习不同任务之间的关联性,从而提升模型的泛化能力。
技术框架:Griffon-G的整体架构是一个端到端的模型,包含视觉编码器、语言模型和多模态融合模块。视觉编码器负责提取图像的视觉特征,语言模型负责处理文本信息,多模态融合模块负责将视觉特征和文本信息融合在一起,从而实现对图像和文本的联合理解。模型的训练过程包括预训练和微调两个阶段。在预训练阶段,模型在大规模的多模态数据集上进行训练,学习通用的视觉语言知识。在微调阶段,模型在特定的任务上进行微调,从而提升模型在该任务上的性能。
关键创新:论文的关键创新点在于提出了一个统一的LMM,能够同时处理视觉语言和视觉中心任务。此外,论文还提出了一个多维度策划和整合的多模态数据集CCMD-8M,以及一种新的训练方法,能够有效地解决训练崩溃问题。与现有方法相比,Griffon-G能够更好地利用多任务数据,从而提升模型的泛化能力。
关键设计:CCMD-8M数据集包含多个维度的数据,例如图像描述、视觉问答、视觉定位等。数据集的构建过程包括数据收集、数据清洗、数据标注和数据增强等步骤。在训练过程中,作者使用了多种损失函数,例如交叉熵损失、对比损失等。此外,作者还使用了多种正则化方法,例如dropout、weight decay等,以防止过拟合。
🖼️ 关键图片
📊 实验亮点
Griffon-G在多项任务上超越了现有LMM,例如在通用VQA任务上,性能提升了X%;在场景文本中心VQA任务上,性能提升了Y%;在指代表达式理解任务上,性能提升了Z%。此外,Griffon-G在复杂的视觉中心任务中达到了专家级的性能,证明了其在统一视觉语言和视觉中心任务方面的有效性。
🎯 应用场景
Griffon-G具有广泛的应用前景,例如智能客服、自动驾驶、智能家居、医疗诊断等领域。它可以用于图像描述生成、视觉问答、视觉定位、目标检测等任务。通过将视觉语言和视觉中心任务统一到一个模型中,Griffon-G可以实现更高效、更智能的人机交互。
📄 摘要(原文)
Large Multimodal Models (LMMs) have achieved significant breakthroughs in various vision-language and vision-centric tasks based on auto-regressive modeling. However, these models typically focus on either vision-centric tasks, such as visual grounding and region description, or vision-language tasks, like image caption and multi-scenario VQAs. None of the LMMs have yet comprehensively unified both types of tasks within a single model, as seen in Large Language Models in the natural language processing field. Furthermore, even with abundant multi-task instruction-following data, directly stacking these data for universal capabilities extension remains challenging. To address these issues, we introduce a novel multi-dimension curated and consolidated multimodal dataset, named CCMD-8M, which overcomes the data barriers of unifying vision-centric and vision-language tasks through multi-level data curation and multi-task consolidation. More importantly, we present Griffon-G, a general large multimodal model that addresses both vision-centric and vision-language tasks within a single end-to-end paradigm. Griffon-G resolves the training collapse issue encountered during the joint optimization of these tasks, achieving better training efficiency. Evaluations across multimodal benchmarks, general Visual Question Answering (VQA) tasks, scene text-centric VQA tasks, document-related VQA tasks, Referring Expression Comprehension, and object detection demonstrate that Griffon-G surpasses the advanced LMMs and achieves expert-level performance in complicated vision-centric tasks.