SOLO: A Single Transformer for Scalable Vision-Language Modeling
作者: Yangyi Chen, Xingyao Wang, Hao Peng, Heng Ji
分类: cs.CV, cs.CL, cs.LG
发布日期: 2024-07-08 (更新: 2024-12-13)
备注: Accepted to TMLR
💡 一句话要点
提出SOLO:一种用于可扩展视觉-语言建模的单Transformer架构。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 单Transformer架构 可扩展性 开源训练配方 视觉推理
📋 核心要点
- 现有LVLMs采用异构架构,视觉能力受限于较小的预训练视觉编码器,且训练流程复杂。
- SOLO提出一种单Transformer架构,旨在解决LVLMs的可扩展性问题,并提供开源训练配方。
- 实验结果表明,SOLO在视觉数学推理方面表现出色,性能与LLaVA-v1.5-7B相当。
📝 摘要(中文)
本文提出SOLO,一种用于可扩展视觉-语言建模的单Transformer架构。目前的大型视觉-语言模型(LVLMs),如LLaVA,大多采用异构架构,将预训练的视觉编码器与大型语言模型(LLMs)连接起来,以促进视觉识别和复杂推理。尽管通过相对轻量级的训练取得了显著的性能,但我们发现了四个主要的可扩展性限制:(1)视觉能力受到预训练视觉编码器的限制,其规模通常比LLMs小一个数量级。(2)异构架构使得使用已建立的硬件和软件基础设施变得复杂。(3)对此类架构的缩放规律的研究必须考虑三个独立的组件——视觉编码器、连接器和LLMs,这使得分析变得复杂。(4)使用现有的视觉编码器通常需要遵循预定义的图像输入预处理规范,例如,通过将输入重塑为固定分辨率的方形图像,这给处理和训练高分辨率图像或具有不寻常宽高比的图像带来了困难。像SOLO这样统一的单Transformer架构有效地解决了LVLMs中的这些可扩展性问题;然而,它在现代背景下的有限采用可能源于缺乏可靠的训练配方,以平衡两种模态并确保十亿级模型的稳定训练。在本文中,我们介绍了第一个开源训练配方,用于开发SOLO,一个使用适度学术资源的开源7B LVLM。该训练配方包括从LLMs初始化,在ImageNet和网络规模数据上进行顺序预训练,以及在我们策划的高质量数据集上进行指令微调。在广泛的评估中,SOLO展示了与LLaVA-v1.5-7B相当的性能,尤其是在视觉数学推理方面表现出色。
🔬 方法详解
问题定义:现有大型视觉-语言模型(LVLMs)通常采用异构架构,依赖于预训练的视觉编码器和大型语言模型(LLMs)的组合。这种架构存在视觉能力受限、硬件和软件基础设施使用复杂、缩放规律分析困难以及对输入图像预处理有严格要求等问题。这些限制阻碍了LVLMs在处理高分辨率图像和不规则宽高比图像时的性能和效率。
核心思路:SOLO的核心思路是采用单一的Transformer架构来统一视觉和语言模态的处理。通过消除异构架构中的视觉编码器和连接器,SOLO简化了模型结构,降低了训练和部署的复杂性。这种设计使得模型能够更有效地利用计算资源,并更容易地扩展到更大的规模。
技术框架:SOLO的整体框架包括三个主要阶段:初始化、预训练和指令微调。首先,模型从一个预训练的LLM初始化。然后,在ImageNet和网络规模的数据集上进行顺序预训练,以增强模型的视觉理解能力。最后,使用精心策划的高质量数据集进行指令微调,以提高模型在特定任务上的性能。
关键创新:SOLO的关键创新在于其单Transformer架构和开源训练配方。单Transformer架构消除了对预训练视觉编码器的依赖,简化了模型结构,并提高了可扩展性。开源训练配方为研究人员提供了一个可靠的起点,可以更容易地开发和训练自己的SOLO模型。
关键设计:SOLO的训练配方包括以下关键设计:从LLMs初始化模型参数,使用ImageNet和网络规模数据进行顺序预训练,以及使用高质量数据集进行指令微调。具体的参数设置和损失函数细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
SOLO在广泛的评估中表现出与LLaVA-v1.5-7B相当的性能,尤其是在视觉数学推理方面表现出色。这表明SOLO的单Transformer架构能够有效地融合视觉和语言信息,并实现与现有异构模型相媲美的性能。
🎯 应用场景
SOLO具有广泛的应用前景,包括图像描述、视觉问答、视觉推理和机器人控制等领域。其单Transformer架构和开源训练配方使得研究人员和开发者能够更容易地构建和部署高性能的视觉-语言模型,从而推动人工智能技术在各个行业的应用。
📄 摘要(原文)
We present SOLO, a single transformer for Scalable visiOn-Language mOdeling. Current large vision-language models (LVLMs) such as LLaVA mostly employ heterogeneous architectures that connect pre-trained visual encoders with large language models (LLMs) to facilitate visual recognition and complex reasoning. Although achieving remarkable performance with relatively lightweight training, we identify four primary scalability limitations: (1) The visual capacity is constrained by pre-trained visual encoders, which are typically an order of magnitude smaller than LLMs. (2) The heterogeneous architecture complicates the use of established hardware and software infrastructure. (3) Study of scaling laws on such architecture must consider three separate components - visual encoder, connector, and LLMs, which complicates the analysis. (4) The use of existing visual encoders typically requires following a pre-defined specification of image inputs pre-processing, for example, by reshaping inputs to fixed-resolution square images, which presents difficulties in processing and training on high-resolution images or those with unusual aspect ratio. A unified single Transformer architecture, like SOLO, effectively addresses these scalability concerns in LVLMs; however, its limited adoption in the modern context likely stems from the absence of reliable training recipes that balance both modalities and ensure stable training for billion-scale models. In this paper, we introduce the first open-source training recipe for developing SOLO, an open-source 7B LVLM using moderate academic resources. The training recipe involves initializing from LLMs, sequential pre-training on ImageNet and web-scale data, and instruction fine-tuning on our curated high-quality datasets. On extensive evaluation, SOLO demonstrates performance comparable to LLaVA-v1.5-7B, particularly excelling in visual mathematical reasoning.