OneLLM: One Framework to Align All Modalities with Language
作者: Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue
分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.MM
发布日期: 2023-12-06 (更新: 2025-01-09)
备注: Accepted by CVPR 2024. Code: https://github.com/csuhan/OneLLM
🔗 代码/项目: GITHUB
💡 一句话要点
OneLLM:提出统一框架对齐多模态数据与语言,实现通用多模态理解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 统一框架 模态对齐 通用投影模块
📋 核心要点
- 现有MLLM依赖于模态特定的编码器,架构各异且仅限于常见模态,限制了模型通用性。
- OneLLM提出统一的多模态编码器和渐进式多模态对齐流程,实现八种模态与语言的对齐。
- OneLLM在25个基准测试中表现出色,涵盖多模态字幕、问答和推理等任务,验证了其有效性。
📝 摘要(中文)
多模态大型语言模型(MLLM)因其强大的多模态理解能力而备受关注。然而,现有的工作严重依赖于模态特定的编码器,这些编码器通常在架构上有所不同,并且仅限于常见的模态。本文提出了OneLLM,一个使用统一框架将八种模态与语言对齐的MLLM。我们通过统一的多模态编码器和渐进式多模态对齐流程来实现这一点。具体来说,我们首先训练一个图像投影模块,将视觉编码器与LLM连接起来。然后,我们通过混合多个图像投影模块和动态路由来构建一个通用投影模块(UPM)。最后,我们使用UPM逐步将更多模态与LLM对齐。为了充分利用OneLLM在遵循指令方面的潜力,我们还策划了一个全面的多模态指令数据集,包括来自图像、音频、视频、点云、深度/法线图、IMU和fMRI脑活动的200万个项目。OneLLM在25个不同的基准上进行了评估,涵盖了多模态字幕、问答和推理等任务,并取得了优异的性能。
🔬 方法详解
问题定义:现有的大型多模态语言模型(MLLM)通常依赖于针对特定模态设计的编码器,这些编码器在架构上差异很大,并且通常只支持有限的几种常见模态(如图像和文本)。这导致模型难以扩展到更多模态,并且不同模态之间的信息难以有效融合。因此,如何设计一个通用的框架,能够支持多种模态的输入,并实现它们与语言的有效对齐,是一个重要的挑战。
核心思路:OneLLM的核心思路是使用一个统一的多模态编码器和一个渐进式的多模态对齐流程。通过统一的编码器,可以避免针对不同模态设计不同的架构,从而简化模型的设计和训练。渐进式的对齐流程则允许模型逐步学习不同模态与语言之间的关系,从而提高对齐的效率和效果。具体来说,论文首先训练一个图像投影模块,将视觉编码器与LLM连接起来,然后构建一个通用投影模块(UPM),通过混合多个图像投影模块和动态路由,实现对多种模态的支持。
技术框架:OneLLM的整体框架包括以下几个主要模块:1) 模态特定的编码器:用于提取不同模态的特征表示。2) 图像投影模块:用于将视觉特征投影到LLM的嵌入空间。3) 通用投影模块(UPM):用于将其他模态的特征投影到LLM的嵌入空间,并实现多模态信息的融合。4) 大型语言模型(LLM):用于生成文本输出。整个流程是,首先使用模态特定的编码器提取不同模态的特征,然后使用图像投影模块或UPM将这些特征投影到LLM的嵌入空间,最后使用LLM生成文本输出。
关键创新:OneLLM的关键创新在于提出了一个统一的多模态编码器和一个渐进式的多模态对齐流程。与现有方法相比,OneLLM不需要针对不同模态设计不同的编码器,从而简化了模型的设计和训练。此外,渐进式的对齐流程允许模型逐步学习不同模态与语言之间的关系,从而提高了对齐的效率和效果。通用投影模块(UPM)的设计也是一个重要的创新,它通过混合多个图像投影模块和动态路由,实现了对多种模态的支持。
关键设计:通用投影模块(UPM)的关键设计在于使用动态路由机制,根据输入模态的不同,选择不同的图像投影模块进行特征投影。这种设计允许UPM自适应地处理不同模态的特征,从而提高了模型的泛化能力。此外,论文还设计了一个全面的多模态指令数据集,用于训练OneLLM遵循指令的能力。该数据集包含了来自图像、音频、视频、点云、深度/法线图、IMU和fMRI脑活动的200万个项目。
📊 实验亮点
OneLLM在25个不同的基准上进行了评估,涵盖了多模态字幕、问答和推理等任务,并取得了优异的性能。具体来说,OneLLM在多个基准上超过了现有的最先进模型,证明了其有效性。此外,OneLLM还展示了良好的泛化能力,可以处理多种不同的模态输入。
🎯 应用场景
OneLLM具有广泛的应用前景,例如多模态智能助手、跨模态信息检索、医疗影像诊断、自动驾驶等。该研究的实际价值在于提供了一个通用的多模态理解框架,可以支持多种模态的输入,并实现它们与语言的有效对齐。未来,OneLLM可以进一步扩展到更多模态,并应用于更复杂的任务中。
📄 摘要(原文)
Multimodal large language models (MLLMs) have gained significant attention due to their strong multimodal understanding capability. However, existing works rely heavily on modality-specific encoders, which usually differ in architecture and are limited to common modalities. In this paper, we present OneLLM, an MLLM that aligns eight modalities to language using a unified framework. We achieve this through a unified multimodal encoder and a progressive multimodal alignment pipeline. In detail, we first train an image projection module to connect a vision encoder with LLM. Then, we build a universal projection module (UPM) by mixing multiple image projection modules and dynamic routing. Finally, we progressively align more modalities to LLM with the UPM. To fully leverage the potential of OneLLM in following instructions, we also curated a comprehensive multimodal instruction dataset, including 2M items from image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks, encompassing tasks such as multimodal captioning, question answering and reasoning, where it delivers excellent performance. Code, data, model and online demo are available at https://github.com/csuhan/OneLLM