OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
作者: Size Wu, Zhonghua Wu, Zerui Gong, Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy
分类: cs.CV
发布日期: 2025-05-29 (更新: 2025-06-02)
🔗 代码/项目: GITHUB
💡 一句话要点
OpenUni:一个用于统一多模态理解与生成任务的简单基线模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 文本到图像生成 扩散模型 大型语言模型 统一模型 可学习查询 轻量级模型
📋 核心要点
- 现有方法在多模态理解和生成任务中,训练复杂度和资源开销巨大,难以高效利用现有大型模型。
- OpenUni通过可学习查询和轻量级Transformer连接器,桥接预训练多模态LLM和扩散模型,实现高效训练。
- 实验表明,OpenUni在图像生成质量和基准测试性能上表现出色,同时仅需少量激活参数。
📝 摘要(中文)
本报告介绍了OpenUni,一个简单、轻量级且完全开源的基线模型,用于统一多模态理解和生成。受到统一模型学习中常用方法的启发,我们采用了一种高效的训练策略,通过一组可学习的查询和一个轻量级的基于Transformer的连接器,将现成的多模态大型语言模型(LLM)和扩散模型桥接起来,从而最大限度地降低了训练的复杂性和开销。通过极简的架构选择,我们证明OpenUni可以:1)生成高质量且与指令对齐的图像,以及2)在GenEval、DPG-Bench和WISE等标准基准测试中取得出色的性能,仅激活了11亿和31亿参数。为了支持开放研究和社区发展,我们发布了所有模型权重、训练代码以及我们精心策划的训练数据集(包括2300万图像-文本对)。
🔬 方法详解
问题定义:现有方法在统一多模态理解和生成任务中,通常需要从头训练大型模型,计算资源消耗巨大,训练时间长,难以充分利用已有的预训练多模态大型语言模型(LLM)和扩散模型。因此,如何高效地利用这些预训练模型,降低训练成本,同时保持甚至提升性能,是一个重要的挑战。
核心思路:OpenUni的核心思路是利用可学习的查询(learnable queries)和一个轻量级的Transformer连接器,将预训练的多模态LLM和扩散模型连接起来。这样,只需要训练少量的参数,就可以将LLM的理解能力和扩散模型的生成能力结合起来,从而实现高效的多模态理解和生成。
技术框架:OpenUni的整体架构包含三个主要模块:预训练的多模态LLM、可学习查询和Transformer连接器、以及预训练的扩散模型。首先,输入文本通过LLM进行编码,生成文本特征。然后,可学习查询与文本特征进行交互,提取关键信息。Transformer连接器将查询结果映射到扩散模型的潜在空间,指导图像生成。
关键创新:OpenUni的关键创新在于其轻量级的连接方式,通过可学习查询和Transformer连接器,避免了对整个LLM和扩散模型进行微调,大大降低了训练成本。此外,这种连接方式使得OpenUni可以灵活地利用不同的预训练模型,具有很强的可扩展性。
关键设计:可学习查询的数量是一个重要的超参数,需要根据任务的复杂程度进行调整。Transformer连接器的层数和隐藏层大小也会影响模型的性能。损失函数主要包括图像生成损失和指令对齐损失,用于保证生成图像的质量和与指令的一致性。训练数据集包含2300万图像-文本对,用于训练可学习查询和Transformer连接器。
🖼️ 关键图片
📊 实验亮点
OpenUni在GenEval、DPG-Bench和WISE等标准基准测试中取得了出色的性能,证明了其在多模态理解和生成方面的有效性。值得注意的是,OpenUni仅激活了11亿和31亿参数,相比于需要训练数百亿甚至数千亿参数的大型模型,其训练成本大大降低,效率显著提升。
🎯 应用场景
OpenUni可应用于多种多模态任务,如文本到图像生成、图像编辑、视觉问答等。其轻量级的特性使其易于部署在资源受限的设备上。未来,OpenUni可以进一步扩展到其他模态,如视频、音频等,实现更广泛的多模态理解和生成应用。
📄 摘要(原文)
In this report, we present OpenUni, a simple, lightweight, and fully open-source baseline for unifying multimodal understanding and generation. Inspired by prevailing practices in unified model learning, we adopt an efficient training strategy that minimizes the training complexity and overhead by bridging the off-the-shelf multimodal large language models (LLMs) and diffusion models through a set of learnable queries and a light-weight transformer-based connector. With a minimalist choice of architecture, we demonstrate that OpenUni can: 1) generate high-quality and instruction-aligned images, and 2) achieve exceptional performance on standard benchmarks such as GenEval, DPG- Bench, and WISE, with only 1.1B and 3.1B activated parameters. To support open research and community advancement, we release all model weights, training code, and our curated training datasets (including 23M image-text pairs) at https://github.com/wusize/OpenUni.