LightFusion: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

📄 arXiv: 2510.22946v4 📥 PDF

作者: Zeyu Wang, Zilong Chen, Chenhui Gou, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie

分类: cs.CV

发布日期: 2025-10-27 (更新: 2025-11-20)

备注: Preprint. Work in progress


💡 一句话要点

LightFusion:轻量级双重融合框架,用于统一多模态理解与生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 文本到图像生成 图像编辑 轻量级模型 预训练模型

📋 核心要点

  1. 现有统一多模态模型训练成本高昂,需要大量计算资源,限制了其应用和发展。
  2. LightFusion通过双重融合机制,有效融合预训练的生成和理解模型,降低训练成本,同时保持性能。
  3. 实验表明,LightFusion在多个文本到图像生成和图像编辑基准测试中取得了优异的性能,证明了其有效性。

📝 摘要(中文)

统一多模态模型最近在能力和通用性方面表现出显著的提升,但大多数领先的系统仍然是从头开始训练,并且需要大量的计算资源。本文表明,通过策略性地融合公开可用的、专门用于生成或理解的模型,可以更有效地获得有竞争力的性能。我们的关键设计是保留原始模块,同时在网络中穿插多模态自注意力模块。这种双重融合机制(1)有效地实现了丰富的多模态融合,同时在很大程度上保留了基础模型的原始优势,并且(2)促进了来自理解编码器的高级语义表示与来自生成编码器的低级空间信号的协同融合。通过仅使用约350亿个token进行训练,这种方法在多个基准测试中取得了强大的结果:在GenEval上,组合文本到图像生成达到0.91;在DPG-Bench上,复杂文本到图像生成达到82.16;在GEditBench上,图像编辑达到6.06;在ImgEdit-Bench上,图像编辑达到3.77。我们完全发布了整套代码、模型权重和数据集,希望能够支持未来对统一多模态建模的研究。

🔬 方法详解

问题定义:现有统一多模态模型通常需要从头开始训练,计算资源消耗巨大,训练成本高昂。这使得研究人员难以快速迭代和探索新的模型架构,也限制了这些模型在资源受限环境中的应用。因此,如何降低统一多模态模型的训练成本,同时保持其性能,是一个重要的研究问题。

核心思路:LightFusion的核心思路是利用预训练的、专门用于生成或理解的模型,通过一种轻量级的融合机制,将它们的能力结合起来。这种方法避免了从头开始训练整个模型,从而大大降低了计算成本。同时,通过精心设计的融合策略,可以有效地保留和利用预训练模型的知识,从而获得具有竞争力的性能。

技术框架:LightFusion采用双重融合框架。首先,它保留了预训练的生成和理解模型的原始模块。然后,在这些模块之间穿插多模态自注意力模块,用于实现跨模态的信息交互。理解编码器提取高级语义信息,生成编码器处理低级空间信息。这两个编码器的信息通过多模态自注意力模块进行融合,从而实现统一的多模态理解和生成。

关键创新:LightFusion的关键创新在于其双重融合机制。这种机制不仅能够有效地融合预训练模型的能力,而且能够促进高级语义信息和低级空间信息的协同作用。通过保留原始模块,LightFusion可以继承预训练模型的知识,避免了从头开始训练的需要。通过穿插多模态自注意力模块,LightFusion可以实现跨模态的信息交互,从而提高模型的性能。

关键设计:LightFusion的关键设计包括多模态自注意力模块的结构和训练策略。多模态自注意力模块的设计需要考虑如何有效地融合来自不同模态的信息。训练策略需要考虑如何平衡预训练模型的知识和新引入的融合模块的训练。论文中具体的多模态自注意力模块结构和训练策略未知,需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LightFusion在多个基准测试中取得了显著的成果。在GenEval上,组合文本到图像生成达到了0.91。在DPG-Bench上,复杂文本到图像生成达到了82.16。在GEditBench上,图像编辑达到了6.06。在ImgEdit-Bench上,图像编辑达到了3.77。这些结果表明,LightFusion在各种多模态任务中都具有很强的竞争力,并且能够有效地利用预训练模型的能力。

🎯 应用场景

LightFusion可应用于各种多模态任务,如文本到图像生成、图像编辑、视觉问答等。其轻量级的特性使其更易于部署在资源受限的设备上,例如移动设备和嵌入式系统。该研究有助于推动多模态人工智能技术的发展和应用,为用户提供更智能、更便捷的服务。

📄 摘要(原文)

Unified multimodal models have recently shown remarkable gains in both capability and versatility, yet most leading systems are still trained from scratch and require substantial computational resources. In this paper, we show that competitive performance can be obtained far more efficiently by strategically fusing publicly available models specialized for either generation or understanding. Our key design is to retain the original blocks while additionally interleaving multimodal self-attention blocks throughout the networks. This double fusion mechanism (1) effectively enables rich multi-modal fusion while largely preserving the original strengths of the base models, and (2) catalyzes synergistic fusion of high-level semantic representations from the understanding encoder with low-level spatial signals from the generation encoder. By training with only ~ 35B tokens, this approach achieves strong results across multiple benchmarks: 0.91 on GenEval for compositional text-to-image generation, 82.16 on DPG-Bench for complex text-to-image generation, 6.06 on GEditBench, and 3.77 on ImgEdit-Bench for image editing. By fully releasing the entire suite of code, model weights, and datasets, we hope to support future research on unified multimodal modeling.