FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding
作者: Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang
分类: cs.CV
发布日期: 2025-04-14 (更新: 2025-04-19)
🔗 代码/项目: GITHUB
💡 一句话要点
FUSION:一种用于深度跨模态理解的完全视觉-语言表征集成方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉语言模型 跨模态融合 深度学习 问答系统
📋 核心要点
- 现有MLLM主要依赖解码阶段的模态交互,缺乏深度、动态的视觉-语言集成,限制了跨模态理解能力。
- FUSION通过文本引导的视觉编码和上下文感知的递归对齐解码,实现了像素级和问题级的深度模态融合。
- 实验结果表明,FUSION 3B在多个基准测试中超越了Cambrian-1 8B和Florence-VL 8B,证明了其优越性。
📝 摘要(中文)
本文介绍FUSION,一种多模态大型语言模型(MLLM)家族,它采用完全视觉-语言对齐和集成范式。与现有主要依赖于LLM解码期间的后期模态交互的方法不同,我们的方法在整个处理流程中实现了深度、动态的集成。为此,我们提出了文本引导的统一视觉编码,在视觉编码中融入文本信息,以实现像素级别的集成。我们进一步设计了上下文感知的递归对齐解码,在解码过程中递归地聚合以文本上下文为条件的视觉特征,从而实现细粒度的、问题级别的语义集成。为了指导特征映射并减轻模态差异,我们开发了双重监督的语义映射损失。此外,我们通过一种新的数据合成方法构建了一个合成的语言驱动的问答(QA)数据集,优先考虑高质量的QA对,以优化文本引导的特征集成。基于这些基础,我们训练了两种规模的FUSION模型——3B和8B,并证明了我们的全模态集成方法显著优于现有的仅使用630个视觉token的方法。值得注意的是,FUSION 3B在大多数基准测试中超过了Cambrian-1 8B和Florence-VL 8B。即使限制为300个视觉token,FUSION 3B仍然优于Cambrian-1 8B。我们的消融研究表明,在相同配置下,FUSION在超过一半的基准测试中优于LLaVA-NeXT,突出了我们方法的有效性。我们发布了我们的代码、模型权重和数据集。
🔬 方法详解
问题定义:现有的大型多模态语言模型(MLLM)在视觉和语言信息的融合方面存在不足。它们通常依赖于在LLM解码阶段进行后期模态交互,缺乏在视觉编码阶段的深度集成。这种浅层的融合方式限制了模型对跨模态信息的理解能力,尤其是在需要细粒度语义理解的任务中。现有方法难以有效利用视觉信息,导致性能瓶颈。
核心思路:FUSION的核心思路是在视觉编码阶段就引入文本信息,实现像素级别的模态融合。同时,在解码阶段,通过上下文感知的递归对齐,动态地聚合视觉特征,实现问题级别的语义集成。通过这种深度、动态的融合方式,模型可以更有效地利用视觉信息,提升跨模态理解能力。
技术框架:FUSION的整体框架包含以下几个主要模块:1) 文本引导的统一视觉编码器:将文本信息融入视觉编码过程,实现像素级别的模态融合。2) 上下文感知的递归对齐解码器:在解码过程中,根据文本上下文动态地聚合视觉特征,实现问题级别的语义集成。3) 双重监督的语义映射损失:用于指导特征映射,减轻模态差异。4) 合成的语言驱动的问答数据集:用于优化文本引导的特征集成。
关键创新:FUSION的关键创新在于其完全视觉-语言对齐和集成范式。与现有方法不同,FUSION在整个处理流程中实现了深度、动态的模态集成。具体来说,文本引导的统一视觉编码器和上下文感知的递归对齐解码器是两个核心创新点,它们分别实现了像素级别和问题级别的模态融合。
关键设计:文本引导的统一视觉编码器通过将文本信息注入到视觉编码过程中,实现了像素级别的模态融合。上下文感知的递归对齐解码器通过递归地聚合以文本上下文为条件的视觉特征,实现了问题级别的语义集成。双重监督的语义映射损失用于指导特征映射,减轻模态差异。此外,论文还构建了一个合成的语言驱动的问答数据集,用于优化文本引导的特征集成。具体参数设置和网络结构细节在论文中有详细描述,此处不再赘述。
🖼️ 关键图片
📊 实验亮点
FUSION 3B在大多数基准测试中超过了Cambrian-1 8B和Florence-VL 8B,即使限制为300个视觉token,FUSION 3B仍然优于Cambrian-1 8B。消融研究表明,在相同配置下,FUSION在超过一半的基准测试中优于LLaVA-NeXT,证明了其全模态集成方法的有效性。这些实验结果表明,FUSION在跨模态理解方面具有显著的优势。
🎯 应用场景
FUSION具有广泛的应用前景,包括图像描述生成、视觉问答、跨模态检索、机器人导航等领域。通过提升模型对视觉和语言信息的理解能力,FUSION可以应用于智能客服、自动驾驶、智能家居等实际场景,为人们的生活带来便利。未来,FUSION有望成为多模态人工智能领域的重要基石。
📄 摘要(原文)
We introduce FUSION, a family of multimodal large language models (MLLMs) with a fully vision-language alignment and integration paradigm. Unlike existing methods that primarily rely on late-stage modality interaction during LLM decoding, our approach achieves deep, dynamic integration throughout the entire processing pipeline. To this end, we propose Text-Guided Unified Vision Encoding, incorporating textual information in vision encoding to achieve pixel-level integration. We further design Context-Aware Recursive Alignment Decoding that recursively aggregates visual features conditioned on textual context during decoding, enabling fine-grained, question-level semantic integration. To guide feature mapping and mitigate modality discrepancies, we develop Dual-Supervised Semantic Mapping Loss. Additionally, we construct a Synthesized Language-Driven Question-Answer (QA) dataset through a new data synthesis method, prioritizing high-quality QA pairs to optimize text-guided feature integration. Building on these foundations, we train FUSION at two scales-3B, 8B-and demonstrate that our full-modality integration approach significantly outperforms existing methods with only 630 vision tokens. Notably, FUSION 3B surpasses Cambrian-1 8B and Florence-VL 8B on most benchmarks. FUSION 3B continues to outperform Cambrian-1 8B even when limited to 300 vision tokens. Our ablation studies show that FUSION outperforms LLaVA-NeXT on over half of the benchmarks under same configuration without dynamic resolution, highlighting the effectiveness of our approach. We release our code, model weights, and dataset. https://github.com/starriver030515/FUSION