Deep Pre-Alignment for VLMs
作者: Tianyu Yu, Kechen Fang, Zihao Wan, Kaidong Zhang, Yicheng Zhang, Jun Song, Bo Zheng, Yuan Yao
分类: cs.CV
发布日期: 2026-05-14
备注: Accepted by ICML 2026. Project Website: https://github.com/THUMAI-Lab/Deep-Pre-Alignment
💡 一句话要点
提出深度预对齐(DPA)架构,解决视觉语言模型中的模态对齐难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 多模态学习 模态对齐 深度学习 预训练模型
📋 核心要点
- 现有VLM架构中,视觉特征在LLM初始层与文本空间距离较远,导致模型浪费大量计算资源进行浅层模态对齐。
- DPA使用小型VLM作为感知器,替换ViT编码器,实现视觉特征与LLM文本空间的深度对齐,减轻LLM的对齐负担。
- 实验表明,DPA在多模态任务上显著优于基线,并减少了语言能力遗忘,且在不同LLM家族中具有通用性。
📝 摘要(中文)
本文提出了一种名为深度预对齐(DPA)的新型视觉语言模型(VLM)架构,旨在解决现有VLM中视觉特征与文本空间对齐不足的问题。DPA使用小型VLM作为感知器,替换了标准的ViT编码器,从而确保视觉特征与目标大型语言模型的文本空间深度对齐。实验结果表明,DPA在多个多模态基准测试中表现出色,在4B参数规模下,性能优于基线模型1.9个点,在32B规模下,性能提升至3.0个点。此外,通过将对齐任务转移到感知器,DPA在3个文本基准测试中,语言能力遗忘减少了32.9%。该方法在Qwen3和LLaMA 3.2等不同LLM家族中均表现出一致的增益,突显了其通用性。DPA还为当前的VLM开发提供了一条无缝升级路径,只需对视觉编码器进行模块化替换,计算开销很小。
🔬 方法详解
问题定义:现有视觉语言模型(VLM)通常使用ViT编码器提取视觉特征,然后通过一个轻量级的投影层将其映射到LLM的文本空间。然而,这种架构存在一个关键问题:视觉特征在LLM的初始层与文本空间的距离仍然很远,导致LLM需要花费大量的计算资源来进行浅层的模态对齐,而不是专注于更深层次的理解和推理。这限制了VLM的整体性能和效率。
核心思路:DPA的核心思路是利用一个小型VLM作为感知器,预先将视觉特征对齐到目标LLM的文本空间。通过这种方式,LLM可以接收到已经深度对齐的视觉特征,从而减少了其在初始层进行模态对齐的负担,使其能够更有效地利用其深度进行理解和推理。这种设计旨在提高VLM的整体性能和效率。
技术框架:DPA架构主要包含两个模块:感知器(Perceiver)和大型语言模型(LLM)。感知器是一个小型VLM,负责接收原始图像输入,并将其编码为与目标LLM文本空间对齐的视觉特征。LLM则接收来自感知器的对齐后的视觉特征,并结合文本输入进行多模态理解和推理。标准ViT编码器被替换为小型VLM作为perceiver。
关键创新:DPA最重要的技术创新点在于使用小型VLM作为感知器,实现视觉特征的深度预对齐。与传统的直接将ViT输出投影到LLM文本空间的方法不同,DPA通过感知器预先对齐视觉特征,从而减轻了LLM的对齐负担,使其能够更专注于深层次的理解和推理。
关键设计:DPA的关键设计包括选择合适的小型VLM作为感知器,以及设计合适的训练策略来确保感知器能够有效地将视觉特征对齐到目标LLM的文本空间。论文中使用了具体的VLM模型作为perceiver,并进行了实验验证。具体的参数设置、损失函数和网络结构等技术细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
DPA在多个多模态基准测试中取得了显著的性能提升。在4B参数规模下,DPA的性能优于基线模型1.9个点,而在32B规模下,性能提升至3.0个点。此外,DPA还显著减少了语言能力遗忘,在3个文本基准测试中,语言能力遗忘减少了32.9%。这些实验结果表明,DPA能够有效地提高VLM的性能和效率。
🎯 应用场景
DPA架构具有广泛的应用前景,可应用于图像描述、视觉问答、多模态对话等领域。通过提高VLM的性能和效率,DPA可以促进这些应用的发展,并为用户提供更智能、更自然的交互体验。此外,DPA的模块化设计使其易于集成到现有的VLM系统中,为VLM的持续发展提供了一条有效的途径。
📄 摘要(原文)
Most Vision Language Models (VLMs) directly map outputs from ViT encoders to the LLM via a lightweight projector. While effective, recent analysis suggests this architecture suffers from an alignment challenge: visual features remain distant from the text space in the initial layers of the LLM, forcing the model to waste critical depth~\cite{zhang-etal-2024-investigating,artzy-schwartz-2024-attend} on superficial modality alignment rather than deep understanding and complex reasoning. In this work, we propose Deep Pre-Alignment (DPA), a novel architecture that replaces the standard ViT encoder with a small VLM as perceiver, ensuring visual features are deeply aligned with the text space of the target large language model. Comprehensive experiments demonstrate the effectiveness of DPA. On the 4B parameter scale, DPA outperforms baselines by 1.9 points across 8 multimodal benchmarks, with gains widening to 3.0 points at the 32B scale. Moreover, by offloading alignment to the perceiver, DPA achieves a 32.9\% reduction in language capability forgetting over 3 text benchmarks. We further demonstrate that these gains are consistent across different LLM families including Qwen3 and LLaMA 3.2, highlighting the generality of our approach. Beyond performance, DPA also offers a seamless upgrade path for current VLM development, requiring only a modular replacement for the visual encoder with marginal computation overhead.