LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

作者: Feng Han, Zhixiong Zhang, Zheming Liang, Yibin Wang, Jiaqi Wang

分类: cs.CV, cs.CL

发布日期: 2026-05-28

💡 一句话要点

提出LoMo局部模态替换方法，提升视觉-语言模型跨模态融合的鲁棒性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 多模态融合 数据增强 模态替换 表示不变性

📋 核心要点

现有视觉-语言模型在模态替换时性能显著下降，原因是训练数据中文本和图像角色不对称，导致模型对不同模态的信息获取存在偏好。
LoMo通过将文本跨度动态替换为渲染图像，构建“文本、视觉、文本”序列，从而为跨模态表示不变性提供监督，提升模型对模态变化的鲁棒性。
实验结果表明，LoMo在多个多模态基准测试中显著提高了模型性能，例如在LLaVA-OneVision-1.5-8B和Qwen3.5-9B上分别提升了2.67和2.82个点。

📝 摘要（中文）

视觉-语言模型(VLMs)在多模态融合的驱动下，在广泛的理解和推理任务中取得了显著进展。理想情况下，用渲染图像替换文本问题应该基本不影响模型性能。然而，实际上，这种模态替换会导致性能显著下降。我们将这种“载体敏感性”问题归因于当前训练语料库中固有的偏差。在图像字幕、VQA、OCR和网络来源的交错数据等流行数据集中，文本和图像通常被组织成不同的和不对称的角色，文本充当语言查询，图像充当视觉参考。这种数据偏差导致VLMs在不同模态中表现出对信息获取的不同偏好。因此，VLMs无法对齐文本和视觉载体中语义等效内容的表示，使得模型推理在模态替换下变得脆弱。为了解决这个问题，我们提出局部模态替换(LoMo)，这是一种轻量级的、与架构无关的数据管理范式，旨在为语义等效的文本和图像载体之间的跨模态表示不变性提供监督。LoMo通过将单模态提示重新构建为无缝交错的多模态序列来实现这一点。它动态地选择目标文本跨度，并将它们重铸为渲染图像，从而在“文本、视觉、文本”载体中保持相同的语义。在13个不同的多模态基准上的大量实验表明，LoMo显著提高了整体多模态推理，并产生了更深入的跨模态融合。具体来说，它在基础模型上提供了持续的收益，在LLaVA-OneVision-1.5-8B上比标准SFT提高了2.67个点，在Qwen3.5-9B上提高了2.82个点。

🔬 方法详解

问题定义：现有视觉-语言模型在进行模态替换时，例如将文本问题替换为对应的图像，性能会显著下降。这是因为现有训练数据集中，文本和图像的角色通常是不对称的，文本作为查询，图像作为参考，导致模型对不同模态的信息获取存在偏好，无法对齐语义等价的文本和图像表示。这种“载体敏感性”使得模型在模态替换下推理能力变得脆弱。

核心思路：LoMo的核心思路是通过数据增强的方式，显式地监督模型学习跨模态的表示不变性。具体来说，对于给定的文本序列，随机选择一部分文本跨度，并将其渲染成图像，然后将原始文本序列替换为包含文本和图像的混合序列。这样，模型在训练过程中就能学习到语义等价的文本和图像应该具有相似的表示，从而提高模型对模态变化的鲁棒性。

技术框架：LoMo是一种数据增强方法，可以应用于各种视觉-语言模型。其主要流程如下：1) 输入一个文本序列。2) 随机选择文本序列中的一个或多个文本跨度作为目标。3) 将选定的文本跨度渲染成图像。4) 将原始文本序列替换为包含文本和图像的混合序列，例如“文本，图像，文本”。5) 使用增强后的数据训练视觉-语言模型。LoMo不改变模型的架构，而是通过数据增强的方式来提高模型的性能。

关键创新：LoMo的关键创新在于它提出了一种简单而有效的方法来解决视觉-语言模型中的“载体敏感性”问题。与以往的方法不同，LoMo不依赖于复杂的模型设计或训练策略，而是通过数据增强的方式来显式地监督模型学习跨模态的表示不变性。这种方法不仅简单易用，而且效果显著，可以应用于各种视觉-语言模型。

关键设计：LoMo的关键设计在于如何选择和渲染文本跨度。论文中并没有详细说明文本跨度的选择策略和渲染方法，这部分内容可能需要根据具体的应用场景进行调整。例如，可以选择信息量较大的文本跨度进行渲染，或者使用不同的渲染方法来生成更逼真的图像。此外，LoMo还可以与其他数据增强方法结合使用，以进一步提高模型的性能。损失函数方面，LoMo可以使用标准的视觉-语言模型训练损失函数，例如对比学习损失或交叉熵损失。

🖼️ 关键图片

📊 实验亮点

LoMo在13个不同的多模态基准测试中取得了显著的性能提升。例如，在LLaVA-OneVision-1.5-8B模型上，LoMo比标准SFT提高了2.67个点；在Qwen3.5-9B模型上，LoMo比标准SFT提高了2.82个点。这些结果表明，LoMo能够有效地提高视觉-语言模型的跨模态融合能力和推理性能。

🎯 应用场景

LoMo可以应用于各种需要视觉-语言模型进行推理的任务，例如视觉问答、图像字幕、视觉推理等。通过提高模型对模态变化的鲁棒性，LoMo可以使模型在实际应用中更加可靠和稳定。此外，LoMo还可以用于提高模型的泛化能力，使其能够更好地适应不同的数据分布。

📄 摘要（原文）

Vision-Language Models (VLMs) have achieved substantial progress across a wide range of understanding and reasoning tasks, driven by large-scale image-text training aimed at multimodal fusion. Ideally, replacing a textual question with its rendered-image counterpart should leave model performance essentially unaffected. In practice, however, such modality substitution induces dramatic performance degradation. We attribute this "carrier sensitivity" issue to an inherent bias in current training corpora. Across prevalent datasets such as image captioning, VQA, OCR, and web-sourced interleaved data, text and images are typically organized into distinct and asymmetric roles, with text serving as linguistic queries and images as visual references. Such data bias leads VLMs to exhibit distinct preferences for information acquisition across different modalities. Consequently, VLMs fail to align representations of semantically equivalent content across textual and visual carriers, making model reasoning fragile under modality substitution. To address this, we propose Local Modality Substitution (LoMo), a lightweight, architecture-agnostic data curation paradigm designed to provide supervision for cross-modal representational invariance between semantically equivalent text and image carriers. LoMo achieves this by reformulating single-modality prompts into seamlessly interleaved multimodal sequences. It dynamically selects target text spans and recasts them as rendered images, thereby preserving the same semantics across "text, visual, text" carriers. Extensive experiments across 13 diverse multimodal benchmarks demonstrate that LoMo significantly improves overall multimodal reasoning and yields deeper cross-modal fusion. Specifically, it delivers consistent gains across foundational models, improving over standard SFT by 2.67 points on LLaVA-OneVision-1.5-8B and 2.82 points on Qwen3.5-9B.

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理