Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

📄 arXiv: 2602.02140v1 📥 PDF

作者: Chenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou

分类: cs.CL

发布日期: 2026-02-02


💡 一句话要点

提出GapEval基准,量化统一多模态模型理解与生成能力之间的差距

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 统一模型 理解与生成 跨模态一致性 认知融合 评估基准 知识表示

📋 核心要点

  1. 现有统一多模态模型在理解和生成任务中表现出色,但其内部两种能力是否真正融合仍是挑战。
  2. 论文提出GapEval基准,通过双向评估来量化模型在理解和生成能力上的差距,考察跨模态一致性。
  3. 实验结果表明,现有模型在理解和生成方向上存在显著差距,表明模型只是表面统一,缺乏深层认知融合。

📝 摘要(中文)

统一多模态模型(UMM)在理解和生成任务中取得了显著进展。然而,这两种能力是否真正对齐并集成在单个模型中仍不清楚。为了研究这个问题,我们引入了GapEval,这是一个双向基准,旨在量化理解和生成能力之间的差距,并定量衡量两个“统一”方向的认知一致性。每个问题都可以用两种模态(图像和文本)回答,从而能够对称地评估模型的双向推理能力和跨模态一致性。实验表明,在具有不同架构的各种UMM中,两个方向之间存在持续的差距,表明当前的模型仅实现了表面级别的统一,而不是两种模态的深度认知融合。为了进一步探索潜在机制,我们从知识操纵的角度进行了一项实证研究,以说明潜在的局限性。我们的研究结果表明,UMM中的知识通常是脱节的,模态之间的能力涌现和知识是不同步的,这为进一步探索铺平了道路。

🔬 方法详解

问题定义:论文旨在解决统一多模态模型(UMM)中理解能力和生成能力是否真正对齐的问题。现有UMM虽然在多模态任务上表现良好,但缺乏对模型内部理解和生成能力一致性的有效评估手段,无法确定模型是否真正理解并融合了不同模态的信息,还是仅仅学习到了一些表面的关联。

核心思路:论文的核心思路是通过构建一个双向评估基准GapEval,来量化UMM在理解和生成两个方向上的能力差距。GapEval允许模型从图像到文本,以及从文本到图像进行推理,通过对比两个方向上的性能差异,来评估模型的跨模态一致性和认知融合程度。

技术框架:GapEval基准的核心在于其双向评估机制。对于每个问题,模型需要同时具备基于图像生成文本的理解能力,以及基于文本生成图像的理解能力。通过设计合适的评估指标,可以量化模型在这两个方向上的性能差异。整体流程包括:1) 构建包含图像和文本信息的测试数据集;2) 设计双向推理任务,即从图像生成文本,以及从文本生成图像;3) 使用UMM模型进行推理;4) 评估模型在两个方向上的性能,并计算Gap值。

关键创新:GapEval的关键创新在于其双向评估的设计理念,它能够从理解和生成两个方向同时考察UMM的性能,从而更全面地评估模型的跨模态认知能力。与传统的单向评估方法相比,GapEval能够更有效地揭示模型在不同模态之间存在的知识鸿沟和能力不平衡。

关键设计:GapEval的关键设计包括:1) 数据集的构建,需要保证图像和文本信息之间存在明确的对应关系,并且能够支持双向推理;2) 评估指标的选择,需要能够准确地反映模型在理解和生成两个方向上的性能;3) 任务的设计,需要能够充分地考察模型的跨模态推理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在各种UMM模型上,理解和生成方向之间都存在显著的性能差距,这表明当前的模型仅仅实现了表面级别的统一,而缺乏深度的认知融合。通过知识操纵实验,进一步验证了UMM中的知识通常是脱节的,模态之间的能力涌现和知识是不同步的。

🎯 应用场景

该研究成果可应用于评估和改进各种统一多模态模型,例如视觉问答、图像描述、跨模态检索等。通过GapEval基准,可以更有效地诊断模型在理解和生成能力上的不足,从而指导模型的设计和训练,提升其在实际应用中的性能和可靠性。此外,该研究也为未来多模态认知研究提供了新的思路和方法。

📄 摘要(原文)

Recent advances in unified multimodal models (UMM) have demonstrated remarkable progress in both understanding and generation tasks. However, whether these two capabilities are genuinely aligned and integrated within a single model remains unclear. To investigate this question, we introduce GapEval, a bidirectional benchmark designed to quantify the gap between understanding and generation capabilities, and quantitatively measure the cognitive coherence of the two "unified" directions. Each question can be answered in both modalities (image and text), enabling a symmetric evaluation of a model's bidirectional inference capability and cross-modal consistency. Experiments reveal a persistent gap between the two directions across a wide range of UMMs with different architectures, suggesting that current models achieve only surface-level unification rather than deep cognitive convergence of the two. To further explore the underlying mechanism, we conduct an empirical study from the perspective of knowledge manipulation to illustrate the underlying limitations. Our findings indicate that knowledge within UMMs often remains disjoint. The capability emergence and knowledge across modalities are unsynchronized, paving the way for further exploration.