Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

📄 arXiv: 2604.10949v1 📥 PDF

作者: Songlin Yang, Xianghao Kong, Anyi Rao

分类: cs.CV, cs.AI

发布日期: 2026-04-13


💡 一句话要点

提出基于熵探测的伪统一性诊断框架,揭示统一多模态模型的信息流不一致问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 统一多模态模型 信息论探测 熵分析 模态融合 文本到图像生成

📋 核心要点

  1. 现有统一多模态模型在推理和生成任务中表现出“伪统一性”,即无法有效迁移LLM的推理能力到图像生成。
  2. 论文提出一种基于信息论的探测框架,通过分析模型内部的熵变化,诊断UMM中信息流的不一致性。
  3. 实验表明,模态非对称编码和模式分裂响应是导致伪统一性的主要原因,信息流一致的模型表现更好。

📝 摘要(中文)

统一多模态模型(UMMs)旨在结合大型语言模型(LLMs)的推理能力和视觉模型的生成能力。然而,实践中这种协同作用难以实现:UMMs未能将LLM式的推理迁移到图像合成中,并表现出不同的响应行为,我们称之为伪统一性。诊断其内部原因是重要的,但现有的探测方法要么缺乏模型内部的洞察力,要么忽略了提示-响应依赖性。为了解决这些局限性,我们提出了一个信息论探测框架,该框架共同分析UMMs如何编码输入和生成输出。应用于十个代表性的UMMs,我们的框架揭示了伪统一性源于双重分歧:(i)模态非对称编码,其中视觉和语言遵循不同的熵轨迹,以及(ii)模式分裂响应,其中文本生成表现出高熵创造力,而图像合成则强制执行低熵保真度。只有统一双方的模型(例如,通过上下文预测)才能实现更真实的统一,即使参数较少也能实现更强的基于推理的文本到图像生成。我们的工作提供了对统一性的首次模型内部探测,表明真正的多模态协同作用需要信息流的一致性,而不仅仅是共享参数。

🔬 方法详解

问题定义:统一多模态模型旨在融合语言和视觉信息,实现跨模态的推理和生成。然而,现有UMMs在文本到图像生成等任务中,无法有效利用LLM的推理能力,表现出与预期不符的“伪统一性”。现有探测方法要么缺乏对模型内部机制的深入理解,要么忽略了prompt和response之间的依赖关系,难以有效诊断问题根源。

核心思路:论文的核心思路是通过信息论中的熵来衡量模型内部信息流的特性。具体来说,通过分析模型在处理不同模态输入和生成不同模态输出时的熵变化,来揭示模型内部信息编码和处理方式的差异。如果不同模态的信息在模型内部的熵变化趋势不一致,或者模型对不同模态的输出采用不同的熵策略,则表明模型存在“伪统一性”问题。

技术框架:该框架主要包含两个阶段:(1) 模态非对称编码分析:分析模型在编码视觉和语言输入时,不同层级的熵变化轨迹,揭示不同模态信息在模型内部的编码方式差异。(2) 模式分裂响应分析:分析模型在生成文本和图像输出时,熵的分布情况,揭示模型对不同模态输出的策略差异。通过对比不同UMMs在这两个阶段的表现,可以诊断模型是否存在“伪统一性”问题。

关键创新:该论文的关键创新在于提出了一个基于信息论的探测框架,用于分析UMMs的内部信息流。与传统的黑盒测试方法不同,该框架能够深入模型内部,揭示模型在处理不同模态信息时的差异。此外,该框架还考虑了prompt和response之间的依赖关系,能够更准确地诊断模型的问题。

关键设计:论文使用了熵作为信息量化的指标,具体计算方式未知(论文未详细说明)。框架应用于十个代表性的UMMs,具体模型列表未知(论文未详细说明)。论文强调了上下文预测在实现更真实的统一中的作用,但具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,模态非对称编码和模式分裂响应是导致UMMs“伪统一性”的主要原因。通过上下文预测等方法,可以有效缓解这些问题,提升模型在文本到图像生成任务中的性能。信息流一致的模型即使参数较少,也能实现更强的推理能力。

🎯 应用场景

该研究成果可应用于指导新型统一多模态模型的架构设计,提升模型跨模态推理和生成能力。通过信息论探测,可以有效诊断现有UMMs的不足,并为模型优化提供理论依据。此外,该方法还可以推广到其他多模态任务,例如视频理解、语音识别等。

📄 摘要(原文)

Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.