Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

作者: Songlin Yang, Xianghao Kong, Anyi Rao

分类: cs.CV, cs.AI

发布日期: 2026-04-13

💡 一句话要点

提出基于熵探测的伪统一性诊断框架，揭示统一多模态模型的信息流不一致问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 统一多模态模型 信息论探测 熵分析 模态融合 文本到图像生成

📋 核心要点

现有统一多模态模型在推理和生成任务中表现出“伪统一性”，即无法有效迁移LLM的推理能力到图像生成。
论文提出一种基于信息论的探测框架，通过分析模型内部的熵变化，诊断UMM中信息流的不一致性。
实验表明，模态非对称编码和模式分裂响应是导致伪统一性的主要原因，信息流一致的模型表现更好。

📝 摘要（中文）

统一多模态模型（UMMs）旨在结合大型语言模型（LLMs）的推理能力和视觉模型的生成能力。然而，实践中这种协同作用难以实现：UMMs未能将LLM式的推理迁移到图像合成中，并表现出不同的响应行为，我们称之为伪统一性。诊断其内部原因是重要的，但现有的探测方法要么缺乏模型内部的洞察力，要么忽略了提示-响应依赖性。为了解决这些局限性，我们提出了一个信息论探测框架，该框架共同分析UMMs如何编码输入和生成输出。应用于十个代表性的UMMs，我们的框架揭示了伪统一性源于双重分歧：（i）模态非对称编码，其中视觉和语言遵循不同的熵轨迹，以及（ii）模式分裂响应，其中文本生成表现出高熵创造力，而图像合成则强制执行低熵保真度。只有统一双方的模型（例如，通过上下文预测）才能实现更真实的统一，即使参数较少也能实现更强的基于推理的文本到图像生成。我们的工作提供了对统一性的首次模型内部探测，表明真正的多模态协同作用需要信息流的一致性，而不仅仅是共享参数。

🔬 方法详解

问题定义：统一多模态模型旨在融合语言和视觉信息，实现跨模态的推理和生成。然而，现有UMMs在文本到图像生成等任务中，无法有效利用LLM的推理能力，表现出与预期不符的“伪统一性”。现有探测方法要么缺乏对模型内部机制的深入理解，要么忽略了prompt和response之间的依赖关系，难以有效诊断问题根源。

核心思路：论文的核心思路是通过信息论中的熵来衡量模型内部信息流的特性。具体来说，通过分析模型在处理不同模态输入和生成不同模态输出时的熵变化，来揭示模型内部信息编码和处理方式的差异。如果不同模态的信息在模型内部的熵变化趋势不一致，或者模型对不同模态的输出采用不同的熵策略，则表明模型存在“伪统一性”问题。

技术框架：该框架主要包含两个阶段：(1) 模态非对称编码分析：分析模型在编码视觉和语言输入时，不同层级的熵变化轨迹，揭示不同模态信息在模型内部的编码方式差异。(2) 模式分裂响应分析：分析模型在生成文本和图像输出时，熵的分布情况，揭示模型对不同模态输出的策略差异。通过对比不同UMMs在这两个阶段的表现，可以诊断模型是否存在“伪统一性”问题。

关键创新：该论文的关键创新在于提出了一个基于信息论的探测框架，用于分析UMMs的内部信息流。与传统的黑盒测试方法不同，该框架能够深入模型内部，揭示模型在处理不同模态信息时的差异。此外，该框架还考虑了prompt和response之间的依赖关系，能够更准确地诊断模型的问题。

关键设计：论文使用了熵作为信息量化的指标，具体计算方式未知（论文未详细说明）。框架应用于十个代表性的UMMs，具体模型列表未知（论文未详细说明）。论文强调了上下文预测在实现更真实的统一中的作用，但具体实现细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，模态非对称编码和模式分裂响应是导致UMMs“伪统一性”的主要原因。通过上下文预测等方法，可以有效缓解这些问题，提升模型在文本到图像生成任务中的性能。信息流一致的模型即使参数较少，也能实现更强的推理能力。

🎯 应用场景

该研究成果可应用于指导新型统一多模态模型的架构设计，提升模型跨模态推理和生成能力。通过信息论探测，可以有效诊断现有UMMs的不足，并为模型优化提供理论依据。此外，该方法还可以推广到其他多模态任务，例如视频理解、语音识别等。

📄 摘要（原文）

Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理