Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

作者: Jayadev Billa

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-02-26

备注: 22 pages, 11 tables, 2 figures. Code: https://github.com/jb1999/modality_collapse_paper

💡 一句话要点

多模态LLM模态坍塌源于解码不匹配，信息论角度揭示其根本限制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 模态坍塌 解码器不匹配 信息论 广义互信息 LoRA微调

📋 核心要点

多模态LLM面临模态坍塌问题，即无法充分利用非文本模态信息，现有研究未能有效解决此问题。
论文提出解码器不匹配理论，认为解码器只能提取文本对齐的信息，非文本信息被视为噪声。
实验证明，移除模态特定方差可改善解码器损失，且通过LoRA干预可提升特定属性的可访问性。

📝 摘要（中文）

多模态LLM虽然可以处理语音和图像，但无法感知说话者的声音特征或物体的纹理。研究表明，这并非编码器的失败：说话人身份、情感和视觉属性在每一层LLM中都得以保留（线性探测中高于偶然性3-55倍），但移除64-71%的模态特定方差反而能改善解码器损失。解码器没有学习到如何利用这些信息，它们的存在反而成为了噪声。论文将其形式化为解码器不匹配问题：在文本上训练的解码器只能提取文本对齐方向上的信息。可访问的信息受限于广义互信息（GMI），其退化程度与分布距离和解码器敏感度成正比。该界限是解码器评分规则的属性，而非特定架构的属性；无论非文本输入是通过学习到的投影、离散码本还是根本没有显式适配器到达，都适用。论文在跨越语音和视觉的五个模型上验证了这一点。一项对照实验（两个仅在编码器文本对齐方面不同的Prismatic VLM）证实，瓶颈是解码器的评分规则，而不是编码器或投影。LoRA干预证明了解决方案：使用情感目标进行训练可以提高情感可访问性（+7.5%），而不影响其他属性，证实了训练目标决定了什么变得可访问。

🔬 方法详解

问题定义：多模态大型语言模型（LLM）在处理多模态数据时，存在“模态坍塌”现象，即模型无法充分利用非文本模态（如语音、图像）中蕴含的丰富信息，例如说话人的情感、物体的纹理等。现有方法通常侧重于改进编码器或模态对齐方式，但未能从根本上解决解码器对非文本信息的利用不足问题。

核心思路：论文的核心思路是提出“解码器不匹配”理论，认为预训练在纯文本数据上的解码器，其能力被限制在只能有效提取与文本对齐的信息。来自其他模态的信息，如果与文本解码器的偏好不一致，则会被视为噪声，导致模态坍塌。因此，问题的关键在于解码器的设计和训练目标，而非编码器或模态对齐方式。

技术框架：论文通过信息论的视角，将多模态信息的访问限制形式化为广义互信息（GMI）的界限。GMI描述了在给定解码器评分规则下，可从输入中提取的信息量。研究表明，信息退化程度与输入分布和解码器敏感度有关。论文通过实验验证了这一理论，并提出通过调整训练目标来改善解码器对特定模态信息的利用。

关键创新：论文最重要的创新点在于提出了“解码器不匹配”这一概念，并从信息论的角度对其进行了形式化分析。这与以往侧重于编码器或模态对齐的研究思路不同，为解决多模态LLM的模态坍塌问题提供了新的视角。论文还通过实验验证了这一理论，并提出了通过调整训练目标来改善解码器性能的方法。

关键设计：论文的关键设计包括：1) 使用线性探测来评估不同LLM层中模态信息的保留程度；2) 通过移除模态特定方差来研究其对解码器损失的影响；3) 设计对照实验，比较仅在编码器文本对齐方面不同的Prismatic VLM；4) 使用LoRA干预来调整解码器的训练目标，并评估其对特定属性可访问性的影响。论文还使用了广义互信息（GMI）来量化可访问的信息量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使在LLM的深层，非文本模态信息（如说话人身份、情感和视觉属性）仍然存在（线性探测中高于偶然性3-55倍）。然而，移除64-71%的模态特定方差反而能改善解码器损失。通过LoRA干预，使用情感目标进行训练可以提高情感可访问性（+7.5%），而不影响其他属性。这些结果有力地支持了“解码器不匹配”理论。

🎯 应用场景

该研究成果可应用于改进多模态LLM的性能，使其能够更好地理解和利用非文本模态信息。例如，在语音识别中，模型可以更好地捕捉说话人的情感；在图像理解中，模型可以更准确地识别物体的纹理和细节。这有助于提升人机交互的自然性和智能化水平，并拓展多模态LLM在医疗、教育、娱乐等领域的应用。

📄 摘要（原文）

Multimodal LLMs can process speech and images, but they cannot hear a speaker's voice or see an object's texture. We show this is not a failure of encoding: speaker identity, emotion, and visual attributes survive through every LLM layer (3--55$\times$ above chance in linear probes), yet removing 64--71% of modality-specific variance improves decoder loss. The decoder has no learned use for these directions; their presence is noise. We formalize this as a mismatched decoder problem: a decoder trained on text can only extract information along text-aligned directions. Accessible information is bounded by the Generalized Mutual Information (GMI), with degradation scaling with distributional distance and decoder sensitivity. The bound is a property of the decoder's scoring rule, not of any particular architecture; it applies whether non-text inputs arrive through a learned projection, a discrete codebook, or no explicit adapter at all. We validate this across five models spanning speech and vision. A controlled experiment (two Prismatic VLMs differing only in encoder text-alignment) confirms the bottleneck is the decoder's scoring rule, not the encoder or projection. A LoRA intervention demonstrates the fix: training with an emotion objective improves emotion accessibility ($+$7.5%) without affecting other attributes, confirming that the training objective determines what becomes accessible.

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理