Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs
作者: Jayadev Billa
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-02-26
备注: 22 pages, 11 tables, 2 figures. Code: https://github.com/jb1999/modality_collapse_paper
💡 一句话要点
多模态LLM模态坍塌源于解码不匹配,信息论角度揭示其根本限制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 模态坍塌 解码器不匹配 信息论 广义互信息 LoRA微调
📋 核心要点
- 多模态LLM面临模态坍塌问题,即无法充分利用非文本模态信息,现有研究未能有效解决此问题。
- 论文提出解码器不匹配理论,认为解码器只能提取文本对齐的信息,非文本信息被视为噪声。
- 实验证明,移除模态特定方差可改善解码器损失,且通过LoRA干预可提升特定属性的可访问性。
📝 摘要(中文)
多模态LLM虽然可以处理语音和图像,但无法感知说话者的声音特征或物体的纹理。研究表明,这并非编码器的失败:说话人身份、情感和视觉属性在每一层LLM中都得以保留(线性探测中高于偶然性3-55倍),但移除64-71%的模态特定方差反而能改善解码器损失。解码器没有学习到如何利用这些信息,它们的存在反而成为了噪声。论文将其形式化为解码器不匹配问题:在文本上训练的解码器只能提取文本对齐方向上的信息。可访问的信息受限于广义互信息(GMI),其退化程度与分布距离和解码器敏感度成正比。该界限是解码器评分规则的属性,而非特定架构的属性;无论非文本输入是通过学习到的投影、离散码本还是根本没有显式适配器到达,都适用。论文在跨越语音和视觉的五个模型上验证了这一点。一项对照实验(两个仅在编码器文本对齐方面不同的Prismatic VLM)证实,瓶颈是解码器的评分规则,而不是编码器或投影。LoRA干预证明了解决方案:使用情感目标进行训练可以提高情感可访问性(+7.5%),而不影响其他属性,证实了训练目标决定了什么变得可访问。
🔬 方法详解
问题定义:多模态大型语言模型(LLM)在处理多模态数据时,存在“模态坍塌”现象,即模型无法充分利用非文本模态(如语音、图像)中蕴含的丰富信息,例如说话人的情感、物体的纹理等。现有方法通常侧重于改进编码器或模态对齐方式,但未能从根本上解决解码器对非文本信息的利用不足问题。
核心思路:论文的核心思路是提出“解码器不匹配”理论,认为预训练在纯文本数据上的解码器,其能力被限制在只能有效提取与文本对齐的信息。来自其他模态的信息,如果与文本解码器的偏好不一致,则会被视为噪声,导致模态坍塌。因此,问题的关键在于解码器的设计和训练目标,而非编码器或模态对齐方式。
技术框架:论文通过信息论的视角,将多模态信息的访问限制形式化为广义互信息(GMI)的界限。GMI描述了在给定解码器评分规则下,可从输入中提取的信息量。研究表明,信息退化程度与输入分布和解码器敏感度有关。论文通过实验验证了这一理论,并提出通过调整训练目标来改善解码器对特定模态信息的利用。
关键创新:论文最重要的创新点在于提出了“解码器不匹配”这一概念,并从信息论的角度对其进行了形式化分析。这与以往侧重于编码器或模态对齐的研究思路不同,为解决多模态LLM的模态坍塌问题提供了新的视角。论文还通过实验验证了这一理论,并提出了通过调整训练目标来改善解码器性能的方法。
关键设计:论文的关键设计包括:1) 使用线性探测来评估不同LLM层中模态信息的保留程度;2) 通过移除模态特定方差来研究其对解码器损失的影响;3) 设计对照实验,比较仅在编码器文本对齐方面不同的Prismatic VLM;4) 使用LoRA干预来调整解码器的训练目标,并评估其对特定属性可访问性的影响。论文还使用了广义互信息(GMI)来量化可访问的信息量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使在LLM的深层,非文本模态信息(如说话人身份、情感和视觉属性)仍然存在(线性探测中高于偶然性3-55倍)。然而,移除64-71%的模态特定方差反而能改善解码器损失。通过LoRA干预,使用情感目标进行训练可以提高情感可访问性(+7.5%),而不影响其他属性。这些结果有力地支持了“解码器不匹配”理论。
🎯 应用场景
该研究成果可应用于改进多模态LLM的性能,使其能够更好地理解和利用非文本模态信息。例如,在语音识别中,模型可以更好地捕捉说话人的情感;在图像理解中,模型可以更准确地识别物体的纹理和细节。这有助于提升人机交互的自然性和智能化水平,并拓展多模态LLM在医疗、教育、娱乐等领域的应用。
📄 摘要(原文)
Multimodal LLMs can process speech and images, but they cannot hear a speaker's voice or see an object's texture. We show this is not a failure of encoding: speaker identity, emotion, and visual attributes survive through every LLM layer (3--55$\times$ above chance in linear probes), yet removing 64--71% of modality-specific variance improves decoder loss. The decoder has no learned use for these directions; their presence is noise. We formalize this as a mismatched decoder problem: a decoder trained on text can only extract information along text-aligned directions. Accessible information is bounded by the Generalized Mutual Information (GMI), with degradation scaling with distributional distance and decoder sensitivity. The bound is a property of the decoder's scoring rule, not of any particular architecture; it applies whether non-text inputs arrive through a learned projection, a discrete codebook, or no explicit adapter at all. We validate this across five models spanning speech and vision. A controlled experiment (two Prismatic VLMs differing only in encoder text-alignment) confirms the bottleneck is the decoder's scoring rule, not the encoder or projection. A LoRA intervention demonstrates the fix: training with an emotion objective improves emotion accessibility ($+$7.5%) without affecting other attributes, confirming that the training objective determines what becomes accessible.