Impact of Pretraining Word Co-occurrence on Compositional Generalization in Multimodal Models

作者: Helen Qu, Sang Michael Xie

分类: cs.CV, cs.LG

发布日期: 2025-07-10

🔗 代码/项目: GITHUB

💡 一句话要点

研究揭示预训练数据中词共现对多模态模型组合泛化能力的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 组合泛化 预训练模型 点互信息 视觉问答

📋 核心要点

现有方法在处理训练数据中低频概念组合时，多模态模型的泛化能力不足，面临组合泛化的挑战。
论文核心在于分析预训练数据中词共现统计量（PMI）与多模态模型组合泛化能力之间的关系。
实验表明，预训练数据中概念的PMI与CLIP模型的零样本准确率高度相关，并能迁移到LMM上。

📝 摘要（中文）

CLIP和大型多模态模型(LMMs)在训练数据中高频出现的概念上表现出更好的准确性。然而，训练数据中概念组合对组合泛化的影响在很大程度上尚不清楚——例如，当一个常见对象与另一个对象以不常见的配对出现时，准确性如何变化？本文研究了预训练数据集中词共现统计（视觉概念共现的代理）如何影响CLIP/LMM的性能。为了将词共现频率的影响与单字频率的影响区分开来，我们使用点互信息(PMI)来衡量共现，该方法通过独立共现的概率来归一化两个词共同出现的联合概率。使用各种概念对合成生成的图像，我们表明CLIP预训练数据中的PMI与在LAION-400M上训练的CLIP模型的零样本准确率之间存在很强的相关性(r=0.97，PMI值最高和最低的5%的图像之间存在14%的准确率差距)，这表明即使是常见概念的准确率也会受到图像中概念组合的影响。利用这一发现，我们通过编辑自然图像使其包含具有不同PMI的配对来重现这种效果，从而产生0.75的相关性。最后，我们证明了CLIP中的这种行为会转移到建立在CLIP之上的LMM(TextVQA为r=0.70，VQAv2为r=0.62)。我们的研究结果强调，需要算法和架构来提高多模态模型的组合泛化能力，而无需组合地扩展训练数据。

🔬 方法详解

问题定义：现有的多模态模型，如CLIP和LMMs，在处理训练数据中常见的概念时表现良好，但当遇到不常见的概念组合时，性能会显著下降。这表明这些模型在组合泛化方面存在局限性。现有的方法通常依赖于大规模数据集来覆盖尽可能多的概念组合，但这种方法成本高昂且难以扩展。因此，如何提高多模态模型在处理未见过的概念组合时的泛化能力是一个关键问题。

核心思路：论文的核心思路是研究预训练数据中词语的共现统计信息（通过点互信息PMI来衡量）与多模态模型组合泛化能力之间的关系。作者认为，即使是常见概念的准确率也会受到图像中概念组合的影响。通过分析PMI与模型性能之间的相关性，可以更好地理解预训练数据对模型泛化能力的影响，并为改进模型架构和训练策略提供指导。

技术框架：论文主要通过实验分析来研究PMI与模型性能之间的关系。首先，作者使用合成图像，控制概念对的PMI值，并评估CLIP模型的零样本准确率。然后，作者在自然图像上进行实验，通过编辑图像来改变概念对的PMI值，并观察模型性能的变化。最后，作者将CLIP模型迁移到LMM上，并评估PMI对LMM性能的影响。

关键创新：论文的关键创新在于将预训练数据中的词共现统计信息（PMI）与多模态模型的组合泛化能力联系起来。通过实验证明，PMI与模型性能之间存在很强的相关性，这为理解和改进多模态模型的泛化能力提供了一个新的视角。

关键设计：论文使用了点互信息(PMI)来量化词语的共现程度。PMI的计算公式为：PMI(x, y) = log(p(x, y) / (p(x) * p(y)))，其中p(x, y)是x和y共同出现的概率，p(x)和p(y)分别是x和y单独出现的概率。作者通过控制合成图像中概念对的PMI值，以及编辑自然图像来改变概念对的PMI值，从而研究PMI对模型性能的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CLIP预训练数据中的PMI与CLIP模型的零样本准确率之间存在显著相关性(r=0.97)，PMI值最高和最低的5%的图像之间存在14%的准确率差距。在自然图像上，通过编辑图像改变PMI值，也观察到类似的关联(r=0.75)。此外，这种关联性可以迁移到LMM上，TextVQA任务的相关性为r=0.70，VQAv2任务的相关性为r=0.62。

🎯 应用场景

该研究成果可应用于提升多模态模型在图像理解、视觉问答等任务中的性能，尤其是在处理包含罕见概念组合的场景时。通过优化预训练数据或改进模型架构，可以提高模型在实际应用中的可靠性和泛化能力，例如在自动驾驶、医疗影像分析等领域。

📄 摘要（原文）

CLIP and large multimodal models (LMMs) have better accuracy on examples involving concepts that are highly represented in the training data. However, the role of concept combinations in the training data on compositional generalization is largely unclear -- for instance, how does accuracy vary when a common object appears in an uncommon pairing with another object? In this paper, we investigate how word co-occurrence statistics in the pretraining dataset (a proxy for co-occurrence of visual concepts) impacts CLIP/LMM performance. To disentangle the effects of word co-occurrence frequencies from single-word frequencies, we measure co-occurrence with pointwise mutual information (PMI), which normalizes the joint probability of two words co-occurring by the probability of co-occurring independently. Using synthetically generated images with a variety of concept pairs, we show a strong correlation between PMI in the CLIP pretraining data and zero-shot accuracy in CLIP models trained on LAION-400M (r=0.97 and 14% accuracy gap between images in the top and bottom 5% of PMI values), demonstrating that even accuracy on common concepts is affected by the combination of concepts in the image. Leveraging this finding, we reproduce this effect in natural images by editing them to contain pairs with varying PMI, resulting in a correlation of r=0.75. Finally, we demonstrate that this behavior in CLIP transfers to LMMs built on top of CLIP (r=0.70 for TextVQA, r=0.62 for VQAv2). Our findings highlight the need for algorithms and architectures that improve compositional generalization in multimodal models without scaling the training data combinatorially. Our code is available at https://github.com/helenqu/multimodal-pretraining-pmi.

Impact of Pretraining Word Co-occurrence on Compositional Generalization in Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理