Cross-modal Associations in Vision and Language Models: Revisiting the Bouba-Kiki Effect
作者: Tom Kouwenhoven, Kiana Shahrasbi, Tessa Verhoef
分类: cs.CV, cs.CL
发布日期: 2025-07-14 (更新: 2025-10-15)
备注: Presented at the Thirty-Ninth Annual Conference on Neural Information Processing Systems (2025)
💡 一句话要点
重新审视Bouba-Kiki效应:评估视觉-语言模型中的跨模态关联能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 跨模态学习 Bouba-Kiki效应 CLIP模型 Grad-CAM 认知科学 模型评估
📋 核心要点
- 现有的视觉-语言模型(VLMs)在跨模态信息整合方面是否能反映人类认知,仍存在争议,尤其是在bouba-kiki效应等经典认知测试中。
- 该研究采用基于提示的概率评估和Grad-CAM可视化注意力两种方法,深入分析了CLIP模型的ResNet和ViT变体在bouba-kiki效应上的表现。
- 实验结果表明,CLIP模型并未稳定展现bouba-kiki效应,与人类在该任务上的表现存在显著差距,揭示了VLMs在跨模态理解上的局限性。
📝 摘要(中文)
多模态模型的最新进展引发了关于视觉-语言模型(VLMs)是否以反映人类认知的方式整合跨模态信息的问题。一个经过充分研究的案例是bouba-kiki效应,即人类倾向于将“bouba”这样的伪词与圆形关联,而将“kiki”与锯齿形关联。鉴于先前研究中关于VLMs中此效应的证据不一,我们对CLIP的两个变体,ResNet和Vision Transformer (ViT)进行了全面的重新评估,因为它们在许多最先进的VLMs中占据中心地位。我们应用了两种与人类实验紧密结合的互补方法:一种基于提示的评估,使用概率作为模型偏好的度量;另一种使用Grad-CAM作为一种新颖的方法来解释形状-词匹配任务中的视觉注意力。我们的研究结果表明,这些模型变体并未一致地表现出bouba-kiki效应。虽然ResNet显示出对圆形形状的偏好,但两种模型变体的总体性能都缺乏预期的关联。此外,与先前人类在同一任务上的数据的直接比较表明,模型的反应远未达到人类认知中稳健的、模态整合的行为特征。这些结果有助于正在进行的关于VLMs在多大程度上真正理解跨模态概念的辩论,突出了它们内部表示和与人类直觉对齐方面的局限性。
🔬 方法详解
问题定义:论文旨在评估视觉-语言模型(VLMs)是否能够像人类一样表现出Bouba-Kiki效应,即对特定形状(圆形或锯齿形)与特定发音(如“bouba”或“kiki”)之间建立稳定的关联。现有研究对VLMs在此效应上的表现存在不一致的结论,需要更深入的分析。
核心思路:论文的核心思路是通过模拟人类实验的方法,设计针对VLMs的评估方案,包括基于提示的概率评估和基于Grad-CAM的视觉注意力分析。通过这两种互补的方法,更全面地了解VLMs在形状-词匹配任务中的表现,并与人类数据进行直接比较。
技术框架:论文主要使用了CLIP模型的两个变体:ResNet和Vision Transformer (ViT)。评估流程包括:1) 准备包含圆形和锯齿形图像的数据集;2) 设计基于提示的评估方案,例如“This is a bouba/kiki”;3) 使用CLIP模型计算图像和文本提示之间的相似度,并将其转化为概率;4) 使用Grad-CAM可视化模型在形状-词匹配任务中的视觉注意力;5) 将模型结果与先前的人类数据进行比较。
关键创新:论文的关键创新在于:1) 采用Grad-CAM来解释VLMs在形状-词匹配任务中的视觉注意力,这是一种新颖的应用;2) 将模型结果与先前的人类数据进行直接比较,从而更清晰地揭示了VLMs与人类认知之间的差距;3) 对CLIP模型的两个重要变体(ResNet和ViT)进行了全面的评估,提供了更可靠的结论。
关键设计:在基于提示的评估中,论文使用了多种提示模板,例如“This is a bouba/kiki”、“A picture of bouba/kiki”等,以减少提示对结果的影响。Grad-CAM的可视化使用了默认参数,重点关注模型在图像上的注意力区域。在与人类数据比较时,论文使用了相同的形状和词汇,以确保比较的公平性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CLIP模型的ResNet和ViT变体并未稳定展现bouba-kiki效应。虽然ResNet对圆形形状表现出一定的偏好,但总体性能远低于人类水平。与人类数据的直接比较显示,模型在跨模态整合方面存在显著不足,突显了VLMs在理解抽象概念和建立跨模态关联方面的局限性。
🎯 应用场景
该研究有助于深入理解视觉-语言模型在跨模态理解方面的能力,并揭示其与人类认知的差距。研究结果可以指导未来VLMs的设计,使其更符合人类的认知方式,从而在人机交互、图像描述、视觉推理等领域实现更自然、更可靠的应用。
📄 摘要(原文)
Recent advances in multimodal models have raised questions about whether vision-and-language models (VLMs) integrate cross-modal information in ways that reflect human cognition. One well-studied test case in this domain is the bouba-kiki effect, where humans reliably associate pseudowords like
bouba' with round shapes andkiki' with jagged ones. Given the mixed evidence found in prior studies for this effect in VLMs, we present a comprehensive re-evaluation focused on two variants of CLIP, ResNet and Vision Transformer (ViT), given their centrality in many state-of-the-art VLMs. We apply two complementary methods closely modelled after human experiments: a prompt-based evaluation that uses probabilities as a measure of model preference, and we use Grad-CAM as a novel approach to interpret visual attention in shape-word matching tasks. Our findings show that these model variants do not consistently exhibit the bouba-kiki effect. While ResNet shows a preference for round shapes, overall performance across both model variants lacks the expected associations. Moreover, direct comparison with prior human data on the same task shows that the models' responses fall markedly short of the robust, modality-integrated behaviour characteristic of human cognition. These results contribute to the ongoing debate about the extent to which VLMs truly understand cross-modal concepts, highlighting limitations in their internal representations and alignment with human intuitions.