Representations in vision and language converge in a shared, multidimensional space of perceived similarities

作者: Katerina Marie Simkova, Adrien Doerig, Clayton Hickey, Ian Charest

分类: q-bio.NC, cs.LG

发布日期: 2025-07-29

备注: 51 pages, 15 figures

💡 一句话要点

视觉与语言表征在感知的相似性共享多维空间中融合

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉表征 语言表征 多模态融合 相似性判断 大型语言模型

📋 核心要点

现有方法难以在视觉和语言之间建立共享的表征格式，阻碍了对人类认知过程的理解。
该研究通过行为实验和计算建模，探索视觉和语言表征在感知相似性上的融合。
实验表明，视觉和语言的相似性判断在行为和神经层面都趋于一致，并能被LLM嵌入有效预测。

📝 摘要（中文）

人类可以毫不费力地描述所见之物，但在视觉和语言之间建立共享的表征格式仍然是一个重大挑战。新出现的证据表明，人类大脑在视觉和语言中的表征可以被大型语言模型（LLM）获得的语义特征空间很好地预测。这提出了感官系统在将输入转换为共享的、类似嵌入的表征空间方面具有内在能力的可能。然而，这种空间如何在人类行为中体现仍然不清楚。为了研究这一点，63名参与者分别对来自自然场景数据集的100个自然场景图像和100个相应的句子标题进行了行为相似性判断。我们发现，视觉和语言的相似性判断不仅在行为层面融合，而且还预测了由观看自然场景图像引发的fMRI大脑反应的非常相似的网络。此外，经过训练将图像映射到LLM嵌入的计算模型在解释行为相似性结构方面优于类别训练和AlexNet对照模型。这些发现表明，人类视觉和语言的相似性判断是基于共享的、模态不可知的表征结构，该结构反映了视觉系统如何编码经验。感官和人工系统之间的融合表明了概念表征是如何形成的——不是作为一阶、特定于模态的输入的任意产物，而是作为反映外部世界稳定、关系属性的结构化表征。

🔬 方法详解

问题定义：论文旨在解决视觉和语言表征如何在大脑中融合的问题。现有方法通常将视觉和语言视为独立的模态，缺乏对它们之间共享表征空间的探索。这导致我们难以理解人类如何轻松地将视觉信息转化为语言描述，以及大脑如何整合来自不同感官的信息。

核心思路：论文的核心思路是，视觉和语言系统都能够将它们的输入转换成一个共享的、类似嵌入的表征空间。这个空间反映了外部世界的稳定、关系属性，并且是模态不可知的。通过研究人类对视觉和语言刺激的相似性判断，可以揭示这个共享表征空间的结构。

技术框架：研究采用了行为实验和神经影像学（fMRI）相结合的方法。首先，参与者对自然场景图像和相应的句子标题进行相似性判断。然后，使用fMRI记录参与者在观看自然场景图像时的大脑活动。最后，训练计算模型将图像映射到LLM嵌入，并评估这些模型解释行为相似性结构的能力。整体流程包括数据采集（行为和神经数据）、模型训练和评估、以及结果分析。

关键创新：该研究的关键创新在于，它证明了人类视觉和语言的相似性判断是基于一个共享的、模态不可知的表征结构。这个结构不仅反映在行为层面，也反映在神经层面。此外，研究还表明，经过训练将图像映射到LLM嵌入的计算模型能够很好地预测人类的相似性判断，这表明LLM嵌入可能捕捉到了大脑中视觉和语言表征的关键特征。

关键设计：研究使用了自然场景数据集（NSD），该数据集包含大量的自然场景图像和相应的句子标题。参与者被要求对图像和句子进行成对的相似性判断，并使用多维尺度分析（Multidimensional Scaling, MDS）来分析这些判断，从而构建行为相似性空间。fMRI数据使用标准预处理流程进行处理，并使用Representational Similarity Analysis (RSA) 将行为相似性空间与大脑活动模式进行比较。计算模型使用了卷积神经网络（CNN）作为视觉编码器，并使用LLM嵌入作为目标表征。损失函数使用了余弦相似度损失，以鼓励模型学习将图像映射到与相应句子标题相似的LLM嵌入。

📊 实验亮点

研究发现，人类对自然场景图像和对应文本描述的相似性判断高度一致，且这种一致性反映在fMRI大脑活动模式中。更重要的是，将图像映射到LLM嵌入的计算模型，在预测人类行为相似性判断方面，显著优于基于类别训练的模型和AlexNet，表明LLM嵌入有效捕捉了视觉和语言表征的共享结构。

🎯 应用场景

该研究成果可应用于开发更智能的多模态人工智能系统，例如能够理解图像并生成自然语言描述的视觉问答系统。此外，该研究对于理解人类认知过程，特别是视觉和语言之间的关系，具有重要的理论意义，并可能促进神经科学和人工智能的交叉研究。

📄 摘要（原文）

Humans can effortlessly describe what they see, yet establishing a shared representational format between vision and language remains a significant challenge. Emerging evidence suggests that human brain representations in both vision and language are well predicted by semantic feature spaces obtained from large language models (LLMs). This raises the possibility that sensory systems converge in their inherent ability to transform their inputs onto shared, embedding-like representational space. However, it remains unclear how such a space manifests in human behaviour. To investigate this, sixty-three participants performed behavioural similarity judgements separately on 100 natural scene images and 100 corresponding sentence captions from the Natural Scenes Dataset. We found that visual and linguistic similarity judgements not only converge at the behavioural level but also predict a remarkably similar network of fMRI brain responses evoked by viewing the natural scene images. Furthermore, computational models trained to map images onto LLM-embeddings outperformed both category-trained and AlexNet controls in explaining the behavioural similarity structure. These findings demonstrate that human visual and linguistic similarity judgements are grounded in a shared, modality-agnostic representational structure that mirrors how the visual system encodes experience. The convergence between sensory and artificial systems suggests a common capacity of how conceptual representations are formed-not as arbitrary products of first order, modality-specific input, but as structured representations that reflect the stable, relational properties of the external world.

Representations in vision and language converge in a shared, multidimensional space of perceived similarities

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理