Modeling the language cortex with form-independent and enriched representations of sentence meaning reveals remarkable semantic abstractness

📄 arXiv: 2510.02354v1 📥 PDF

作者: Shreya Saha, Shurui Li, Greta Tuckute, Yuanning Li, Ru-Yuan Zhang, Leila Wehbe, Evelina Fedorenko, Meenakshi Khosla

分类: cs.CL, cs.LG

发布日期: 2025-09-27


💡 一句话要点

提出基于视觉和语言模型的抽象语义表示以揭示语言皮层特征

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言皮层 抽象语义 视觉模型 同义句增强 神经反应预测 多模态融合 上下文信息

📋 核心要点

  1. 现有方法对语言意义的抽象表示缺乏深入理解,导致对语言皮层的研究存在争议。
  2. 本文提出通过视觉和语言模型的嵌入来建模句子的神经反应,以探索语言皮层的抽象意义表示。
  3. 实验结果表明,聚合多个生成图像和同义句的嵌入显著提高了语言皮层反应的预测准确性,超越了传统语言模型的表现。

📝 摘要(中文)

人类语言系统同时表示语言形式和意义,但意义表示的抽象性仍存在争议。本文通过建模神经反应,探索语言皮层中的抽象意义表示。研究发现,通过生成与句子对应的图像并提取视觉模型嵌入,多个生成图像的聚合能够显著提高语言皮层反应的预测准确性,甚至可与大型语言模型相媲美。此外,多个同义句的嵌入平均化也提升了预测准确性。通过增强同义句的上下文细节,进一步提高了预测准确性,表明语言系统保持比语言模型更丰富的语义表示。这些结果展示了语言皮层中存在高度抽象的、形式无关的意义表示。

🔬 方法详解

问题定义:本文旨在解决对语言皮层中意义表示的抽象性理解不足的问题。现有方法主要依赖于语言模型,未能充分考虑视觉信息的影响。

核心思路:通过生成与句子对应的图像并提取视觉模型的嵌入,结合多种同义句的上下文信息,来提升对语言皮层神经反应的预测准确性。

技术框架:研究流程包括生成图像、提取视觉嵌入、聚合多个图像的嵌入、以及对同义句进行上下文增强,最终通过神经网络模型进行预测。

关键创新:最重要的创新在于提出了将视觉信息与语言信息结合的方式,形成了形式无关的抽象意义表示,这与传统依赖语言模型的研究方法有本质区别。

关键设计:在模型设计中,采用了多种损失函数来优化预测准确性,并通过上下文增强技术提升同义句的表达能力,确保模型能够捕捉更丰富的语义信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,聚合多个生成图像的嵌入使得语言皮层反应的预测准确性显著提高,某些情况下甚至超过了大型语言模型的表现。此外,增强同义句的上下文细节后,预测准确性进一步提升,表明语言系统具有更丰富的语义表示能力。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、计算机视觉和人机交互等。通过更好地理解语言皮层的抽象表示,可以推动智能助手、翻译系统和语义理解等技术的发展,提升其在复杂语言环境中的表现。

📄 摘要(原文)

The human language system represents both linguistic forms and meanings, but the abstractness of the meaning representations remains debated. Here, we searched for abstract representations of meaning in the language cortex by modeling neural responses to sentences using representations from vision and language models. When we generate images corresponding to sentences and extract vision model embeddings, we find that aggregating across multiple generated images yields increasingly accurate predictions of language cortex responses, sometimes rivaling large language models. Similarly, averaging embeddings across multiple paraphrases of a sentence improves prediction accuracy compared to any single paraphrase. Enriching paraphrases with contextual details that may be implicit (e.g., augmenting "I had a pancake" to include details like "maple syrup") further increases prediction accuracy, even surpassing predictions based on the embedding of the original sentence, suggesting that the language system maintains richer and broader semantic representations than language models. Together, these results demonstrate the existence of highly abstract, form-independent meaning representations within the language cortex.