Modeling the language cortex with form-independent and enriched representations of sentence meaning reveals remarkable semantic abstractness

📄 arXiv: 2510.02354v1 📥 PDF

作者: Shreya Saha, Shurui Li, Greta Tuckute, Yuanning Li, Ru-Yuan Zhang, Leila Wehbe, Evelina Fedorenko, Meenakshi Khosla

分类: cs.CL, cs.LG

发布日期: 2025-09-27


💡 一句话要点

利用形式无关且丰富的句子表征建模语言皮层,揭示显著的语义抽象性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言皮层 语义表征 视觉模型 语言模型 多重释义 神经建模 抽象语义 上下文增强

📋 核心要点

  1. 现有语言模型在理解句子含义的抽象性方面存在局限,未能充分捕捉人类语言皮层的复杂语义表征。
  2. 该研究通过结合视觉和语言模型,并对句子进行多重释义和上下文增强,来探究语言皮层中抽象语义表征。
  3. 实验表明,聚合视觉信息和增强释义能显著提高语言皮层反应的预测准确性,超越了传统语言模型。

📝 摘要(中文)

人类语言系统同时表征语言形式和意义,但意义表征的抽象性仍存在争议。本文通过使用来自视觉和语言模型的表征来建模对句子的神经反应,从而在语言皮层中寻找抽象的意义表征。当生成与句子对应的图像并提取视觉模型嵌入时,发现聚合多个生成的图像可以产生越来越准确的语言皮层反应预测,有时甚至可以与大型语言模型相媲美。类似地,与任何单个释义相比,平均多个句子释义的嵌入可以提高预测准确性。用可能隐含的上下文细节丰富释义(例如,将“我吃了一个煎饼”扩展到包含“枫糖浆”等细节)进一步提高了预测准确性,甚至超过了基于原始句子嵌入的预测,表明语言系统维护着比语言模型更丰富和更广泛的语义表征。总之,这些结果证明了语言皮层中存在高度抽象的、形式无关的意义表征。

🔬 方法详解

问题定义:该论文旨在研究人类语言皮层如何以抽象的方式表征句子含义,并评估现有语言模型是否能够充分捕捉这种抽象性。现有语言模型在理解深层语义和上下文信息方面存在不足,无法完全解释语言皮层的神经活动。

核心思路:核心思路是通过结合视觉信息和多重释义来丰富句子的语义表征,并利用这些丰富的表征来预测语言皮层的神经反应。通过比较不同表征方式的预测准确性,可以推断语言皮层中语义表征的抽象程度和丰富程度。

技术框架:整体框架包括以下几个主要阶段:1) 句子表征生成:使用视觉模型(基于生成的图像)和语言模型(基于多重释义)生成句子的多种表征。2) 神经反应建模:使用生成的句子表征来预测语言皮层的神经反应。3) 预测准确性评估:比较不同表征方式的预测准确性,以评估其对语言皮层活动的解释能力。

关键创新:最重要的技术创新点在于结合了视觉信息和多重释义来增强句子的语义表征。与传统方法仅依赖语言模型不同,该方法利用视觉信息捕捉句子的具象含义,并利用多重释义捕捉句子的不同表达方式和上下文信息。

关键设计:关键设计包括:1) 使用图像生成模型将句子转化为视觉表征,并提取视觉模型的嵌入。2) 对句子进行多重释义,并使用语言模型提取每个释义的嵌入。3) 通过平均多个图像或释义的嵌入来获得更鲁棒的句子表征。4) 通过添加上下文细节来增强释义,例如将“我吃了一个煎饼”扩展到包含“枫糖浆”等细节。

📊 实验亮点

实验结果表明,通过聚合多个生成的图像,视觉模型可以产生与大型语言模型相媲美的语言皮层反应预测。此外,通过平均多个句子释义的嵌入,可以提高预测准确性。最重要的是,用上下文细节丰富释义可以进一步提高预测准确性,甚至超过基于原始句子嵌入的预测。

🎯 应用场景

该研究成果可应用于提升自然语言处理系统的语义理解能力,例如改进机器翻译、文本摘要和问答系统。通过更好地理解人类语言皮层的运作机制,可以开发出更智能、更人性化的AI系统,并为脑机接口等技术提供新的思路。

📄 摘要(原文)

The human language system represents both linguistic forms and meanings, but the abstractness of the meaning representations remains debated. Here, we searched for abstract representations of meaning in the language cortex by modeling neural responses to sentences using representations from vision and language models. When we generate images corresponding to sentences and extract vision model embeddings, we find that aggregating across multiple generated images yields increasingly accurate predictions of language cortex responses, sometimes rivaling large language models. Similarly, averaging embeddings across multiple paraphrases of a sentence improves prediction accuracy compared to any single paraphrase. Enriching paraphrases with contextual details that may be implicit (e.g., augmenting "I had a pancake" to include details like "maple syrup") further increases prediction accuracy, even surpassing predictions based on the embedding of the original sentence, suggesting that the language system maintains richer and broader semantic representations than language models. Together, these results demonstrate the existence of highly abstract, form-independent meaning representations within the language cortex.