Beyond bouba/kiki: Multidimensional semantic signals are deeply woven into the fabric of natural language

📄 arXiv: 2603.17306v1 📥 PDF

作者: Gexin Zhao

分类: cs.CL, q-bio.NC

发布日期: 2026-03-18

备注: 24 pages, 5 figures


💡 一句话要点

揭示自然语言中音素与多维语义信号的深刻关联

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 声音象征主义 音素语义 大型语言模型 最小对范式 跨语言研究

📋 核心要点

  1. 传统语言学认为语音与语义关联是任意的,但越来越多的证据表明存在声音象征主义。
  2. 该研究通过最小对范式,揭示了英语音素与多维语义信号之间的系统性关联。
  3. 实验结果表明,大型语言模型能够学习并预测这种关联,且人类行为数据也证实了这一发现。

📝 摘要(中文)

语言学的一个基本假设是词语的声音和意义之间的关系是任意的。然而,来自声音象征主义的证据不断积累,对这一观点提出了挑战。本研究系统地映射了语言中每个音位单元的多维语义特征。我们发现,英语中单个字母音素携带结构化的多维语义信号。通过涵盖所有220个字母对对比的最小对范式,三个大型语言模型独立地恢复了跨越九个感知维度的一致的音素-意义关联。这些关联可以通过发音语音特征进行系统地预测,其中发音方式和发音部位映射到不同的语义维度。来自英语使用者的行为数据以远高于偶然的概率(80.8%)证实了这些模式,并且来自五种类型学上不同的语言的初步跨语言证据表明,核心映射可以推广到英语之外。我们的发现表明,声音-意义的象似性不是一种偶然的好奇现象,而是一种普遍存在的、结构化的语音信号属性,这种属性非常系统,以至于大型语言模型仅在给定文本输入的情况下就能恢复它,而无需在任务期间接触语音或发音。

🔬 方法详解

问题定义:现有语言学研究普遍认为词语的声音和意义之间的关系是任意的,缺乏对语音和语义之间系统性关联的深入研究。现有方法难以全面地、系统性地揭示语音单元与多维语义之间的关系,并且缺乏跨语言的验证。

核心思路:该研究的核心思路是利用最小对范式,系统性地分析英语中所有字母音素对的对比,并借助大型语言模型来学习和预测音素与多维语义之间的关联。通过分析发音语音特征与语义维度之间的关系,揭示语音如何携带语义信息。

技术框架:该研究的技术框架主要包括以下几个阶段: 1. 构建包含所有220个字母对对比的最小对范式。 2. 使用三个大型语言模型(具体模型未知)来学习和预测音素与九个感知维度之间的关联。 3. 分析发音语音特征(如发音方式和发音部位)与语义维度之间的关系。 4. 通过行为实验,验证英语使用者对音素-意义关联的感知。 5. 进行跨语言验证,分析五种不同语言中音素-意义关联的普遍性。

关键创新:该研究的关键创新在于: 1. 系统性地映射了语言中每个音位单元的多维语义特征,填补了现有研究的空白。 2. 证明了大型语言模型可以在没有语音或发音信息的情况下,仅通过文本学习音素-意义关联。 3. 提供了跨语言证据,表明音素-意义关联可能具有一定的普遍性。

关键设计:该研究的关键设计包括: 1. 使用最小对范式来控制语义变量,突出音素差异的影响。 2. 选择九个感知维度(具体维度未知)来捕捉语义信息的不同方面。 3. 利用大型语言模型强大的学习能力来发现音素-意义关联。 4. 通过行为实验来验证语言模型的预测结果。

📊 实验亮点

该研究发现,大型语言模型能够独立地恢复跨越九个感知维度的一致的音素-意义关联。行为实验表明,英语使用者能够以远高于偶然的概率(80.8%)感知到这些关联。初步的跨语言证据表明,核心映射可能具有一定的普遍性,超越英语的范围。

🎯 应用场景

该研究成果可应用于语音合成、自然语言理解、语言教学等领域。例如,在语音合成中,可以利用音素的语义信息来提高合成语音的自然度和表现力。在自然语言理解中,可以利用音素的语义信息来辅助词义消歧和情感分析。此外,该研究还有助于我们更深入地理解语言的本质和人类认知。

📄 摘要(原文)

A foundational assumption in linguistics holds that the relationship between a word's sound and its meaning is arbitrary. Accumulating evidence from sound symbolism challenges this view, yet no study has systematically mapped the multidimensional semantic profile of every phonological unit within a language. Here we show that individual letter-phonemes in English carry structured, multidimensional semantic signals. Using a minimal-pair paradigm spanning all 220 pairwise letter contrasts, three large language models independently recover consistent phoneme-meaning associations across nine perceptual dimensions. These associations are systematically predicted by articulatory-phonetic features, with manner and place of articulation mapping onto distinct semantic dimensions. Behavioral data from English speakers confirm these patterns at rates well above chance (80.8%), and preliminary cross-linguistic evidence from five typologically diverse languages suggests that core mappings generalize beyond English. Our findings indicate that sound-meaning iconicity is not an occasional curiosity but a pervasive, structured property of the phonological signal, one so systematic that large language models recover it when given only text input, without exposure to speech or articulation during the task.