Beyond bouba/kiki: Multidimensional semantic signals are deeply woven into the fabric of natural language

作者: Gexin Zhao

分类: cs.CL, q-bio.NC

发布日期: 2026-03-18

备注: 24 pages, 5 figures

💡 一句话要点

揭示自然语言中音素与多维语义信号的深刻关联

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 声音象征主义 音素语义 大型语言模型 最小对范式 跨语言研究

📋 核心要点

传统语言学认为语音与语义关联是任意的，但越来越多的证据表明存在声音象征主义。
该研究通过最小对范式，揭示了英语音素与多维语义信号之间的系统性关联。
实验结果表明，大型语言模型能够学习并预测这种关联，且人类行为数据也证实了这一发现。

📝 摘要（中文）

语言学的一个基本假设是词语的声音和意义之间的关系是任意的。然而，来自声音象征主义的证据不断积累，对这一观点提出了挑战。本研究系统地映射了语言中每个音位单元的多维语义特征。我们发现，英语中单个字母音素携带结构化的多维语义信号。通过涵盖所有220个字母对对比的最小对范式，三个大型语言模型独立地恢复了跨越九个感知维度的一致的音素-意义关联。这些关联可以通过发音语音特征进行系统地预测，其中发音方式和发音部位映射到不同的语义维度。来自英语使用者的行为数据以远高于偶然的概率（80.8%）证实了这些模式，并且来自五种类型学上不同的语言的初步跨语言证据表明，核心映射可以推广到英语之外。我们的发现表明，声音-意义的象似性不是一种偶然的好奇现象，而是一种普遍存在的、结构化的语音信号属性，这种属性非常系统，以至于大型语言模型仅在给定文本输入的情况下就能恢复它，而无需在任务期间接触语音或发音。

🔬 方法详解

问题定义：现有语言学研究普遍认为词语的声音和意义之间的关系是任意的，缺乏对语音和语义之间系统性关联的深入研究。现有方法难以全面地、系统性地揭示语音单元与多维语义之间的关系，并且缺乏跨语言的验证。

核心思路：该研究的核心思路是利用最小对范式，系统性地分析英语中所有字母音素对的对比，并借助大型语言模型来学习和预测音素与多维语义之间的关联。通过分析发音语音特征与语义维度之间的关系，揭示语音如何携带语义信息。

技术框架：该研究的技术框架主要包括以下几个阶段： 1. 构建包含所有220个字母对对比的最小对范式。 2. 使用三个大型语言模型（具体模型未知）来学习和预测音素与九个感知维度之间的关联。 3. 分析发音语音特征（如发音方式和发音部位）与语义维度之间的关系。 4. 通过行为实验，验证英语使用者对音素-意义关联的感知。 5. 进行跨语言验证，分析五种不同语言中音素-意义关联的普遍性。

关键创新：该研究的关键创新在于： 1. 系统性地映射了语言中每个音位单元的多维语义特征，填补了现有研究的空白。 2. 证明了大型语言模型可以在没有语音或发音信息的情况下，仅通过文本学习音素-意义关联。 3. 提供了跨语言证据，表明音素-意义关联可能具有一定的普遍性。

关键设计：该研究的关键设计包括： 1. 使用最小对范式来控制语义变量，突出音素差异的影响。 2. 选择九个感知维度（具体维度未知）来捕捉语义信息的不同方面。 3. 利用大型语言模型强大的学习能力来发现音素-意义关联。 4. 通过行为实验来验证语言模型的预测结果。

📊 实验亮点

该研究发现，大型语言模型能够独立地恢复跨越九个感知维度的一致的音素-意义关联。行为实验表明，英语使用者能够以远高于偶然的概率（80.8%）感知到这些关联。初步的跨语言证据表明，核心映射可能具有一定的普遍性，超越英语的范围。

🎯 应用场景

该研究成果可应用于语音合成、自然语言理解、语言教学等领域。例如，在语音合成中，可以利用音素的语义信息来提高合成语音的自然度和表现力。在自然语言理解中，可以利用音素的语义信息来辅助词义消歧和情感分析。此外，该研究还有助于我们更深入地理解语言的本质和人类认知。

📄 摘要（原文）

A foundational assumption in linguistics holds that the relationship between a word's sound and its meaning is arbitrary. Accumulating evidence from sound symbolism challenges this view, yet no study has systematically mapped the multidimensional semantic profile of every phonological unit within a language. Here we show that individual letter-phonemes in English carry structured, multidimensional semantic signals. Using a minimal-pair paradigm spanning all 220 pairwise letter contrasts, three large language models independently recover consistent phoneme-meaning associations across nine perceptual dimensions. These associations are systematically predicted by articulatory-phonetic features, with manner and place of articulation mapping onto distinct semantic dimensions. Behavioral data from English speakers confirm these patterns at rates well above chance (80.8%), and preliminary cross-linguistic evidence from five typologically diverse languages suggests that core mappings generalize beyond English. Our findings indicate that sound-meaning iconicity is not an occasional curiosity but a pervasive, structured property of the phonological signal, one so systematic that large language models recover it when given only text input, without exposure to speech or articulation during the task.

Beyond bouba/kiki: Multidimensional semantic signals are deeply woven into the fabric of natural language

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理