A multimodal multiplex of the mental lexicon for multilingual individuals

📄 arXiv: 2511.05361v1 📥 PDF

作者: Maria Huynh, Wilder C. Rodrigues

分类: cs.CL, cs.AI

发布日期: 2025-11-07


💡 一句话要点

提出多模态多层心理词汇模型,研究多语者词汇组织及视觉输入影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语者 心理词汇 多模态 视觉输入 语言习得

📋 核心要点

  1. 现有研究对多语者心理词汇的结构和不同语言间的相互影响机制尚不明确,缺乏多模态信息的整合。
  2. 构建多模态多层心理词汇模型,将视觉输入整合到多语种词汇表征中,研究视觉信息对语言习得的影响。
  3. 通过翻译任务对比有无视觉输入条件下的表现,评估视觉输入对多语者语言熟练度和准确性的影响。

📝 摘要(中文)

长期以来,双语能力常被视为一种额外的认知负担,可能阻碍语言和智力发展。然而,在过去的三十年中,这种观点发生了显著变化。大量研究旨在建模和理解双语词汇识别系统的架构,调查并行激活在大脑中的运作方式以及一种语言如何影响另一种语言。越来越多的证据表明,多语者(说三种或三种以上语言的人)在各种语言和认知任务中,例如学习一门额外的语言,可以比单语者表现更好。本研究计划侧重于研究心理词汇,以及它在说多种语言的个体中是如何构建的。基于 Stella 等人 (2018) 使用心理词汇的多层模型研究人类的爆发式学习,以及 Dijkstra 和 van Heuven (2002) 提出的双语互动激活 (BIA+) 框架,本研究应用了 Kivela 等人 (2014) 提出的相同多层网络原则。我们的实验设计通过将多模态融入多层模型来扩展先前的研究,引入一个额外的层,将视觉输入连接到心理词汇的多语层中相应的词汇表征。在本研究中,我们旨在探索母语如何影响另一种语言的习得。具体来说,我们提出以下问题:在翻译任务中,与纯文本条件相比,视觉输入的出现是否会影响参与者的熟练程度和准确性?

🔬 方法详解

问题定义:论文旨在研究多语者心理词汇的组织方式,以及视觉输入如何影响多语者学习和使用不同语言。现有方法通常只关注文本信息,忽略了视觉信息在语言学习和处理中的作用。此外,现有模型对多语者不同语言之间的相互影响机制建模不足,难以解释母语对后续语言学习的影响。

核心思路:论文的核心思路是将多模态信息(特别是视觉信息)整合到多层心理词汇模型中,通过研究视觉输入对翻译任务的影响,揭示视觉信息在多语者语言处理中的作用。这种设计基于以下假设:视觉信息可以激活相应的词汇表征,从而影响语言的理解和生成。

技术框架:论文采用多层网络结构来模拟多语者的心理词汇。该框架包含多个语言层,每个语言层代表一种语言的词汇表征。此外,该框架还包含一个视觉输入层,用于接收视觉信息。视觉输入层与各个语言层之间存在连接,允许视觉信息激活相应的词汇表征。整体流程是:首先,向参与者展示视觉或文本刺激;然后,参与者进行翻译任务;最后,分析参与者的翻译结果,评估视觉输入对语言熟练度和准确性的影响。

关键创新:论文的关键创新在于将多模态信息整合到多层心理词汇模型中。与现有方法相比,该方法更全面地考虑了语言学习和处理过程中涉及的各种信息源。此外,该方法还能够更好地模拟多语者不同语言之间的相互影响机制。

关键设计:论文的关键设计包括:1) 使用多层网络结构来模拟多语者的心理词汇;2) 引入视觉输入层,将视觉信息整合到模型中;3) 设计翻译任务,评估视觉输入对语言熟练度和准确性的影响。具体的参数设置、损失函数和网络结构等技术细节在摘要中没有提及,属于未知信息。

📊 实验亮点

摘要中未提供具体的实验结果数据,因此无法总结实验亮点。但该研究设计通过对比有无视觉输入条件下的翻译任务表现,旨在揭示视觉信息对多语者语言熟练度和准确性的影响,具有一定的研究价值。

🎯 应用场景

该研究成果可应用于多语种教育、机器翻译和跨文化交流等领域。通过了解视觉信息在多语者语言处理中的作用,可以设计更有效的语言教学方法,提高多语种学习效率。此外,该研究还可以为机器翻译系统提供新的思路,提高翻译的准确性和流畅性。在跨文化交流中,该研究可以帮助人们更好地理解不同文化背景下的语言使用习惯。

📄 摘要(原文)

Historically, bilingualism was often perceived as an additional cognitive load that could hinder linguistic and intellectual development. However, over the last three decades, this view has changed considerably. Numerous studies have aimed to model and understand the architecture of the bilingual word recognition system Dijkstra and van Heuven (2002), investigating how parallel activation operates in the brain and how one language influences another Kroll et al. (2015). Increasingly, evidence suggests that multilinguals, individuals who speak three or more languages, can perform better than monolinguals in various linguistic and cognitive tasks, such as learning an additional language Abu-Rabia and Sanitsky (2010). This research proposal focuses on the study of the mental lexicon and how it may be structured in individuals who speak multiple languages. Building on the work of Stella et al. (2018), who investigated explosive learning in humans using a multiplex model of the mental lexicon, and the Bilingual Interactive Activation (BIA+) framework proposed by Dijkstra and van Heuven (2002), the present study applies the same multilayer network principles introduced by Kivela et al. (2014). Our experimental design extends previous research by incorporating multimodality into the multiplex model, introducing an additional layer that connects visual inputs to their corresponding lexical representations across the multilingual layers of the mental lexicon. In this research, we aim to explore how a heritage language influences the acquisition of another language. Specifically, we ask: Does the presence of visual input in a translation task influence participants' proficiency and accuracy compared to text-only conditions?