A Grounded Typology of Word Classes

📄 arXiv: 2412.10369v1 📥 PDF

作者: Coleman Haley, Sharon Goldwater, Edoardo Ponti

分类: cs.CL, cs.CV

发布日期: 2024-12-13

备注: 19 pages, 5 figures


💡 一句话要点

提出一种基于多模态语言模型的词类语义内容度量方法,用于跨语言词类类型学研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 语言类型学 具身认知 词类语义 跨语言研究

📋 核心要点

  1. 现有语言类型学研究缺乏量化的跨语言语义内容比较方法,难以客观评估词类的语义功能。
  2. 论文提出“具身性”概念,利用多模态语言模型计算图像和文本之间的语义关联,量化词类的语义内容。
  3. 实验结果表明,该方法能有效区分功能词和内容词,并揭示了跨语言词类具身性等级的普遍趋势。

📝 摘要(中文)

我们提出了一种基于具身认知的语言类型学意义研究方法。我们将来自感知模态(如图像)的数据视为与语言无关的意义表示。因此,我们可以量化跨语言的图像和标题之间的功能-形式关系。受信息论的启发,我们定义了“具身性”,这是一种上下文语义内容度的经验度量(表示为惊异度的差异),可以使用多语言多模态语言模型进行计算。作为概念验证,我们将此度量应用于词类类型学。我们的度量捕捉了跨语言的功能(语法)类和词汇(内容)类之间的内容性不对称性,但与功能类不传达内容的观点相矛盾。此外,我们发现了具身性等级中的普遍趋势(例如,名词>形容词>动词),并表明我们的度量与英语中的心理语言学具体性规范部分相关。我们发布了一个包含 30 种语言的具身性评分的数据集。我们的结果表明,具身认知类型学方法可以为语言中的语义功能提供定量证据。

🔬 方法详解

问题定义:论文旨在解决语言类型学中词类语义内容难以量化比较的问题。现有方法主要依赖人工标注或语言学理论,缺乏客观的跨语言语义内容度量标准,难以深入研究不同语言中词类的语义功能差异。

核心思路:论文的核心思路是将图像作为语言无关的意义表示,通过计算图像和文本之间的关联程度来量化词类的语义内容。这种方法基于具身认知理论,认为语言的意义来源于与外部世界的交互。

技术框架:论文的技术框架主要包括以下几个步骤:1) 构建多语言多模态数据集,包含图像和对应的多语言文本描述;2) 使用多模态语言模型(如CLIP)计算图像和文本的嵌入向量;3) 定义“具身性”指标,即给定图像条件下,目标词出现与不出现时文本惊异度(surprisal)的差异;4) 计算不同词类在不同语言中的具身性得分,并进行统计分析。

关键创新:论文的关键创新在于提出了基于多模态语言模型的“具身性”度量方法,将图像作为语义的锚点,实现了跨语言的词类语义内容量化比较。该方法摆脱了对特定语言学理论的依赖,能够更客观地评估词类的语义功能。

关键设计:论文的关键设计包括:1) 使用CLIP模型提取图像和文本的嵌入向量,保证了多模态表示的对齐;2) 使用惊异度差异作为具身性指标,能够有效捕捉目标词对文本语义的贡献;3) 构建了包含30种语言的具身性评分数据集,为跨语言研究提供了数据基础。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够有效区分功能词和内容词,并揭示了跨语言词类具身性等级的普遍趋势(名词>形容词>动词)。此外,该度量与英语中的心理语言学具体性规范存在部分相关性,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于跨语言自然语言处理、机器翻译、语言教学等领域。通过量化词类的语义内容,可以提升机器翻译的准确性和流畅性,优化语言教学策略,并为跨语言信息检索提供更有效的语义表示。

📄 摘要(原文)

We propose a grounded approach to meaning in language typology. We treat data from perceptual modalities, such as images, as a language-agnostic representation of meaning. Hence, we can quantify the function--form relationship between images and captions across languages. Inspired by information theory, we define "groundedness", an empirical measure of contextual semantic contentfulness (formulated as a difference in surprisal) which can be computed with multilingual multimodal language models. As a proof of concept, we apply this measure to the typology of word classes. Our measure captures the contentfulness asymmetry between functional (grammatical) and lexical (content) classes across languages, but contradicts the view that functional classes do not convey content. Moreover, we find universal trends in the hierarchy of groundedness (e.g., nouns > adjectives > verbs), and show that our measure partly correlates with psycholinguistic concreteness norms in English. We release a dataset of groundedness scores for 30 languages. Our results suggest that the grounded typology approach can provide quantitative evidence about semantic function in language.