A quantitative and typological study of Early Slavic participle clauses and their competition

📄 arXiv: 2405.01972v3 📥 PDF

作者: Nilo Pedrazzini

分类: cs.CL, cs.IR

发布日期: 2024-05-03 (更新: 2024-05-08)

备注: 259 pages, 138 figures. DPhil Thesis in Linguistics submitted and defended at the University of Oxford (December 2023). This manuscript is a version formatted for improved readability and broader dissemination

DOI: 10.5287/ora-8gv0b4qyo


💡 一句话要点

定量分析早期斯拉夫语从句,研究分词结构及其与限定从句的竞争关系。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 早期斯拉夫语 分词从句 jegda-从句 语料库语言学 类型学 定量分析 语义空间 跨语言对比

📋 核心要点

  1. 研究早期斯拉夫语中分词结构和$jegda$-从句的功能,旨在理解它们在表达时间关系上的竞争与合作。
  2. 利用大规模语料库和细致的语言学标注,分析分词结构和$jegda$-从句的分布规律,揭示其潜在功能。
  3. 通过跨语言对比,研究不同语言表达“when”语义空间的方式,探索概念变异性。

📝 摘要(中文)

本论文采用基于语料库的定量和类型学分析方法,研究早期斯拉夫语分词结构的函数及其有限竞争者($jegda$-'when'-从句)。第一部分利用早期斯拉夫语语料库上详细的语言学标注,包括形态句法、依存关系、信息结构和词汇层面,为分词从句及其主要有限竞争者的不同潜在功能获取间接证据,并理解组合性和默认语篇推理在解释语料库中分词结构和$jegda$-从句分布中的作用。第二部分使用大规模并行数据来分析语言在表达英语$when$语义空间方面的类型学变异,其范围涵盖早期斯拉夫语分词结构和$jegda$-从句。生成概率语义图,并使用统计方法(包括克里金法、高斯混合模型、精确率和召回率分析)从并行语料库中提取跨语言显著维度,并研究假设概念WHEN语义空间内的概念变异。

🔬 方法详解

问题定义:论文旨在研究早期斯拉夫语中分词从句和$jegda$-从句在表达时间关系时的功能和竞争。现有方法缺乏对这些结构进行定量分析和类型学研究,难以深入理解其分布规律和潜在语义功能。

核心思路:论文的核心思路是结合语料库语言学和类型学方法,通过定量分析早期斯拉夫语语料库中分词从句和$jegda$-从句的分布,以及跨语言对比不同语言表达“when”语义空间的方式,来揭示这些结构的语义功能和竞争关系。

技术框架:论文的研究框架包括两个主要部分:1) 对早期斯拉夫语语料库进行详细的语言学标注,包括形态句法、依存关系、信息结构和词汇层面,然后利用这些标注信息进行定量分析,以获取分词从句和$jegda$-从句不同潜在功能的间接证据。2) 使用大规模并行数据,分析不同语言表达英语“when”语义空间的方式,生成概率语义图,并使用统计方法研究概念变异。

关键创新:论文的关键创新在于结合了语料库语言学和类型学方法,对早期斯拉夫语分词从句和$jegda$-从句进行了深入的定量分析和跨语言对比,从而揭示了这些结构的语义功能和竞争关系。此外,论文还使用了多种统计方法,如克里金法、高斯混合模型、精确率和召回率分析,来研究概念变异。

关键设计:论文的关键设计包括:1) 对早期斯拉夫语语料库进行详细的语言学标注,为定量分析提供基础数据。2) 使用大规模并行数据进行跨语言对比,以研究不同语言表达“when”语义空间的方式。3) 使用多种统计方法,如克里金法、高斯混合模型、精确率和召回率分析,来研究概念变异。具体的参数设置和模型结构在论文中未详细说明,属于未知信息。

📊 实验亮点

论文通过对早期斯拉夫语语料库的定量分析,揭示了分词结构和$jegda$-从句在表达时间关系时的不同功能和分布规律。通过跨语言对比,研究了不同语言表达“when”语义空间的方式,并使用统计方法量化了概念变异。具体的性能数据和提升幅度在摘要中未提及,属于未知信息。

🎯 应用场景

该研究成果可应用于历史语言学、类型学和语料库语言学等领域。通过深入理解早期斯拉夫语的语法结构和语义表达,可以为古代文献的解读和语言演变的研究提供新的视角。此外,该研究方法也可推广到其他语言和语法现象的研究中。

📄 摘要(原文)

This thesis is a corpus-based, quantitative, and typological analysis of the functions of Early Slavic participle constructions and their finite competitors ($jegda$-'when'-clauses). The first part leverages detailed linguistic annotation on Early Slavic corpora at the morphosyntactic, dependency, information-structural, and lexical levels to obtain indirect evidence for different potential functions of participle clauses and their main finite competitor and understand the roles of compositionality and default discourse reasoning as explanations for the distribution of participle constructions and $jegda$-clauses in the corpus. The second part uses massively parallel data to analyze typological variation in how languages express the semantic space of English $when$, whose scope encompasses that of Early Slavic participle constructions and $jegda$-clauses. Probabilistic semantic maps are generated and statistical methods (including Kriging, Gaussian Mixture Modelling, precision and recall analysis) are used to induce cross-linguistically salient dimensions from the parallel corpus and to study conceptual variation within the semantic space of the hypothetical concept WHEN.