DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

📄 arXiv: 2602.11968v1 📥 PDF

作者: Mariia Fedorova, Andrey Kutuzov, Khonzoda Umarova

分类: cs.CL

发布日期: 2026-02-12

备注: LChange'26 workshop at the EACL 2026 conference


💡 一句话要点

DHPLT:大规模多语种历时语料库及词表示,用于语义变化建模

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 历时语料库 语义变化建模 多语种 词嵌入 自然语言处理 语言演变 网络爬取

📋 核心要点

  1. 现有语义变化建模缺乏多语种历时语料库,限制了对多种语言语义演变的深入研究。
  2. DHPLT通过构建大规模多语种历时语料库,并提供预计算的词嵌入和词汇替换,为语义变化建模提供数据基础。
  3. 该资源包含41种语言,覆盖三个时间段,并开放给研究人员自定义目标词,促进了该领域新的实验设计。

📝 摘要(中文)

本文介绍DHPLT,一个包含41种不同语言的开放历时语料库集合。DHPLT基于网络爬取的HPLT数据集,并使用网页爬取时间戳作为文档创建时间的近似信号。该集合覆盖三个时间段:2011-2015年、2020-2021年和2024年至今(每种语言每个时间段100万份文档)。我们还为选定的目标词提供了预计算的词类型和词元嵌入以及词汇替换,同时也允许其他研究人员使用相同的数据集提出他们自己的目标词。DHPLT旨在填补当前语义变化建模中多语种历时语料库的缺乏(超出十几种高资源语言)。它为该领域各种新的实验设置开辟了道路。本文描述的所有资源都可以在https://data.hplt-project.org/three/diachronic/上找到,并按语言排序。

🔬 方法详解

问题定义:现有的语义变化建模研究主要集中在高资源语言上,缺乏对多种语言的历时语料库支持。这限制了跨语言的语义变化比较研究,以及对低资源语言语义演变的深入理解。现有方法难以处理大规模、多语种的历时文本数据,需要更高效的资源和工具。

核心思路:DHPLT的核心思路是利用网络爬取数据的时间戳作为文档创建时间的近似信号,构建大规模的多语种历时语料库。通过提供预计算的词嵌入和词汇替换,降低研究人员的使用门槛,并鼓励他们基于该数据集进行自定义的语义变化分析。

技术框架:DHPLT的整体框架包括以下几个主要步骤:1) 基于HPLT数据集进行网络爬取;2) 使用网页爬取时间戳作为文档创建时间的近似;3) 构建三个时间段(2011-2015, 2020-2021, 2024-present)的语料库;4) 对语料库进行预处理,包括分词、词性标注等;5) 计算词类型和词元嵌入,并为选定的目标词提供词汇替换;6) 将所有资源按语言排序并发布。

关键创新:DHPLT的关键创新在于其大规模、多语种和历时性。它提供了41种语言的历时语料库,覆盖了三个时间段,这在现有的语义变化建模资源中是相对罕见的。此外,DHPLT还提供了预计算的词嵌入和词汇替换,降低了研究人员的使用门槛。

关键设计:DHPLT的关键设计包括:1) 使用网络爬取时间戳作为文档创建时间的近似,这是一种简单而有效的方法,可以构建大规模的历时语料库;2) 提供预计算的词嵌入和词汇替换,这可以帮助研究人员快速开始语义变化建模实验;3) 开放数据集,允许研究人员自定义目标词,这可以促进该领域的创新。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

DHPLT提供了41种语言的历时语料库,每种语言在三个时间段内各有100万份文档。通过预计算词嵌入和词汇替换,简化了语义变化建模的流程。该资源为低资源语言的语义变化研究提供了宝贵的数据支持。

🎯 应用场景

DHPLT可应用于历史语言学研究,帮助理解词汇语义随时间演变的过程。在自然语言处理领域,可用于提升机器翻译、情感分析等任务在处理历史文本时的准确性。此外,该资源还可用于社会科学研究,分析社会文化变迁对语言的影响。

📄 摘要(原文)

In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.