Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

📄 arXiv: 2510.24541v1 📥 PDF

作者: Seyoung Song, Nawon Kim, Songeun Chae, Kiwoong Park, Jiho Jin, Haneul Yoo, Kyunghyun Cho, Alice Oh

分类: cs.CL

发布日期: 2025-10-28

备注: Dataset and code available at https://github.com/seyoungsong/OKHC


💡 一句话要点

构建大规模开放韩语历史语料库,促进韩语历史变迁的量化研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 韩语历史语料库 历时语言学 自然语言处理 韩语演变 吏读 汉字-韩文混合 语言资源

📋 核心要点

  1. 韩语口语和书面形式的差异以及从汉字到韩文的关键转变,使得韩语历史语言研究面临缺乏可访问历史语料库的挑战。
  2. 本文构建了一个大规模、开放许可的韩语历史语料库,涵盖多种语言和书写系统,旨在促进对韩语历史演变的量化分析。
  3. 通过对语料库的分析,论文量化了吏读使用、汉字到韩文的转变以及南北韩词汇差异等重要语言变化。

📝 摘要(中文)

本文介绍了开放韩语历史语料库(Open Korean Historical Corpus),这是一个大规模、开放许可的数据集,跨越1300年历史和6种语言,包括韩式汉文(Idu)和汉字-韩文混合脚本等代表性不足的书写系统。该语料库包含来自19个来源的1800万份文档和50亿个tokens,时间范围从7世纪到2025年。我们利用该资源定量分析了主要的语言转变:(1)吏读的使用在19世纪60年代达到顶峰,之后急剧下降;(2)从汉字到韩文的转变是一个始于1890年左右的快速转型;(3)朝鲜的词汇差异导致现代分词器产生高达51倍的词汇表外(OOV)比率。这项工作为量化历时分析提供了基础资源,捕捉了韩语的历史。此外,它可以作为大型语言模型的预训练语料库,潜在地提高它们对现代韩文中汉字词汇以及古代书写系统的理解。

🔬 方法详解

问题定义:现有的韩语自然语言处理研究缺乏大规模、高质量的历史语料库,这限制了对韩语历史演变的深入研究。特别是,韩语书写系统经历了从吏读、汉字到韩文的复杂转变,现有方法难以有效处理这些历史文本,导致对韩语历史语言变迁的理解不足。

核心思路:本文的核心思路是构建一个大规模、开放许可的韩语历史语料库,覆盖多种历史时期的文本和书写系统,从而为韩语历史语言研究提供基础资源。通过对该语料库的定量分析,可以揭示韩语历史演变的关键趋势和规律。

技术框架:该语料库的构建主要包括以下几个阶段:1) 数据收集:从19个不同的来源收集了1800万份文档,涵盖7世纪到2025年;2) 数据清洗和预处理:对收集到的文本进行清洗和格式化,使其适用于自然语言处理任务;3) 语言学分析:利用该语料库对韩语历史演变进行定量分析,例如吏读的使用趋势、汉字到韩文的转变等。

关键创新:该论文的关键创新在于构建了一个大规模、开放许可的韩语历史语料库,该语料库覆盖了多种历史时期的文本和书写系统,包括韩式汉文(Idu)和汉字-韩文混合脚本等代表性不足的书写系统。与现有方法相比,该语料库为韩语历史语言研究提供了更全面、更可靠的数据基础。

关键设计:该语料库的关键设计包括:1) 覆盖时间范围广:从7世纪到2025年,涵盖了韩语历史演变的主要阶段;2) 包含多种书写系统:包括韩文、汉字、吏读等,反映了韩语书写系统的复杂性;3) 开放许可:允许研究人员自由使用和分享该语料库,促进韩语历史语言研究的进展。

📊 实验亮点

实验结果表明,该语料库能够有效揭示韩语历史演变的关键趋势。例如,通过分析语料库,论文发现吏读的使用在19世纪60年代达到顶峰后急剧下降,汉字到韩文的转变始于1890年左右。此外,朝鲜的词汇差异导致现代分词器产生高达51倍的词汇表外(OOV)比率,突显了历史语料库在处理特定语言变体时的重要性。

🎯 应用场景

该研究成果可应用于历史文献的自动分析、古籍数字化、韩语语言教学等领域。通过对历史语料的分析,可以更好地理解韩语的演变过程,为现代韩语的理解和应用提供历史视角。此外,该语料库还可以作为大型语言模型的预训练数据,提高模型对韩语历史文本的理解能力,从而提升其在相关任务上的性能。

📄 摘要(原文)

The history of the Korean language is characterized by a discrepancy between its spoken and written forms and a pivotal shift from Chinese characters to the Hangul alphabet. However, this linguistic evolution has remained largely unexplored in NLP due to a lack of accessible historical corpora. To address this gap, we introduce the Open Korean Historical Corpus, a large-scale, openly licensed dataset spanning 1,300 years and 6 languages, as well as under-represented writing systems like Korean-style Sinitic (Idu) and Hanja-Hangul mixed script. This corpus contains 18 million documents and 5 billion tokens from 19 sources, ranging from the 7th century to 2025. We leverage this resource to quantitatively analyze major linguistic shifts: (1) Idu usage peaked in the 1860s before declining sharply; (2) the transition from Hanja to Hangul was a rapid transformation starting around 1890; and (3) North Korea's lexical divergence causes modern tokenizers to produce up to 51 times higher out-of-vocabulary rates. This work provides a foundational resource for quantitative diachronic analysis by capturing the history of the Korean language. Moreover, it can serve as a pre-training corpus for large language models, potentially improving their understanding of Sino-Korean vocabulary in modern Hangul as well as archaic writing systems.