Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

作者: Seyoung Song, Nawon Kim, Songeun Chae, Kiwoong Park, Jiho Jin, Haneul Yoo, Kyunghyun Cho, Alice Oh

分类: cs.CL

发布日期: 2025-10-28

备注: Dataset and code available at https://github.com/seyoungsong/OKHC

💡 一句话要点

构建大规模开放韩语历史语料库，促进韩语历史变迁的量化研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 韩语历史语料库 历时语言学 自然语言处理 韩语演变 吏读 汉字-韩文混合 语言资源

📋 核心要点

韩语口语和书面形式的差异以及从汉字到韩文的关键转变，使得韩语历史语言研究面临缺乏可访问历史语料库的挑战。
本文构建了一个大规模、开放许可的韩语历史语料库，涵盖多种语言和书写系统，旨在促进对韩语历史演变的量化分析。
通过对语料库的分析，论文量化了吏读使用、汉字到韩文的转变以及南北韩词汇差异等重要语言变化。

📝 摘要（中文）

本文介绍了开放韩语历史语料库(Open Korean Historical Corpus)，这是一个大规模、开放许可的数据集，跨越1300年历史和6种语言，包括韩式汉文(Idu)和汉字-韩文混合脚本等代表性不足的书写系统。该语料库包含来自19个来源的1800万份文档和50亿个tokens，时间范围从7世纪到2025年。我们利用该资源定量分析了主要的语言转变：(1)吏读的使用在19世纪60年代达到顶峰，之后急剧下降；(2)从汉字到韩文的转变是一个始于1890年左右的快速转型；(3)朝鲜的词汇差异导致现代分词器产生高达51倍的词汇表外(OOV)比率。这项工作为量化历时分析提供了基础资源，捕捉了韩语的历史。此外，它可以作为大型语言模型的预训练语料库，潜在地提高它们对现代韩文中汉字词汇以及古代书写系统的理解。

🔬 方法详解

问题定义：现有的韩语自然语言处理研究缺乏大规模、高质量的历史语料库，这限制了对韩语历史演变的深入研究。特别是，韩语书写系统经历了从吏读、汉字到韩文的复杂转变，现有方法难以有效处理这些历史文本，导致对韩语历史语言变迁的理解不足。

核心思路：本文的核心思路是构建一个大规模、开放许可的韩语历史语料库，覆盖多种历史时期的文本和书写系统，从而为韩语历史语言研究提供基础资源。通过对该语料库的定量分析，可以揭示韩语历史演变的关键趋势和规律。

技术框架：该语料库的构建主要包括以下几个阶段：1) 数据收集：从19个不同的来源收集了1800万份文档，涵盖7世纪到2025年；2) 数据清洗和预处理：对收集到的文本进行清洗和格式化，使其适用于自然语言处理任务；3) 语言学分析：利用该语料库对韩语历史演变进行定量分析，例如吏读的使用趋势、汉字到韩文的转变等。

关键创新：该论文的关键创新在于构建了一个大规模、开放许可的韩语历史语料库，该语料库覆盖了多种历史时期的文本和书写系统，包括韩式汉文(Idu)和汉字-韩文混合脚本等代表性不足的书写系统。与现有方法相比，该语料库为韩语历史语言研究提供了更全面、更可靠的数据基础。

关键设计：该语料库的关键设计包括：1) 覆盖时间范围广：从7世纪到2025年，涵盖了韩语历史演变的主要阶段；2) 包含多种书写系统：包括韩文、汉字、吏读等，反映了韩语书写系统的复杂性；3) 开放许可：允许研究人员自由使用和分享该语料库，促进韩语历史语言研究的进展。

📊 实验亮点

实验结果表明，该语料库能够有效揭示韩语历史演变的关键趋势。例如，通过分析语料库，论文发现吏读的使用在19世纪60年代达到顶峰后急剧下降，汉字到韩文的转变始于1890年左右。此外，朝鲜的词汇差异导致现代分词器产生高达51倍的词汇表外(OOV)比率，突显了历史语料库在处理特定语言变体时的重要性。

🎯 应用场景

该研究成果可应用于历史文献的自动分析、古籍数字化、韩语语言教学等领域。通过对历史语料的分析，可以更好地理解韩语的演变过程，为现代韩语的理解和应用提供历史视角。此外，该语料库还可以作为大型语言模型的预训练数据，提高模型对韩语历史文本的理解能力，从而提升其在相关任务上的性能。

📄 摘要（原文）

The history of the Korean language is characterized by a discrepancy between its spoken and written forms and a pivotal shift from Chinese characters to the Hangul alphabet. However, this linguistic evolution has remained largely unexplored in NLP due to a lack of accessible historical corpora. To address this gap, we introduce the Open Korean Historical Corpus, a large-scale, openly licensed dataset spanning 1,300 years and 6 languages, as well as under-represented writing systems like Korean-style Sinitic (Idu) and Hanja-Hangul mixed script. This corpus contains 18 million documents and 5 billion tokens from 19 sources, ranging from the 7th century to 2025. We leverage this resource to quantitatively analyze major linguistic shifts: (1) Idu usage peaked in the 1860s before declining sharply; (2) the transition from Hanja to Hangul was a rapid transformation starting around 1890; and (3) North Korea's lexical divergence causes modern tokenizers to produce up to 51 times higher out-of-vocabulary rates. This work provides a foundational resource for quantitative diachronic analysis by capturing the history of the Korean language. Moreover, it can serve as a pre-training corpus for large language models, potentially improving their understanding of Sino-Korean vocabulary in modern Hangul as well as archaic writing systems.

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理