CHRONOBERG: Capturing Language Evolution and Temporal Awareness in Foundation Models

📄 arXiv: 2509.22360v1 📥 PDF

作者: Niharika Hegde, Subarnaduti Paul, Lars Joel-Frey, Manuel Brack, Kristian Kersting, Martin Mundt, Patrick Schramowski

分类: cs.CL, cs.AI

发布日期: 2025-09-26

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

CHRONOBERG:构建时序语料库,提升大语言模型对语言演变和时间感知的理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时序语料库 语言演变 时间感知 情感分析 历时语言学

📋 核心要点

  1. 现有大型语言模型缺乏对语言长期时间结构的建模,限制了其对语言演变和历时变化的理解。
  2. CHRONOBERG通过构建一个跨越250年的时序英语书籍文本语料库,并进行时间注释,来解决上述问题。
  3. 实验表明,在CHRONOBERG上训练的语言模型在编码历时语义变化方面存在困难,突出了时间感知训练的重要性。

📝 摘要(中文)

大型语言模型(LLMs)通过利用社交媒体和网络数据在规模上表现出色。然而,现有语料库虽然多样化,但常常缺乏长期的时间结构,这可能限制了LLM理解语言语义和规范演变以及捕捉历时变化的能力。为了支持后者的分析和训练,我们引入了CHRONOBERG,这是一个具有时间结构的英语书籍文本语料库,跨越250年,从古腾堡计划中整理而来,并富含各种时间注释。首先,书籍的编辑性质使我们能够通过时间敏感的Valence-Arousal-Dominance(VAD)分析来量化词汇语义变化,并构建历史校准的情感词典,以支持时间相关的解释。借助这些词典,我们证明了现代基于LLM的工具需要更好地定位其对歧视性语言的检测以及跨不同时期的情感背景化。事实上,我们展示了在CHRONOBERG上顺序训练的语言模型难以编码意义上的历时变化,强调了对时间感知训练和评估流程的需求,并将CHRONOBERG定位为研究语言变化和时间泛化的可扩展资源。免责声明:本文包含可能对读者具有冒犯性的语言和样本展示。

🔬 方法详解

问题定义:现有的大型语言模型在处理语言时,往往忽略了语言随时间演变的特性,导致模型无法准确理解历史文本的语义和情感。现有语料库缺乏长期的时间结构,使得模型难以捕捉语言的历时变化,例如词汇语义的漂移和情感色彩的变迁。

核心思路:CHRONOBERG的核心思路是构建一个具有明确时间结构的语料库,通过对历史文本进行时间注释,使模型能够学习到语言随时间变化的规律。通过分析历史文本中的情感变化,构建历史校准的情感词典,从而提升模型对历史文本的理解能力。

技术框架:CHRONOBERG语料库的构建主要包括以下几个阶段:1) 数据收集:从古腾堡计划中收集跨越250年的英语书籍文本。2) 时间注释:对文本进行时间标注,记录文本的创作时间。3) 情感分析:利用Valence-Arousal-Dominance (VAD) 分析方法,量化词汇语义随时间的变化。4) 词典构建:构建历史校准的情感词典,用于支持时间相关的文本解释。

关键创新:CHRONOBERG的关键创新在于构建了一个大规模的、具有时间结构的英语书籍文本语料库,并提出了基于VAD分析的时间敏感的词汇语义变化量化方法。该语料库和分析方法为研究语言演变和时间感知提供了新的资源和工具。

关键设计:在情感分析方面,论文采用了Valence-Arousal-Dominance (VAD) 模型,该模型能够捕捉词汇的情感强度、兴奋度和控制度。通过分析VAD值随时间的变化,可以量化词汇语义的漂移。此外,论文还构建了历史校准的情感词典,该词典包含了不同时期词汇的情感信息,可以用于提升模型对历史文本情感的理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,在CHRONOBERG上顺序训练的语言模型难以编码意义上的历时变化,这表明现有语言模型在处理时间相关的语言任务时存在局限性。该实验结果强调了对时间感知训练和评估流程的需求,并突出了CHRONOBERG作为研究语言变化和时间泛化的重要性。

🎯 应用场景

CHRONOBERG语料库可应用于多个领域,包括历史文本分析、文化演变研究、自然语言处理和人工智能。它可以帮助研究人员更好地理解语言的演变规律,开发更准确的历史文本分析工具,并提升语言模型的时间感知能力。此外,该语料库还可以用于教育领域,帮助学生更好地理解历史文化。

📄 摘要(原文)

Large language models (LLMs) excel at operating at scale by leveraging social media and various data crawled from the web. Whereas existing corpora are diverse, their frequent lack of long-term temporal structure may however limit an LLM's ability to contextualize semantic and normative evolution of language and to capture diachronic variation. To support analysis and training for the latter, we introduce CHRONOBERG, a temporally structured corpus of English book texts spanning 250 years, curated from Project Gutenberg and enriched with a variety of temporal annotations. First, the edited nature of books enables us to quantify lexical semantic change through time-sensitive Valence-Arousal-Dominance (VAD) analysis and to construct historically calibrated affective lexicons to support temporally grounded interpretation. With the lexicons at hand, we demonstrate a need for modern LLM-based tools to better situate their detection of discriminatory language and contextualization of sentiment across various time-periods. In fact, we show how language models trained sequentially on CHRONOBERG struggle to encode diachronic shifts in meaning, emphasizing the need for temporally aware training and evaluation pipelines, and positioning CHRONOBERG as a scalable resource for the study of linguistic change and temporal generalization. Disclaimer: This paper includes language and display of samples that could be offensive to readers. Open Access: Chronoberg is available publicly on HuggingFace at ( https://huggingface.co/datasets/spaul25/Chronoberg). Code is available at (https://github.com/paulsubarna/Chronoberg).