CHRONOBERG: Capturing Language Evolution and Temporal Awareness in Foundation Models
作者: Niharika Hegde, Subarnaduti Paul, Lars Joel-Frey, Manuel Brack, Kristian Kersting, Martin Mundt, Patrick Schramowski
分类: cs.CL, cs.AI
发布日期: 2025-09-26
🔗 代码/项目: GITHUB | HUGGINGFACE
💡 一句话要点
CHRONOBERG:构建时序语料库,提升大语言模型对语言演变和时间感知的理解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时序语料库 语言演变 时间感知 情感分析 大型语言模型
📋 核心要点
- 现有大型语言模型缺乏对语言长期时间结构的建模,限制了其理解语言演变和历时变化的能力。
- CHRONOBERG通过构建一个跨越250年的时序英语书籍文本语料库,并进行时间注释,来解决上述问题。
- 实验表明,在CHRONOBERG上训练的语言模型在编码意义的历时变化方面存在困难,突出了时间感知训练的重要性。
📝 摘要(中文)
大型语言模型(LLMs)通过利用社交媒体和网络数据在规模上表现出色。然而,现有语料库通常缺乏长期的时间结构,这限制了LLM理解语言语义和规范演变以及捕捉历时变化的能力。为了支持后者的分析和训练,我们引入了CHRONOBERG,这是一个具有时间结构的英语书籍文本语料库,跨越250年,从古腾堡计划中整理而来,并富含各种时间注释。首先,书籍的编辑性质使我们能够通过时间敏感的Valence-Arousal-Dominance(VAD)分析来量化词汇语义变化,并构建历史校准的情感词典,以支持基于时间的解释。借助这些词典,我们证明了需要改进基于现代LLM的工具,以更好地定位其对歧视性语言的检测以及跨不同时期的情感语境化。事实上,我们展示了在CHRONOBERG上按顺序训练的语言模型难以编码意义上的历时变化,强调了对时间感知训练和评估流程的需求,并将CHRONOBERG定位为研究语言变化和时间泛化的可扩展资源。免责声明:本文包含可能对读者具有冒犯性的语言和样本展示。
🔬 方法详解
问题定义:现有的大型语言模型在处理和理解语言的演变和时间性方面存在不足。它们通常缺乏对语言在不同历史时期语义和情感变化的敏感性,导致在处理历史文本或需要时间背景的任务时表现不佳。现有的语料库通常缺乏足够的时间结构,无法支持模型学习语言的历时变化。
核心思路:CHRONOBERG的核心思路是构建一个具有丰富时间信息的语料库,使语言模型能够学习和理解语言在不同历史时期的变化。通过对语料库进行时间注释,并结合情感分析等技术,可以量化词汇语义随时间的变化,并构建历史校准的情感词典。
技术框架:CHRONOBERG的构建流程主要包括以下几个阶段:1) 数据收集:从古腾堡计划中收集跨越250年的英语书籍文本。2) 时间注释:对文本进行时间注释,记录书籍的出版年份等信息。3) 情感分析:利用Valence-Arousal-Dominance(VAD)分析等技术,量化词汇语义随时间的变化。4) 词典构建:构建历史校准的情感词典,用于支持基于时间的文本解释。5) 模型训练与评估:在CHRONOBERG上训练语言模型,并评估其在处理时间相关任务时的性能。
关键创新:CHRONOBERG的关键创新在于其构建了一个具有丰富时间信息的语料库,并结合情感分析等技术,量化了词汇语义随时间的变化。这使得语言模型能够更好地理解语言的演变和时间性,从而在处理历史文本或需要时间背景的任务时表现更佳。与现有方法相比,CHRONOBERG更加注重对语言时间结构的建模,从而能够更好地捕捉语言的历时变化。
关键设计:CHRONOBERG语料库跨越250年,包含大量英语书籍文本。时间注释包括书籍的出版年份等信息。情感分析采用Valence-Arousal-Dominance(VAD)分析,量化词汇语义的情感极性、唤醒程度和支配程度。历史校准的情感词典用于支持基于时间的文本解释。语言模型训练采用序列训练的方式,模拟语言的演变过程。
📊 实验亮点
论文通过实验证明,在CHRONOBERG上按顺序训练的语言模型难以编码意义上的历时变化,这表明现有的大型语言模型在处理语言的时间性方面存在不足。这一发现强调了对时间感知训练和评估流程的需求,并突出了CHRONOBERG作为研究语言变化和时间泛化的重要资源。
🎯 应用场景
CHRONOBERG的研究成果可应用于多个领域,例如:历史文本分析、情感分析、自然语言生成等。通过利用CHRONOBERG,可以构建更加准确和可靠的历史文本分析工具,从而更好地理解历史事件和社会变迁。此外,CHRONOBERG还可以用于改进情感分析模型,使其能够更好地理解语言在不同历史时期的情感含义。在自然语言生成方面,CHRONOBERG可以帮助生成更加符合历史语境的文本。
📄 摘要(原文)
Large language models (LLMs) excel at operating at scale by leveraging social media and various data crawled from the web. Whereas existing corpora are diverse, their frequent lack of long-term temporal structure may however limit an LLM's ability to contextualize semantic and normative evolution of language and to capture diachronic variation. To support analysis and training for the latter, we introduce CHRONOBERG, a temporally structured corpus of English book texts spanning 250 years, curated from Project Gutenberg and enriched with a variety of temporal annotations. First, the edited nature of books enables us to quantify lexical semantic change through time-sensitive Valence-Arousal-Dominance (VAD) analysis and to construct historically calibrated affective lexicons to support temporally grounded interpretation. With the lexicons at hand, we demonstrate a need for modern LLM-based tools to better situate their detection of discriminatory language and contextualization of sentiment across various time-periods. In fact, we show how language models trained sequentially on CHRONOBERG struggle to encode diachronic shifts in meaning, emphasizing the need for temporally aware training and evaluation pipelines, and positioning CHRONOBERG as a scalable resource for the study of linguistic change and temporal generalization. Disclaimer: This paper includes language and display of samples that could be offensive to readers. Open Access: Chronoberg is available publicly on HuggingFace at ( https://huggingface.co/datasets/spaul25/Chronoberg). Code is available at (https://github.com/paulsubarna/Chronoberg).