Tracing Multilingual Factual Knowledge Acquisition in Pretraining

📄 arXiv: 2505.14824v2 📥 PDF

作者: Yihong Liu, Mingyang Wang, Amir Hossein Kargaran, Felicia Körner, Ercong Nie, Barbara Plank, François Yvon, Hinrich Schütze

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-10-07)

备注: EMNLP Findings 2025

🔗 代码/项目: GITHUB


💡 一句话要点

追踪预训练中多语言事实知识的获取过程,揭示频率驱动学习和跨语言迁移两种机制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言学习 事实知识获取 预训练模型 跨语言迁移 语言模型 知识表示 OLMo-7B

📋 核心要点

  1. 现有研究主要关注最终模型的多语言事实知识,忽略了预训练过程中知识获取的动态演变过程。
  2. 本文通过追踪OLMo-7B在预训练过程中的表现,揭示了频率驱动学习和跨语言迁移两种知识获取机制。
  3. 实验表明,事实频率是影响知识回忆的关键因素,跨语言迁移在早期阶段对非英语低频事实的回忆有促进作用。

📝 摘要(中文)

大型语言模型(LLMs)能够回忆起预训练数据中存在的多语言事实知识。然而,大多数研究仅评估最终模型,而对预训练过程中事实回忆和跨语言一致性的发展过程缺乏探索。本文以OLMo-7B为例,追踪事实回忆和跨语言一致性在预训练过程中的演变。研究发现,对于大多数语言,准确性和一致性都会随着时间的推移而提高。这种改进主要由预训练语料库中的事实频率驱动:无论语言如何,更频繁的事实更有可能被正确回忆。然而,非英语语言中一些低频事实仍然可以被正确回忆。分析表明,这些实例主要受益于其英语对应项的跨语言迁移——这种效应主要出现在预训练的早期阶段。本文指出了多语言事实知识获取的两种不同途径:(1)频率驱动学习,它占主导地位且与语言无关;(2)跨语言迁移,其规模有限且通常仅限于涉及命名实体的关系类型。我们发布了代码和数据,以促进进一步的研究。

🔬 方法详解

问题定义:本文旨在研究大型语言模型在预训练过程中如何获取和发展多语言事实知识。现有研究主要关注预训练完成后的模型性能,缺乏对预训练过程中知识获取动态过程的深入分析。因此,本文旨在追踪模型在预训练过程中事实回忆能力和跨语言一致性的演变,并探究影响这些能力的关键因素。

核心思路:本文的核心思路是通过在预训练的不同阶段对模型进行评估,观察其在不同语言的事实回忆能力和跨语言一致性。通过分析模型在不同阶段的表现与预训练数据的特征(如事实频率、语言等)之间的关系,从而揭示多语言事实知识获取的机制。特别关注频率驱动学习和跨语言迁移两种机制的作用。

技术框架:本文以OLMo-7B模型作为研究对象,在预训练的不同阶段(checkpoint)进行评估。评估过程主要包括:1) 构建多语言事实知识评估数据集,包含不同语言的事实三元组;2) 使用模型在不同阶段对数据集中的事实进行预测,评估其准确率和跨语言一致性;3) 分析事实频率、语言等因素与模型表现之间的关系,从而揭示知识获取的机制。

关键创新:本文的创新点在于:1) 首次系统地追踪了大型语言模型在预训练过程中多语言事实知识获取的动态过程;2) 揭示了频率驱动学习和跨语言迁移两种不同的知识获取机制,并分析了它们的作用范围和影响因素;3) 通过实验验证了事实频率是影响知识回忆的关键因素,跨语言迁移在早期阶段对非英语低频事实的回忆有促进作用。

关键设计:本文的关键设计包括:1) 精心构建的多语言事实知识评估数据集,涵盖多种语言和事实类型;2) 选择OLMo-7B作为研究对象,因为它是一个开源可控的模型,方便进行预训练过程的追踪和分析;3) 设计了合理的评估指标,包括准确率和跨语言一致性,能够全面评估模型的多语言事实知识获取能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,事实频率是影响知识回忆的关键因素,高频事实更容易被正确回忆。此外,跨语言迁移在预训练早期阶段对非英语低频事实的回忆有显著促进作用。实验表明,模型在预训练过程中,准确性和跨语言一致性随时间推移而提高,验证了频率驱动学习和跨语言迁移两种机制的有效性。

🎯 应用场景

该研究成果可应用于提升多语言大型语言模型的知识获取能力和跨语言一致性。通过理解频率驱动学习和跨语言迁移的机制,可以设计更有效的预训练策略,提高模型在低资源语言上的表现。此外,该研究也有助于开发更可靠的多语言知识库和问答系统。

📄 摘要(原文)

Large Language Models (LLMs) are capable of recalling multilingual factual knowledge present in their pretraining data. However, most studies evaluate only the final model, leaving the development of factual recall and crosslingual consistency throughout pretraining largely unexplored. In this work, we trace how factual recall and crosslingual consistency evolve during pretraining, focusing on OLMo-7B as a case study. We find that both accuracy and consistency improve over time for most languages. We show that this improvement is primarily driven by the fact frequency in the pretraining corpus: more frequent facts are more likely to be recalled correctly, regardless of language. Yet, some low-frequency facts in non-English languages can still be correctly recalled. Our analysis reveals that these instances largely benefit from crosslingual transfer of their English counterparts -- an effect that emerges predominantly in the early stages of pretraining. We pinpoint two distinct pathways through which multilingual factual knowledge acquisition occurs: (1) frequency-driven learning, which is dominant and language-agnostic, and (2) crosslingual transfer, which is limited in scale and typically constrained to relation types involving named entities. We release our code and data to facilitate further research at https://github.com/cisnlp/multilingual-fact-tracing.