OWL: Probing Cross-Lingual Recall of Memorized Texts via World Literature

📄 arXiv: 2505.22945v2 📥 PDF

作者: Alisha Srivastava, Emir Korukluoglu, Minh Nhat Le, Duyen Tran, Chau Minh Pham, Marzena Karpinska, Mohit Iyyer

分类: cs.CL, cs.AI

发布日期: 2025-05-28 (更新: 2025-10-07)

备注: Accepted to EMNLP 2025 Main


💡 一句话要点

OWL数据集揭示LLM在世界文学中跨语言记忆能力,即使对低资源语言也有效。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言学习 语言模型 记忆能力 多语言数据集 低资源语言 文学作品 知识迁移

📋 核心要点

  1. 大型语言模型在英语文本记忆方面表现出色,但其跨语言记忆能力,尤其是在低资源语言上的表现,尚不明确。
  2. 论文提出了OWL数据集,包含多种语言的文学作品对齐摘录,用于评估LLM在不同语言间的记忆和知识迁移能力。
  3. 实验结果表明,LLM即使在没有直接翻译的文本中也能回忆起跨语言内容,揭示了其强大的跨语言记忆能力。

📝 摘要(中文)

大型语言模型(LLM)已被证实能够记忆和回忆预训练数据中的英文文本。然而,这种能力在多大程度上能推广到非英语语言,或者在语言之间转移,仍然不清楚。本文研究了LLM中的多语言和跨语言记忆,探究了以一种语言(例如,英语)记忆的内容是否可以在翻译后被回忆起来。为此,我们引入了OWL,一个包含来自十种语言的20本书的31.5K个对齐摘录的数据集,包括英语原文、官方翻译(越南语、西班牙语、土耳其语)以及六种低资源语言(塞索托语、约鲁巴语、迈蒂利语、马达加斯加语、茨瓦纳语、塔希提语)的新翻译。我们通过三个任务评估了跨模型系列和大小的记忆能力:(1)直接探测,要求模型识别书名和作者;(2)名称完形填空,要求预测被掩盖的角色名称;(3)前缀探测,涉及生成延续。我们发现,LLM始终如一地回忆跨语言的内容,即使对于预训练数据中没有直接翻译的文本也是如此。例如,GPT-4o在69%的时间内识别出作者和标题,并在6%的时间内识别出新翻译的摘录中的被掩盖实体。扰动(例如,掩盖字符、打乱单词)适度降低了直接探测的准确性(对于打乱的官方翻译,下降了7%)。我们的结果突出了跨语言记忆的程度,并提供了关于模型之间差异的见解。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在跨语言环境下,特别是对于低资源语言的文本记忆能力评估问题。现有方法主要集中在英文文本的记忆能力评估,缺乏对LLM在不同语言之间知识迁移能力的深入研究。现有方法难以评估LLM是否真正理解了文本的含义,还是仅仅记住了表面形式。

核心思路:论文的核心思路是通过构建一个多语言对齐的文学作品数据集(OWL),来探测LLM在不同语言之间回忆记忆文本的能力。通过将同一作品的不同语言版本输入LLM,并设计不同的任务,来评估LLM是否能够识别作者、书名、角色等信息,从而判断其是否具备跨语言的记忆能力。

技术框架:整体框架包括以下几个主要步骤: 1. 数据集构建:构建OWL数据集,包含20本书的31.5K个对齐摘录,涵盖10种语言,包括英语原文、官方翻译和新翻译的低资源语言。 2. 任务设计:设计三种任务来评估LLM的记忆能力:直接探测(识别作者和书名)、名称完形填空(预测被掩盖的角色名称)和前缀探测(生成文本延续)。 3. 模型评估:使用不同的LLM(包括GPT-4o等)在OWL数据集上进行评估,并分析结果。 4. 扰动实验:通过对输入文本进行扰动(例如,打乱单词顺序、掩盖字符),来评估LLM记忆的鲁棒性。

关键创新:论文的关键创新在于: 1. OWL数据集:构建了一个高质量的多语言对齐文学作品数据集,为跨语言记忆研究提供了新的资源。 2. 多任务评估:设计了多种任务来全面评估LLM的跨语言记忆能力,包括直接探测、名称完形填空和前缀探测。 3. 低资源语言关注:特别关注了LLM在低资源语言上的表现,填补了该领域的研究空白。

关键设计: 1. 数据集对齐:OWL数据集中的文本摘录在不同语言之间进行了精确对齐,确保了评估的公平性。 2. 任务难度控制:三种任务的设计难度不同,可以更全面地评估LLM的记忆能力。 3. 扰动类型选择:选择了多种扰动方式,包括打乱单词顺序和掩盖字符,以评估LLM记忆的鲁棒性。 4. 模型选择:选择了多种不同规模和架构的LLM进行评估,以分析模型之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在跨语言记忆方面表现出色,即使对于预训练数据中没有直接翻译的文本也能回忆起内容。例如,GPT-4o在69%的时间内识别出作者和标题,并在6%的时间内识别出新翻译的摘录中的被掩盖实体。扰动实验显示,打乱官方翻译的单词顺序会导致直接探测准确率下降7%。

🎯 应用场景

该研究成果可应用于提升机器翻译质量,增强跨语言信息检索能力,并促进多语言教育资源的开发。通过理解LLM的跨语言记忆机制,可以更好地利用其知识,构建更智能、更高效的跨语言应用,例如多语言客服机器人和全球知识库。

📄 摘要(原文)

Large language models (LLMs) are known to memorize and recall English text from their pretraining data. However, the extent to which this ability generalizes to non-English languages or transfers across languages remains unclear. This paper investigates multilingual and cross-lingual memorization in LLMs, probing if memorized content in one language (e.g., English) can be recalled when presented in translation. To do so, we introduce OWL, a dataset of 31.5K aligned excerpts from 20 books in ten languages, including English originals, official translations (Vietnamese, Spanish, Turkish), and new translations in six low-resource languages (Sesotho, Yoruba, Maithili, Malagasy, Setswana, Tahitian). We evaluate memorization across model families and sizes through three tasks: (1) direct probing, which asks the model to identify a book's title and author; (2) name cloze, which requires predicting masked character names; and (3) prefix probing, which involves generating continuations. We find that LLMs consistently recall content across languages, even for texts without direct translation in pretraining data. GPT-4o, for example, identifies authors and titles 69% of the time and masked entities 6% of the time in newly translated excerpts. Perturbations (e.g., masking characters, shuffling words) modestly reduce direct probing accuracy (7% drop for shuffled official translations). Our results highlight the extent of cross-lingual memorization and provide insights on the differences between the models.