OWL: Probing Cross-Lingual Recall of Memorized Texts via World Literature

作者: Alisha Srivastava, Emir Korukluoglu, Minh Nhat Le, Duyen Tran, Chau Minh Pham, Marzena Karpinska, Mohit Iyyer

分类: cs.CL, cs.AI

发布日期: 2025-05-28 (更新: 2025-10-07)

备注: Accepted to EMNLP 2025 Main

💡 一句话要点

OWL数据集揭示LLM在世界文学中跨语言记忆能力，即使对低资源语言也有效。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨语言学习 语言模型 记忆能力 多语言数据集 低资源语言 文学作品 知识迁移

📋 核心要点

大型语言模型在英语文本记忆方面表现出色，但其跨语言记忆能力，尤其是在低资源语言上的表现，尚不明确。
论文提出了OWL数据集，包含多种语言的文学作品对齐摘录，用于评估LLM在不同语言间的记忆和知识迁移能力。
实验结果表明，LLM即使在没有直接翻译的文本中也能回忆起跨语言内容，揭示了其强大的跨语言记忆能力。

📝 摘要（中文）

大型语言模型（LLM）已被证实能够记忆和回忆预训练数据中的英文文本。然而，这种能力在多大程度上能推广到非英语语言，或者在语言之间转移，仍然不清楚。本文研究了LLM中的多语言和跨语言记忆，探究了以一种语言（例如，英语）记忆的内容是否可以在翻译后被回忆起来。为此，我们引入了OWL，一个包含来自十种语言的20本书的31.5K个对齐摘录的数据集，包括英语原文、官方翻译（越南语、西班牙语、土耳其语）以及六种低资源语言（塞索托语、约鲁巴语、迈蒂利语、马达加斯加语、茨瓦纳语、塔希提语）的新翻译。我们通过三个任务评估了跨模型系列和大小的记忆能力：（1）直接探测，要求模型识别书名和作者；（2）名称完形填空，要求预测被掩盖的角色名称；（3）前缀探测，涉及生成延续。我们发现，LLM始终如一地回忆跨语言的内容，即使对于预训练数据中没有直接翻译的文本也是如此。例如，GPT-4o在69%的时间内识别出作者和标题，并在6%的时间内识别出新翻译的摘录中的被掩盖实体。扰动（例如，掩盖字符、打乱单词）适度降低了直接探测的准确性（对于打乱的官方翻译，下降了7%）。我们的结果突出了跨语言记忆的程度，并提供了关于模型之间差异的见解。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在跨语言环境下，特别是对于低资源语言的文本记忆能力评估问题。现有方法主要集中在英文文本的记忆能力评估，缺乏对LLM在不同语言之间知识迁移能力的深入研究。现有方法难以评估LLM是否真正理解了文本的含义，还是仅仅记住了表面形式。

核心思路：论文的核心思路是通过构建一个多语言对齐的文学作品数据集（OWL），来探测LLM在不同语言之间回忆记忆文本的能力。通过将同一作品的不同语言版本输入LLM，并设计不同的任务，来评估LLM是否能够识别作者、书名、角色等信息，从而判断其是否具备跨语言的记忆能力。

技术框架：整体框架包括以下几个主要步骤： 1. 数据集构建：构建OWL数据集，包含20本书的31.5K个对齐摘录，涵盖10种语言，包括英语原文、官方翻译和新翻译的低资源语言。 2. 任务设计：设计三种任务来评估LLM的记忆能力：直接探测（识别作者和书名）、名称完形填空（预测被掩盖的角色名称）和前缀探测（生成文本延续）。 3. 模型评估：使用不同的LLM（包括GPT-4o等）在OWL数据集上进行评估，并分析结果。 4. 扰动实验：通过对输入文本进行扰动（例如，打乱单词顺序、掩盖字符），来评估LLM记忆的鲁棒性。

关键创新：论文的关键创新在于： 1. OWL数据集：构建了一个高质量的多语言对齐文学作品数据集，为跨语言记忆研究提供了新的资源。 2. 多任务评估：设计了多种任务来全面评估LLM的跨语言记忆能力，包括直接探测、名称完形填空和前缀探测。 3. 低资源语言关注：特别关注了LLM在低资源语言上的表现，填补了该领域的研究空白。

关键设计： 1. 数据集对齐：OWL数据集中的文本摘录在不同语言之间进行了精确对齐，确保了评估的公平性。 2. 任务难度控制：三种任务的设计难度不同，可以更全面地评估LLM的记忆能力。 3. 扰动类型选择：选择了多种扰动方式，包括打乱单词顺序和掩盖字符，以评估LLM记忆的鲁棒性。 4. 模型选择：选择了多种不同规模和架构的LLM进行评估，以分析模型之间的差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在跨语言记忆方面表现出色，即使对于预训练数据中没有直接翻译的文本也能回忆起内容。例如，GPT-4o在69%的时间内识别出作者和标题，并在6%的时间内识别出新翻译的摘录中的被掩盖实体。扰动实验显示，打乱官方翻译的单词顺序会导致直接探测准确率下降7%。

🎯 应用场景

该研究成果可应用于提升机器翻译质量，增强跨语言信息检索能力，并促进多语言教育资源的开发。通过理解LLM的跨语言记忆机制，可以更好地利用其知识，构建更智能、更高效的跨语言应用，例如多语言客服机器人和全球知识库。

📄 摘要（原文）

Large language models (LLMs) are known to memorize and recall English text from their pretraining data. However, the extent to which this ability generalizes to non-English languages or transfers across languages remains unclear. This paper investigates multilingual and cross-lingual memorization in LLMs, probing if memorized content in one language (e.g., English) can be recalled when presented in translation. To do so, we introduce OWL, a dataset of 31.5K aligned excerpts from 20 books in ten languages, including English originals, official translations (Vietnamese, Spanish, Turkish), and new translations in six low-resource languages (Sesotho, Yoruba, Maithili, Malagasy, Setswana, Tahitian). We evaluate memorization across model families and sizes through three tasks: (1) direct probing, which asks the model to identify a book's title and author; (2) name cloze, which requires predicting masked character names; and (3) prefix probing, which involves generating continuations. We find that LLMs consistently recall content across languages, even for texts without direct translation in pretraining data. GPT-4o, for example, identifies authors and titles 69% of the time and masked entities 6% of the time in newly translated excerpts. Perturbations (e.g., masking characters, shuffling words) modestly reduce direct probing accuracy (7% drop for shuffled official translations). Our results highlight the extent of cross-lingual memorization and provide insights on the differences between the models.

OWL: Probing Cross-Lingual Recall of Memorized Texts via World Literature

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理