Attributing Culture-Conditioned Generations to Pretraining Corpora

📄 arXiv: 2412.20760v2 📥 PDF

作者: Huihan Li, Arnav Goel, Keyu He, Xiang Ren

分类: cs.CL, cs.AI

发布日期: 2024-12-30 (更新: 2025-03-19)


💡 一句话要点

提出MEMOed框架,分析预训练语料库对文化条件生成中文化偏见的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文化偏见 预训练语料库 大型语言模型 开放域生成 记忆检测

📋 核心要点

  1. 现有大型语言模型在文化条件生成任务中存在文化偏见,对低频文化知识不足。
  2. 论文提出MEMOed框架,通过分析模型对预训练数据的记忆情况,来探究文化偏见的来源。
  3. 实验表明,高频文化生成更多记忆符号,模型倾向于生成高频实体,揭示了预训练数据分布的影响。

📝 摘要(中文)

大型语言模型在开放式生成任务(如叙事写作或对话)中,常常表现出文化偏见,对不太流行的文化知识有限,并生成模板化的输出。最近的研究表明,这些偏见可能源于预训练语料库中文化表征的不均衡。本文通过分析模型如何基于预训练数据模式将实体与文化联系起来,研究了预训练如何导致有偏见的文化条件生成。我们提出了MEMOed框架(来自预训练文档的记忆)来确定针对某种文化的生成是否源于记忆。在对110种文化的食物和服装相关的文化条件生成使用MEMOed后,我们发现预训练数据中高频文化产生更多带有记忆符号的生成,而一些低频文化则没有。此外,该模型倾向于生成频率极高的实体,而不管条件文化如何,这反映了对频繁预训练术语的偏见,而不管其相关性如何。我们希望MEMOed框架和我们的见解能够激发更多关于将模型性能归因于预训练数据的工作。

🔬 方法详解

问题定义:大型语言模型在文化相关的生成任务中表现出明显的文化偏见,例如对某些文化的食物或服装的描述不够准确或刻板。现有的方法缺乏对这种偏见来源的深入分析,特别是预训练数据在多大程度上影响了模型的生成结果。因此,需要一种方法来量化模型生成内容与预训练语料库之间的关系,从而理解文化偏见的根源。

核心思路:论文的核心思路是通过分析模型生成的内容是否直接来源于预训练语料库中的记忆,来判断文化偏见是否与预训练数据的分布有关。如果模型生成的内容与预训练语料库中的特定片段高度相似,则可以认为该生成是“记忆”的结果,并可能受到预训练数据中文化表征的影响。通过统计不同文化对应的“记忆”生成数量,可以揭示预训练数据对文化偏见的影响程度。

技术框架:MEMOed框架包含以下几个主要步骤:1) 文化条件生成:使用大型语言模型生成关于特定文化的文本,例如描述该文化的食物或服装。2) 记忆检测:对于生成的文本,在预训练语料库中搜索与其高度相似的片段。如果找到相似片段,则认为该生成是“记忆”的结果。3) 文化归因:统计不同文化对应的“记忆”生成数量,分析预训练数据中文化表征与模型生成结果之间的关系。4) 频率分析:分析模型倾向于生成哪些高频实体,以及这些实体与特定文化的相关性。

关键创新:MEMOed框架的关键创新在于提出了一种量化模型生成内容与预训练语料库之间关系的方法,从而可以更深入地理解文化偏见的来源。与以往的研究不同,该框架不仅关注模型生成结果的准确性,还关注生成结果是否直接来源于预训练数据。这种方法可以帮助我们更好地了解预训练数据对模型行为的影响,并为缓解文化偏见提供新的思路。

关键设计:记忆检测的关键在于相似度度量方法的选择。论文可能采用了基于n-gram overlap或embedding相似度的算法来衡量生成文本与预训练语料库片段之间的相似度。此外,还需要设置一个阈值来判断相似度是否足够高,从而确定该生成是否为“记忆”的结果。具体的参数设置和阈值选择可能需要根据实验结果进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,预训练数据中高频文化更容易产生带有记忆符号的生成,而低频文化则较少。模型倾向于生成频率极高的实体,而不管条件文化如何,这反映了对频繁预训练术语的偏见。这些发现揭示了预训练数据分布对文化偏见的重要影响。

🎯 应用场景

该研究成果可应用于提升开放域生成模型的公平性和文化敏感性。通过分析预训练数据对模型生成结果的影响,可以指导语料库的构建和模型的训练,从而减少文化偏见,提高模型在跨文化交流和内容创作中的适用性。此外,该方法还可以用于评估和改进其他类型的生成模型,例如图像生成和语音合成模型。

📄 摘要(原文)

In open-ended generative tasks like narrative writing or dialogue, large language models often exhibit cultural biases, showing limited knowledge and generating templated outputs for less prevalent cultures. Recent works show that these biases may stem from uneven cultural representation in pretraining corpora. This work investigates how pretraining leads to biased culture-conditioned generations by analyzing how models associate entities with cultures based on pretraining data patterns. We propose the MEMOed framework (MEMOrization from pretraining document) to determine whether a generation for a culture arises from memorization. Using MEMOed on culture-conditioned generations about food and clothing for 110 cultures, we find that high-frequency cultures in pretraining data yield more generations with memorized symbols, while some low-frequency cultures produce none. Additionally, the model favors generating entities with extraordinarily high frequency regardless of the conditioned culture, reflecting biases toward frequent pretraining terms irrespective of relevance. We hope that the MEMOed framework and our insights will inspire more works on attributing model performance on pretraining data.