Fine-Tuned LLMs are "Time Capsules" for Tracking Societal Bias Through Books
作者: Sangmitra Madhusudan, Robert Morabito, Skye Reid, Nikta Gohari Sadr, Ali Emami
分类: cs.CL
发布日期: 2025-02-07 (更新: 2025-02-13)
备注: 9 pages (excluding references), accepted to NAACL 2025
💡 一句话要点
利用微调LLM和书籍追踪社会偏见随时间演变
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 社会偏见 微调 文本分析 时代偏见 BookPAGE语料库 提示工程
📋 核心要点
- 现有方法难以有效追踪社会偏见随时间的变化,尤其是在大型语言模型中。
- 通过在不同年代的书籍上微调LLM,并分析其对特定提示的响应,来揭示和量化社会偏见。
- 实验表明,微调后的LLM能够反映其训练数据中的时代偏见,例如女性领导地位的提升和对伊斯兰负面描述的增加。
📝 摘要(中文)
书籍在提供丰富的文化见解的同时,也可能反映其时代的社会偏见,而大型语言模型(LLM)在训练过程中可能会学习并延续这些偏见。本文提出了一种新颖的方法,通过微调LLM来追踪和量化这些偏见。我们构建了BookPAGE语料库,包含跨越七个十年(1950-2019)的593本虚构书籍,以追踪偏见的演变。通过在每个十年的书籍上微调LLM,并使用有针对性的提示,我们研究了与性别、性取向、种族和宗教相关的偏见的转变。研究结果表明,在特定年代书籍上训练的LLM表现出反映其时代的偏见,既有渐进趋势,也有显著变化。重要的是,我们证明这些偏见主要源于书籍的内容,而不是模型的架构或初始训练。我们的研究通过桥接AI、文学研究和社会科学研究,为社会偏见趋势提供了一个新的视角。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在训练过程中可能学习和延续书籍中反映的社会偏见的问题。现有方法缺乏有效追踪和量化这些偏见随时间演变的能力,难以深入了解社会偏见的动态变化。
核心思路:论文的核心思路是利用微调后的LLM作为“时间胶囊”,通过分析其对特定提示的响应,来揭示和量化其训练数据(即不同年代的书籍)中存在的社会偏见。这种方法假设LLM在微调过程中会吸收并反映其训练数据的偏见。
技术框架:整体框架包括以下几个主要阶段:1) 构建BookPAGE语料库,包含跨越不同年代的虚构书籍。2) 在每个年代的书籍上分别微调LLM。3) 使用有针对性的提示,例如“描述一个领导者”或“描述一段浪漫关系”,来查询微调后的LLM。4) 分析LLM的响应,量化与性别、性取向、种族和宗教相关的偏见。
关键创新:最重要的技术创新点在于将微调后的LLM用作追踪社会偏见演变的工具。与传统的社会科学研究方法相比,该方法能够更高效地分析大量文本数据,并揭示隐藏在文本中的偏见模式。此外,该研究还构建了一个新的BookPAGE语料库,为相关研究提供了数据基础。
关键设计:论文的关键设计包括:1) BookPAGE语料库的构建,确保其包含足够数量和多样性的书籍,以代表不同年代的社会偏见。2) 提示工程,设计能够有效激发LLM生成包含偏见信息的响应的提示。3) 偏见量化方法,例如使用情感分析工具来评估LLM对不同群体的描述的情感倾向。
🖼️ 关键图片
📊 实验亮点
研究表明,LLM在不同年代书籍上微调后,能够反映该年代的社会偏见。例如,从1950年代到2010年代,模型对女性领导者的描述比例从8%增加到22%,1980年代到2000年代,同性关系提及显著增加。然而,2000年代对伊斯兰的负面描述急剧上升,从26%升至38%。这些结果表明,LLM确实能够捕捉到训练数据中的时代偏见。
🎯 应用场景
该研究成果可应用于评估和减轻LLM中的社会偏见,提高AI系统的公平性和公正性。此外,该方法还可用于社会科学研究,帮助研究人员更深入地了解社会偏见随时间演变的趋势和影响。未来,该方法可以扩展到其他类型的文本数据,例如新闻报道和社交媒体内容,以更全面地追踪社会偏见。
📄 摘要(原文)
Books, while often rich in cultural insights, can also mirror societal biases of their eras - biases that Large Language Models (LLMs) may learn and perpetuate during training. We introduce a novel method to trace and quantify these biases using fine-tuned LLMs. We develop BookPAGE, a corpus comprising 593 fictional books across seven decades (1950-2019), to track bias evolution. By fine-tuning LLMs on books from each decade and using targeted prompts, we examine shifts in biases related to gender, sexual orientation, race, and religion. Our findings indicate that LLMs trained on decade-specific books manifest biases reflective of their times, with both gradual trends and notable shifts. For example, model responses showed a progressive increase in the portrayal of women in leadership roles (from 8% to 22%) from the 1950s to 2010s, with a significant uptick in the 1990s (from 4% to 12%), possibly aligning with third-wave feminism. Same-sex relationship references increased markedly from the 1980s to 2000s (from 0% to 10%), mirroring growing LGBTQ+ visibility. Concerningly, negative portrayals of Islam rose sharply in the 2000s (26% to 38%), likely reflecting post-9/11 sentiments. Importantly, we demonstrate that these biases stem mainly from the books' content and not the models' architecture or initial training. Our study offers a new perspective on societal bias trends by bridging AI, literary studies, and social science research.