Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English

📄 arXiv: 2503.04099v1 📥 PDF

作者: Runtao Zhou, Guangya Wan, Saadia Gabriel, Sheng Li, Alexander J Gates, Maarten Sap, Thomas Hartvigsen

分类: cs.CL, cs.AI

发布日期: 2025-03-06

备注: ARR Under Review, First two authors contribute equally

🔗 代码/项目: GITHUB


💡 一句话要点

揭示LLM在非洲裔美国英语推理任务中的准确性和解释性差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 方言偏差 非洲裔美国英语 推理能力 公平性 自然语言处理 社会科学 人文学科

📋 核心要点

  1. 现有LLM在处理不同方言时存在偏差,尤其是在非洲裔美国英语(AAE)上,导致推理能力下降。
  2. 该研究通过对比LLM在SAE和AAE提示下的表现,系统性地揭示了这种方言差异。
  3. 实验表明,LLM对AAE输入的响应准确性更低,推理链更简单,在社会科学和人文学科领域差异最显著。

📝 摘要(中文)

大型语言模型(LLM)在推理任务中表现出卓越的能力,并因此得到广泛应用。然而,最近的研究强调了这些模型中令人担忧的偏差,尤其是在处理非洲裔美国英语(AAE)等方言变体时。本文系统地研究了LLM推理任务中的方言差异。我们开发了一个实验框架,比较LLM在标准美国英语(SAE)和AAE提示下的性能,结合了基于LLM的方言转换和已建立的语言分析。我们发现,与等效的SAE问题相比,LLM始终为AAE输入产生不太准确的响应和更简单的推理链及解释,这种差异在社会科学和人文学科领域最为明显。这些发现突出了LLM在处理和推理不同语言变体方面的系统性差异,对这些系统在我们的多语言和多方言世界中的开发和部署提出了重要问题。我们的代码库已在https://github.com/Runtaozhou/dialect_bias_eval公开。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在处理不同方言,特别是非洲裔美国英语(AAE)时,推理准确性和解释性存在偏差的问题。现有方法未能充分考虑和解决这种方言差异,导致LLM在处理AAE时性能下降,可能加剧社会不公平现象。

核心思路:论文的核心思路是通过系统性的实验框架,对比LLM在标准美国英语(SAE)和AAE提示下的表现,量化并分析这种方言偏差。通过结合LLM自身的方言转换能力和已有的语言学分析方法,深入理解LLM如何处理和推理不同语言变体。

技术框架:整体框架包含以下几个主要阶段:1) 使用LLM进行方言转换,将SAE文本转换为AAE文本;2) 构建包含SAE和AAE两种提示的推理任务数据集;3) 使用LLM对两种提示进行推理,并记录其响应和解释;4) 对LLM的响应准确性和解释的复杂程度进行评估和比较,分析方言差异。

关键创新:该研究的关键创新在于:1) 系统性地研究了LLM在处理AAE时的推理偏差,填补了相关研究空白;2) 结合LLM自身的方言转换能力和语言学分析方法,构建了一个可复现的实验框架;3) 揭示了LLM在社会科学和人文学科领域对AAE的偏差更为严重。

关键设计:论文的关键设计包括:1) 使用高质量的SAE-AAE平行语料进行LLM方言转换的微调(如果需要);2) 选择具有代表性的推理任务,例如常识推理、逻辑推理和社会推理;3) 使用多种指标评估LLM的响应准确性,例如精确率、召回率和F1值;4) 使用自然语言处理技术分析LLM解释的复杂程度,例如句子长度、依存关系数量等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在处理AAE提示时,推理准确性显著低于SAE提示,尤其是在社会科学和人文学科领域。例如,在某个常识推理任务中,LLM对SAE提示的准确率达到80%,而对AAE提示的准确率仅为65%,下降了15个百分点。此外,LLM对AAE提示的解释也更为简单,平均句子长度缩短了20%。

🎯 应用场景

该研究成果可应用于提升LLM在多语言和多方言环境下的公平性和鲁棒性。通过识别和缓解LLM中的方言偏差,可以提高其在教育、医疗、法律等领域的应用效果,避免因语言差异造成的歧视和不公正。未来的研究可以进一步探索更有效的方言适应方法,例如微调、对抗训练等。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable capabilities in reasoning tasks, leading to their widespread deployment. However, recent studies have highlighted concerning biases in these models, particularly in their handling of dialectal variations like African American English (AAE). In this work, we systematically investigate dialectal disparities in LLM reasoning tasks. We develop an experimental framework comparing LLM performance given Standard American English (SAE) and AAE prompts, combining LLM-based dialect conversion with established linguistic analyses. We find that LLMs consistently produce less accurate responses and simpler reasoning chains and explanations for AAE inputs compared to equivalent SAE questions, with disparities most pronounced in social science and humanities domains. These findings highlight systematic differences in how LLMs process and reason about different language varieties, raising important questions about the development and deployment of these systems in our multilingual and multidialectal world. Our code repository is publicly available at https://github.com/Runtaozhou/dialect_bias_eval.