Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks

📄 arXiv: 2410.11005v3 📥 PDF

作者: Fangru Lin, Shaoguang Mao, Emanuele La Malfa, Valentin Hofmann, Adrian de Wynter, Xun Wang, Si-Qing Chen, Michael Wooldridge, Janet B. Pierrehumbert, Furu Wei

分类: cs.CL, cs.LG

发布日期: 2024-10-14 (更新: 2025-06-09)

备注: ACL 2025 main


💡 一句话要点

提出ReDial基准,评估大型语言模型在推理任务中对AAVE方言的公平性和鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 方言公平性 鲁棒性评估 非洲裔美国人白话英语 推理任务

📋 核心要点

  1. 现有基准测试忽略了语言内部变异的细微差别,未能充分模拟非标准方言使用者的体验,导致LLM评估存在盲区。
  2. 论文构建了ReDial基准,包含标准英语和AAVE的并行查询对,用于评估LLM在推理任务中处理方言的公平性和鲁棒性。
  3. 实验结果表明,包括GPT在内的多个主流LLM在处理AAVE查询时表现出显著的脆弱性和不公平性,揭示了LLM的方言偏差问题。

📝 摘要(中文)

本文旨在评估大型语言模型(LLMs)在处理非标准方言时的公平性和鲁棒性,特别是针对非洲裔美国人白话英语(AAVE)。研究引入了ReDial(Reasoning with Dialect Queries)基准,包含1200多个标准英语和AAVE的并行查询对,涵盖算法、数学、逻辑和综合推理等任务。通过聘请包括计算机科学专家在内的AAVE使用者重写了HumanEval和GSM8K等七个流行的基准测试。使用ReDial评估了GPT、Claude、Llama、Mistral和Phi等广泛使用的LLM。结果表明,几乎所有这些模型在处理AAVE查询时都表现出显著的脆弱性和不公平性。该研究建立了一个系统且客观的框架,用于分析LLM在方言查询中的偏差,并揭示了主流LLM在推理任务中对使用方言的人群提供不公平服务的问题,为未来的研究奠定了基础。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在处理不同方言时存在的公平性和鲁棒性问题。现有方法和基准测试主要关注标准语言,忽略了方言之间的差异,导致LLMs在处理非标准方言时表现不佳,对使用这些方言的人群造成不公平。

核心思路:论文的核心思路是通过构建一个包含标准英语和非洲裔美国人白话英语(AAVE)的并行推理查询数据集(ReDial),来系统地评估LLMs在处理方言时的性能差异。通过对比LLMs在两种语言上的表现,可以量化其对AAVE的偏差和脆弱性。

技术框架:该研究主要包含以下几个阶段:1) 选择涵盖算法、数学、逻辑和综合推理等领域的七个流行基准测试,如HumanEval和GSM8K。2) 聘请AAVE使用者(包括计算机科学专家)将这些基准测试中的查询重写为AAVE版本,构建ReDial数据集。3) 使用ReDial数据集评估多个广泛使用的LLMs,如GPT、Claude、Llama、Mistral和Phi。4) 分析LLMs在标准英语和AAVE查询上的性能差异,量化其公平性和鲁棒性。

关键创新:该研究的关键创新在于构建了首个专门用于评估LLMs在推理任务中处理方言的公平性和鲁棒性的基准测试ReDial。ReDial的并行查询设计使得能够直接比较LLMs在标准英语和AAVE上的表现,从而量化其方言偏差。此外,该研究还系统地评估了多个主流LLMs在ReDial上的性能,揭示了LLMs普遍存在的方言偏差问题。

关键设计:ReDial数据集包含1200多个并行查询对,涵盖算法、数学、逻辑和综合推理等任务。AAVE查询的重写由AAVE使用者完成,以确保语言的准确性和地道性。实验中,使用相同的LLM配置和评估指标来比较LLMs在标准英语和AAVE查询上的性能。性能指标包括准确率、召回率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,包括GPT、Claude、Llama、Mistral和Phi在内的多个主流LLM在处理AAVE查询时表现出显著的性能下降。例如,在某些推理任务中,LLM在AAVE查询上的准确率比在标准英语查询上低20%以上,揭示了LLM对AAVE的显著偏差。

🎯 应用场景

该研究成果可应用于开发更公平、更具包容性的语言模型,提升LLM在处理不同方言时的性能,从而更好地服务于不同语言背景的用户。此外,该研究提出的评估框架可推广到其他方言和语言,为评估和改进LLM的公平性和鲁棒性提供参考。

📄 摘要(原文)

Language is not monolithic. While benchmarks, including those designed for multiple languages, are often used as proxies to evaluate the performance of Large Language Models (LLMs), they tend to overlook the nuances of within-language variation and thus fail to model the experience of speakers of non-standard dialects. Focusing on African American Vernacular English (AAVE), we present the first study aimed at objectively assessing the fairness and robustness of LLMs in handling dialects across canonical reasoning tasks, including algorithm, math, logic, and integrated reasoning. We introduce ReDial (Reasoning with Dialect Queries), a benchmark containing 1.2K+ parallel query pairs in Standardized English and AAVE. We hire AAVE speakers, including experts with computer science backgrounds, to rewrite seven popular benchmarks, such as HumanEval and GSM8K. With ReDial, we evaluate widely used LLMs, including GPT, Claude, Llama, Mistral, and the Phi model families. Our findings reveal that almost all of these widely used models show significant brittleness and unfairness to queries in AAVE. Our work establishes a systematic and objective framework for analyzing LLM bias in dialectal queries. Moreover, it highlights how mainstream LLMs provide unfair service to dialect speakers in reasoning tasks, laying a critical foundation for future research.