AAVENUE: Detecting LLM Biases on NLU Tasks in AAVE via a Novel Benchmark

📄 arXiv: 2408.14845v3 📥 PDF

作者: Abhay Gupta, Philip Meng, Ece Yurtseven, Sean O'Brien, Kevin Zhu

分类: cs.CL

发布日期: 2024-08-27 (更新: 2025-10-16)

备注: Published at NLP4PI @ EMNLP 2024


💡 一句话要点

AAVENUE:提出新基准评测LLM在AAVE的NLU任务上的偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言理解 非洲裔美国人白话英语 语言模型偏差 评测基准 少样本学习

📋 核心要点

  1. 现有NLU系统在处理AAVE时存在性能偏差,缺乏针对AAVE的有效评测基准。
  2. 利用LLM进行少样本提示翻译,构建AAVE和SAE的NLU任务评测基准AAVENUE。
  3. 实验表明,LLM在SAE上的表现优于AAVE,揭示了模型中存在的偏差,并开源了代码。

📝 摘要(中文)

为了开发更具包容性的自然语言处理(NLP)系统,检测大型语言模型(LLM)在非洲裔美国人白话英语(AAVE)的自然语言理解(NLU)方面的偏差至关重要。本文提出了AAVENUE({AAVE} {N}atural Language {U}nderstanding {E}valuation),一个用于评估LLM在AAVE和标准美式英语(SAE)的NLU任务上的性能的基准。AAVENUE建立并扩展了现有的基准,如VALUE,用更灵活的方法取代了确定性的句法和形态转换,该方法利用基于LLM的少样本提示翻译,提高了GLUE和SuperGLUE基准中关键任务的翻译性能。使用五个流行的LLM和包括流畅性、BARTScore、质量、连贯性和可理解性在内的一套综合指标,比较了AAVENUE和VALUE的翻译。此外,还招募了流利的AAVE使用者来验证翻译的真实性。评估表明,LLM在SAE任务上的表现始终优于AAVE翻译版本,突出了固有的偏差,并强调了对更具包容性的NLP模型的需求。源代码已在GitHub上开源,并在网站https://aavenuee.github.io上展示。

🔬 方法详解

问题定义:论文旨在解决LLM在处理非洲裔美国人白话英语(AAVE)时存在的偏差问题。现有方法,如VALUE,依赖于确定性的句法和形态转换,在生成高质量的AAVE数据方面存在局限性,无法充分反映AAVE的语言特点,导致评测结果不够准确。

核心思路:论文的核心思路是利用LLM本身的能力,通过少样本提示(few-shot prompting)的方式,将标准美式英语(SAE)的数据翻译成AAVE。这种方法比传统的确定性转换更灵活,能够生成更自然、更地道的AAVE文本,从而更准确地评估LLM在AAVE上的性能。

技术框架:AAVENUE基准的构建流程主要包括以下几个阶段:1) 选择GLUE和SuperGLUE基准中的NLU任务;2) 使用LLM进行少样本提示翻译,将SAE数据翻译成AAVE;3) 招募流利的AAVE使用者验证翻译的真实性;4) 使用多种指标(如流畅性、BARTScore、质量、连贯性和可理解性)评估翻译质量;5) 使用翻译后的AAVE数据和原始SAE数据评估LLM的性能。

关键创新:该论文的关键创新在于使用LLM进行少样本提示翻译,以构建AAVE的NLU评测基准。与以往依赖确定性转换的方法相比,这种方法能够生成更自然、更地道的AAVE文本,从而更准确地评估LLM在AAVE上的性能。此外,论文还通过招募AAVE使用者进行人工验证,确保了翻译的真实性。

关键设计:在少样本提示翻译中,论文使用了五个流行的LLM(具体模型名称未知)。提示的设计至关重要,需要包含足够多的AAVE示例,以引导LLM生成高质量的AAVE翻译。此外,论文还使用了多种指标来评估翻译质量,包括自动指标(如BARTScore)和人工评估指标(如流畅性、质量、连贯性和可理解性)。具体参数设置和损失函数等细节未在摘要中提及,属于未知信息。

📊 实验亮点

实验结果表明,LLM在SAE任务上的表现始终优于AAVE翻译版本,这突显了LLM中存在的固有偏差。通过AAVENUE基准的评估,可以量化这些偏差,并为开发更公平的NLP模型提供指导。具体的性能提升数据和对比基线未在摘要中明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于开发更具包容性的NLP系统,尤其是在语音识别、文本分类、情感分析等领域。通过减少LLM在AAVE上的偏差,可以提高这些系统在服务于AAVE使用者时的公平性和准确性。未来,该基准可以扩展到其他低资源方言或语言,促进更公平的AI技术发展。

📄 摘要(原文)

Detecting biases in natural language understanding (NLU) for African American Vernacular English (AAVE) is crucial to developing inclusive natural language processing (NLP) systems. To address dialect-induced performance discrepancies, we introduce AAVENUE ({AAVE} {N}atural Language {U}nderstanding {E}valuation), a benchmark for evaluating large language model (LLM) performance on NLU tasks in AAVE and Standard American English (SAE). AAVENUE builds upon and extends existing benchmarks like VALUE, replacing deterministic syntactic and morphological transformations with a more flexible methodology leveraging LLM-based translation with few-shot prompting, improving performance across our evaluation metrics when translating key tasks from the GLUE and SuperGLUE benchmarks. We compare AAVENUE and VALUE translations using five popular LLMs and a comprehensive set of metrics including fluency, BARTScore, quality, coherence, and understandability. Additionally, we recruit fluent AAVE speakers to validate our translations for authenticity. Our evaluations reveal that LLMs consistently perform better on SAE tasks than AAVE-translated versions, underscoring inherent biases and highlighting the need for more inclusive NLP models. We have open-sourced our source code on GitHub and created a website to showcase our work at https://aavenuee.github.io.