Analysis Of Linguistic Stereotypes in Single and Multi-Agent Generative AI Architectures
作者: Martina Ullasci, Marco Rondina, Riccardo Coppola, Flavio Giobergia, Riccardo Bellanca, Gabriele Mancari Pasi, Luca Prato, Federico Spinoso, Silvia Tagliente
分类: cs.AI
发布日期: 2026-03-19
💡 一句话要点
分析单智能体和多智能体生成式AI架构中的语言刻板印象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言偏见 大型语言模型 方言 提示工程 多智能体系统 公平性评估 自然语言处理
📋 核心要点
- 大型语言模型在处理不同方言时会产生刻板印象,尤其是在标准美式英语和非裔美国人英语之间,这反映了潜在的社会偏见。
- 论文通过提示工程和多智能体架构来缓解LLM中的方言偏见,旨在减少模型输出中与方言相关的刻板印象。
- 实验表明,思维链提示对某些模型有效,而多智能体架构能更一致地缓解所有模型的偏见,强调了模型特定验证的重要性。
📝 摘要(中文)
大量文献表明,大型语言模型(LLM)的输出表现出歧视行为,会根据输入的方言引发基于刻板印象的推断。当使用标准美式英语(SAE)和非裔美国人英语(AAE)向LLM提供相同输入时,这种偏见尤其明显。本文复制了现有对LLM输出中方言敏感的刻板印象生成分析,并研究了缓解策略的效果,包括提示工程(基于角色的提示和思维链提示)以及由生成-评论-修改模型组成的多智能体架构。我们定义了八个提示模板,以分析方言偏见的不同表现形式,例如为SAE或AAE使用者建议的姓名、职业和形容词。我们使用LLM作为评判者来评估结果中的偏见。结果表明,在所有模板类别中,与SAE和AAE相关的输出之间都存在带有刻板印象的差异,其中形容词和职业归因的影响最为强烈。不同模型之间的基线差异很大,Claude Haiku观察到的SAE-AAE差异最大,而Phi-4 Mini最小。思维链提示被证明是Claude Haiku的有效缓解策略,而多智能体架构的使用确保了所有模型的一致缓解。这些发现表明,对于交叉性知情的软件工程,公平性评估应包括缓解策略的模型特定验证,以及高影响力LLM部署中的工作流程级别控制(例如,涉及评论模型的智能体架构)。目前的结果本质上是探索性的,范围有限,但可以通过增加数据集大小并将该程序应用于不同的语言或方言来进行扩展和复制。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在处理不同方言(特别是标准美式英语SAE和非裔美国人英语AAE)时产生的刻板印象问题。现有方法未能有效消除这种偏见,导致模型输出带有歧视性色彩。这种偏见会影响模型在姓名、职业和形容词等方面的归因,从而加剧社会不公。
核心思路:论文的核心思路是通过提示工程和多智能体架构来缓解LLM中的方言偏见。提示工程包括使用基于角色的提示和思维链提示,旨在引导模型进行更客观的推理。多智能体架构则通过引入评论和修改机制,使模型能够自我纠正潜在的偏见。
技术框架:论文采用的整体框架包括以下几个主要阶段:首先,定义八个提示模板,用于分析方言偏见的不同表现形式。其次,使用这些模板生成LLM的输出,并分别针对SAE和AAE进行评估。然后,应用提示工程和多智能体架构等缓解策略。最后,使用LLM作为评判者来评估缓解策略的效果,并比较不同模型之间的表现。
关键创新:论文的关键创新在于系统性地研究了提示工程和多智能体架构在缓解LLM方言偏见方面的效果。与现有方法相比,论文不仅关注单个模型的表现,还考察了不同模型之间的差异,并提出了模型特定验证的必要性。此外,多智能体架构的引入为LLM的公平性控制提供了一种新的思路。
关键设计:论文的关键设计包括:1) 定义了八个提示模板,涵盖姓名、职业和形容词等多个方面,以全面评估方言偏见;2) 采用了思维链提示,引导模型进行更深入的推理;3) 构建了多智能体架构,包含生成、评论和修改三个阶段,以实现自我纠正;4) 使用LLM作为评判者,对模型输出进行客观评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同模型在方言偏见方面存在显著差异,Claude Haiku的SAE-AAE差异最大,而Phi-4 Mini最小。思维链提示对Claude Haiku有效,但多智能体架构能更一致地缓解所有模型的偏见。这些发现强调了模型特定验证和工作流程级别控制的重要性。
🎯 应用场景
该研究成果可应用于开发更公平、更包容的AI系统,尤其是在涉及自然语言处理的应用中,如招聘、教育和客户服务。通过减少语言偏见,可以避免AI系统对特定人群产生歧视,从而促进社会公平。未来的研究可以扩展到更多语言和方言,并探索更有效的缓解策略。
📄 摘要(原文)
Many works in the literature show that LLM outputs exhibit discriminatory behaviour, triggering stereotype-based inferences based on the dialect in which the inputs are written. This bias has been shown to be particularly pronounced when the same inputs are provided to LLMs in Standard American English (SAE) and African-American English (AAE). In this paper, we replicate existing analyses of dialect-sensitive stereotype generation in LLM outputs and investigate the effects of mitigation strategies, including prompt engineering (role-based and Chain-Of-Thought prompting) and multi-agent architectures composed of generate-critique-revise models. We define eight prompt templates to analyse different ways in which dialect bias can manifest, such as suggested names, jobs, and adjectives for SAE or AAE speakers. We use an LLM-as-judge approach to evaluate the bias in the results. Our results show that stereotype-bearing differences emerge between SAE- and AAE-related outputs across all template categories, with the strongest effects observed in adjective and job attribution. Baseline disparities vary substantially by model, with the largest SAE-AAE differential observed in Claude Haiku and the smallest in Phi-4 Mini. Chain-Of-Thought prompting proved to be an effective mitigation strategy for Claude Haiku, whereas the use of a multi-agent architecture ensured consistent mitigation across all the models. These findings suggest that for intersectionality-informed software engineering, fairness evaluation should include model-specific validation of mitigation strategies, and workflow-level controls (e.g., agentic architectures involving critique models) in high-impact LLM deployments. The current results are exploratory in nature and limited in scope, but can lead to extensions and replications by increasing the dataset size and applying the procedure to different languages or dialects.