Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese

📄 arXiv: 2505.22645v1 📥 PDF

作者: Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke

分类: cs.CL, cs.CY

发布日期: 2025-05-28

备注: To appear in the 2025 ACM Conference on Fairness, Accountability, and Transparency (FAccT '25)

🔗 代码/项目: GITHUB


💡 一句话要点

揭示大语言模型在简体中文和繁体中文上的偏差,并构建开源评测基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 简体中文 繁体中文 偏差评估 基准测试 自然语言处理 文化差异

📋 核心要点

  1. 现有研究缺乏对大语言模型在简体中文和繁体中文两种书写体系下性能差异的系统性评估,可能导致文化背景的忽视和决策偏差。
  2. 设计了区域术语选择和区域名称选择两个基准任务,模拟真实场景,考察LLM在不同中文变体下的偏好。
  3. 实验结果表明,LLM的偏差与任务和提示语言相关,揭示了训练数据、字符偏好和tokenization对模型行为的影响。

📝 摘要(中文)

本文研究了大语言模型(LLM)在简体中文和繁体中文提示下的性能差异。这种理解至关重要,因为LLM响应质量的差异可能会通过忽略简体中文和繁体中文的不同文化背景来延续代表性伤害,并加剧LLM在教育或招聘等领域中辅助决策的下游伤害。为了调查潜在的LLM性能差异,我们设计了两个反映真实场景的基准任务:区域术语选择(提示LLM命名一个在大陆和台湾有不同称谓的物品)和区域名称选择(提示LLM从简体中文和繁体中文的名字列表中选择雇佣对象)。我们评估了11个领先的商业LLM服务和开源模型——包括主要在英语、简体中文或繁体中文上训练的模型。分析表明,LLM响应中的偏差取决于任务和提示语言:虽然大多数LLM在区域术语选择任务中不成比例地偏向简体中文响应,但令人惊讶的是,它们在区域名称选择任务中偏向繁体中文名称。我们发现这些差异可能源于训练数据表示、书写字符偏好以及简体中文和繁体中文的tokenization差异。这些发现强调了进一步分析LLM偏差的必要性;因此,我们提供了一个开源基准数据集,以促进对未来LLM在中文变体中的行为进行可重复的评估。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)在处理简体中文和繁体中文时可能存在的偏差问题。现有方法缺乏对这种偏差的系统性评估,这可能导致模型在实际应用中产生不公平或不准确的结果,尤其是在涉及文化背景和区域差异的任务中。

核心思路:论文的核心思路是通过设计专门的基准测试任务,量化评估LLM在简体中文和繁体中文上的性能差异。通过分析模型在不同任务和提示语言下的表现,揭示潜在的偏差来源,例如训练数据分布、字符偏好和tokenization策略。

技术框架:论文构建了包含两个基准测试任务的评估框架:区域术语选择和区域名称选择。区域术语选择任务要求模型根据描述选择在大陆和台湾有不同称谓的物品名称。区域名称选择任务要求模型从简体中文和繁体中文的名字列表中选择雇佣对象。研究人员使用这些任务评估了11个商业LLM服务和开源模型。

关键创新:该研究最重要的创新点在于首次系统性地评估了LLM在简体中文和繁体中文上的偏差,并揭示了这种偏差与任务类型和提示语言之间的关系。此外,论文还开源了一个基准数据集,为未来的研究提供了可重复的评估平台。

关键设计:在区域术语选择任务中,研究人员精心挑选了在大陆和台湾有不同称谓的物品,并设计了清晰的描述性提示。在区域名称选择任务中,研究人员构建了包含简体中文和繁体中文名字的候选列表,并设计了模拟招聘场景的提示。研究人员分析了模型在不同任务和提示语言下的响应分布,并使用统计方法评估了偏差的显著性。

📊 实验亮点

实验结果表明,LLM在区域术语选择任务中普遍偏向简体中文响应,而在区域名称选择任务中则意外地偏向繁体中文名称。这些偏差可能源于训练数据、字符偏好和tokenization的差异。该研究揭示了LLM在处理不同中文变体时存在的潜在偏差,并为未来的研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于评估和改进大语言模型在中文环境下的公平性和准确性,尤其是在教育、招聘、内容生成等领域。通过减少模型偏差,可以避免对特定文化或区域群体的歧视,提升用户体验,并促进更公平的社会决策。

📄 摘要(原文)

While the capabilities of Large Language Models (LLMs) have been studied in both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit differential performance when prompted in these two variants of written Chinese. This understanding is critical, as disparities in the quality of LLM responses can perpetuate representational harms by ignoring the different cultural contexts underlying Simplified versus Traditional Chinese, and can exacerbate downstream harms in LLM-facilitated decision-making in domains such as education or hiring. To investigate potential LLM performance disparities, we design two benchmark tasks that reflect real-world scenarios: regional term choice (prompting the LLM to name a described item which is referred to differently in Mainland China and Taiwan), and regional name choice (prompting the LLM to choose who to hire from a list of names in both Simplified and Traditional Chinese). For both tasks, we audit the performance of 11 leading commercial LLM services and open-sourced models -- spanning those primarily trained on English, Simplified Chinese, or Traditional Chinese. Our analyses indicate that biases in LLM responses are dependent on both the task and prompting language: while most LLMs disproportionately favored Simplified Chinese responses in the regional term choice task, they surprisingly favored Traditional Chinese names in the regional name choice task. We find that these disparities may arise from differences in training data representation, written character preferences, and tokenization of Simplified and Traditional Chinese. These findings highlight the need for further analysis of LLM biases; as such, we provide an open-sourced benchmark dataset to foster reproducible evaluations of future LLM behavior across Chinese language variants (https://github.com/brucelyu17/SC-TC-Bench).