Who Brought Easter Eggs to Eid? Auditing Cultural Translation of Math Word Problems Across Diverse Languages and Regions

📄 arXiv: 2606.11009v1 📥 PDF

作者: Parisa Suchdev, Juniper Lovato

分类: cs.CL, cs.CY

发布日期: 2026-06-09

备注: 17 pages total with references and appendix, 9 figures, under review


💡 一句话要点

分析语言模型在数学问题文化翻译中的一致性与多样性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文化翻译 数学问题 语言模型 个性化学习 教育技术 多样性审计 实体转换 跨文化研究

📋 核心要点

  1. 现有的大型语言模型在数学问题的文化适应性上存在一致性不足和文化多样性压缩的问题。
  2. 论文通过分析多个语言模型对数学问题的翻译,提出了对文化实体转换的系统性审计方法。
  3. 研究结果显示,模型在实体转换上存在显著的不一致性,且普遍优先考虑表面特征,导致文化多样性丧失。

📝 摘要(中文)

随着大型语言模型在个性化学习中的应用日益增多,如何确保这些模型在不同文化背景下的一致性和多样性仍然是一个未解的问题。本文分析了Claude Opus 4、GPT-4.1和Gemini 2.5 Pro如何将60个英语数学问题翻译为多种语言,包括孟加拉语、印地语和旁遮普语等。通过对6489个实体转换的注释,研究发现模型在62.5%的情况下对转换类型达成一致,但在具体替换上仅为33.5%。所有模型组合显示出文化多样性的压缩,优先考虑表面特征而忽视深层结构特征。尽管提示指定了目标国家,模型仍存在区域上下文错误,导致跨文化污染现象。整体分析揭示了表面合理性掩盖的深层次失败。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在数学问题翻译中对文化多样性和一致性的不足,现有方法未能有效保留文化特征和区域上下文。

核心思路:通过对不同语言模型在翻译过程中的实体转换进行系统分析,揭示模型在文化适应性上的偏差和不足,强调对文化实体的审计。

技术框架:研究首先收集60个英语数学问题,然后将其翻译为多种语言,接着对翻译结果进行注释,分析实体转换的类型和一致性,最后总结模型的表现和文化适应性。

关键创新:本研究的创新在于系统性地审计和分析语言模型在文化翻译中的表现,揭示了模型在文化多样性压缩和区域上下文错误方面的系统性问题。

关键设计:研究中对6489个实体转换进行了详细注释,采用了编码方式来判断模型对实体的保留、地方化、概括、遗漏或更改,确保分析的全面性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所有21种语言模型组合在62.5%的情况下对转换类型达成一致,但在具体替换上仅为33.5%。此外,模型普遍表现出文化多样性的压缩现象,优先考虑表面特征而忽视深层结构特征,这一发现对教育内容的设计具有重要启示。

🎯 应用场景

该研究的潜在应用领域包括教育技术、个性化学习平台和多语言教育资源开发。通过提高语言模型在文化适应性方面的表现,可以更好地服务于多元文化背景下的学习者,促进教育公平与包容性。未来,该研究可能推动更为细致的文化审计工具的开发,以提升教育内容的文化敏感性。

📄 摘要(原文)

Large language models are increasingly used to adapt math word problems for personalized learning at scale, but it remains an open question whether those adaptations are consistent across models, preserve cultural diversity at scale, and reveal which cultural entities models treat as most salient. We analyze how Claude Opus 4, GPT-4.1, and Gemini 2.5 Pro adapt 60 English math word problems into Bengali, Hindi, Punjabi (India), Urdu, Sindhi (Pakistan), Italian, and Sicilian (Italy), a language set spanning the full resource spectrum, from high-resource Italian and Hindi to under-studied Sindhi, Sicilian, and Punjabi. We annotate 6,489 entity transformations, coding whether models preserve, localize, generalize, omit, or change entities such as names, foods, and places. Models agree on transformation type in 62.5% of cases and on specific substitutions in only 33.5%, meaning model choice directly shapes which cultural world students encounter. All 21 language-model combinations show entropy collapse, with adaptation compressing rather than expanding cultural diversity. Models prioritize surface markers such as names, foods, and currencies while preserving deeper structural features such as grade-level systems that embed culturally specific assumptions. Despite prompts specifying target countries, models misattribute regional context by using Bangladeshi taka for Indian Bengali students and produce cross-cultural contamination, such as adapting egg hunts as Eid activities. Some failures are visible in individual translations. Others, including diversity collapse, systematic preference for surface markers, and consistent regional misattribution, emerge only through corpus-level analysis. The surface plausibility that makes adapted problems look correct is precisely what makes deeper failures easy to overlook.