BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages
作者: Junho Myung, Nayeon Lee, Yi Zhou, Jiho Jin, Rifki Afina Putri, Dimosthenis Antypas, Hsuvas Borkakoty, Eunsu Kim, Carla Perez-Almendros, Abinew Ali Ayele, Víctor Gutiérrez-Basulto, Yazmín Ibáñez-García, Hwaran Lee, Shamsuddeen Hassan Muhammad, Kiwoong Park, Anar Sabuhi Rzayev, Nina White, Seid Muhie Yimam, Mohammad Taher Pilehvar, Nedjma Ousidhoum, Jose Camacho-Collados, Alice Oh
分类: cs.CL
发布日期: 2024-06-14 (更新: 2025-01-16)
备注: Accepted to NeurIPS 2024 Datasets & Benchmark Track
🔗 代码/项目: GITHUB
💡 一句话要点
BLEnD:一个评估LLM在多元文化和语言日常知识表现的基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文化知识 多语言 基准测试 低资源语言 日常知识 文化敏感性
📋 核心要点
- 现有LLM在文化特定日常知识方面存在不足,尤其是在代表性不足的文化和低资源语言中。
- BLEnD通过手工构建包含16个国家/地区、13种语言的52.6k问答对,评估LLM的日常知识。
- 实验表明,LLM在在线资源丰富的文化中表现更好,低资源语言文化中,英语表现优于本地语言。
📝 摘要(中文)
大型语言模型(LLMs)常常缺乏特定文化背景下的日常生活知识,尤其是在不同地区和非英语语言中。现有的评估LLMs文化敏感性的基准测试通常仅限于单一语言或从维基百科等在线资源收集,无法反映不同地区日常生活的方方面面。例如,人们生日庆祝时吃的食物、常用的香料、年轻人演奏的乐器或在学校练习的运动等,这些都是常见的文化知识,但在容易收集的在线资源中并不常见,特别是对于代表性不足的文化。为了解决这个问题,我们推出了BLEnD,这是一个手工制作的基准,旨在评估LLMs在不同文化和语言中的日常知识。BLEnD包含来自16个国家/地区的52.6k个问答对,使用13种不同的语言,包括阿姆哈拉语、阿萨姆语、阿塞拜疆语、豪萨语和巽他语等低资源语言。我们构建该基准,使其包含两种问题形式:简答题和多项选择题。结果表明,LLMs在在线资源中高度代表的文化中表现更好,在表现最佳的模型GPT-4的简答题形式中,最大差异为57.34%。对于由中高资源语言代表的文化,LLMs在其本地语言中表现更好,但对于由低资源语言代表的文化,LLMs在英语中的表现优于本地语言。我们将数据集公开。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在文化特定日常知识方面的不足问题。现有评估文化敏感性的基准测试存在局限性,主要体现在它们依赖于单一语言或从维基百科等在线资源收集数据,无法充分反映不同文化背景下的日常生活细节。这导致LLMs在处理涉及特定文化背景的常识性问题时表现不佳,尤其是在代表性不足的文化和低资源语言中。
核心思路:论文的核心思路是通过构建一个手工制作的、多语言、多文化的基准数据集BLEnD,来更全面地评估LLMs在日常知识方面的表现。该数据集覆盖了16个国家/地区,包含13种不同的语言,包括一些低资源语言。通过这种方式,可以更准确地衡量LLMs在不同文化背景下的知识掌握程度,并发现其在处理特定文化信息时的不足。
技术框架:BLEnD基准测试的构建流程主要包括以下几个阶段:1) 确定目标国家/地区和语言;2) 设计问答对的格式,包括简答题和多项选择题;3) 招募母语人士进行数据收集和标注,确保数据的准确性和文化相关性;4) 对收集到的数据进行清洗和验证,以保证数据质量;5) 将数据集公开,供研究人员使用。
关键创新:BLEnD的关键创新在于其手工构建和多语言、多文化的特性。与以往依赖于在线资源或单一语言的基准测试相比,BLEnD能够更全面地评估LLMs在不同文化背景下的日常知识。此外,BLEnD还包含了低资源语言的数据,这有助于研究人员了解LLMs在处理这些语言时的表现,并促进相关技术的发展。
关键设计:BLEnD数据集包含52.6k个问答对,涵盖了16个国家/地区和13种语言。问题分为简答题和多项选择题两种形式,旨在从不同角度评估LLMs的知识掌握程度。数据收集过程中,论文作者招募了母语人士进行标注,并进行了严格的数据清洗和验证,以保证数据质量。论文没有明确提及损失函数或网络结构等技术细节,因为BLEnD主要是一个基准数据集,而不是一种新的模型或算法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLMs在在线资源丰富的文化中表现更好,GPT-4在简答题形式中最大差异达到57.34%。对于中高资源语言,LLMs在本地语言中表现更佳,而对于低资源语言,英语表现优于本地语言。这些结果突显了LLMs在处理不同文化和语言信息时的差距,并强调了BLEnD基准测试的重要性。
🎯 应用场景
BLEnD基准测试可用于评估和改进大型语言模型在处理多语言、多文化日常知识方面的能力。这有助于开发更具文化敏感性和适应性的AI系统,例如智能助手、机器翻译和跨文化交流工具。此外,该数据集还可以促进对低资源语言处理技术的研究,从而缩小数字鸿沟。
📄 摘要(原文)
Large language models (LLMs) often lack culture-specific knowledge of daily life, especially across diverse regions and non-English languages. Existing benchmarks for evaluating LLMs' cultural sensitivities are limited to a single language or collected from online sources such as Wikipedia, which do not reflect the mundane everyday lifestyles of diverse regions. That is, information about the food people eat for their birthday celebrations, spices they typically use, musical instruments youngsters play, or the sports they practice in school is common cultural knowledge but uncommon in easily collected online sources, especially for underrepresented cultures. To address this issue, we introduce BLEnD, a hand-crafted benchmark designed to evaluate LLMs' everyday knowledge across diverse cultures and languages. BLEnD comprises 52.6k question-answer pairs from 16 countries/regions, in 13 different languages, including low-resource ones such as Amharic, Assamese, Azerbaijani, Hausa, and Sundanese. We construct the benchmark to include two formats of questions: short-answer and multiple-choice. We show that LLMs perform better for cultures that are highly represented online, with a maximum 57.34% difference in GPT-4, the best-performing model, in the short-answer format. For cultures represented by mid-to-high-resource languages, LLMs perform better in their local languages, but for cultures represented by low-resource languages, LLMs perform better in English than the local languages. We make our dataset publicly available at: https://github.com/nlee0212/BLEnD.