CulturALL: Benchmarking Multilingual and Multicultural Competence of LLMs on Grounded Tasks

作者: Peiqin Lin, Chenyang Lyu, Wenjiang Luo, Haotian Ye, Md Mehrab Hossain, Chunlan Ma, Shaoxiong Ji, Younes Samih, Bo Zeng, Fan Jiang, Yuanbin Cao, Dilda Duisenbek, Adrian Neo Sau Xun, Daria Pozdniakova, Liubou Misevich, Nevena Marinković, Ngoc Gia Linh Nguyen, Thi Khanh Linh Do, Sarakmatak Sophy, Baotian Hu, Guanhua Chen, Gongbo Tang, Alham Fikri Aji, Longyue Wang, Weihua Luo

分类: cs.CL, cs.AI

发布日期: 2026-04-21

💡 一句话要点

CulturALL：提出一个多语言文化常识基准，用于评估LLM在真实场景中的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 文化常识 基准测试 人机协作 常识推理

📋 核心要点

现有基准测试主要关注通用语言理解和文化琐事，忽略了LLM在真实场景中推理能力的评估。
CulturALL通过人机协作构建，专家保证难度和准确性，LLM辅助标注，覆盖多种场景。
实验结果表明，即使是最好的LLM在CulturALL上的准确率也仅为44.48%，提升空间巨大。

📝 摘要（中文）

大型语言模型（LLMs）现已在全球范围内广泛部署，同时也涌现出大量旨在衡量其多语言和多元文化能力的基准。然而，这些基准往往侧重于通用的语言理解或表面的文化琐事，而对实际场景中的推理能力（即模型必须在真实的、上下文丰富的场景中进行推理）的评估则相对不足。为了填补这一空白，我们提出了CulturALL，这是一个全面且具有挑战性的基准，旨在评估LLM在实际任务中的多语言和多元文化能力。CulturALL通过人机协作框架构建：专家标注者确保适当的难度和事实准确性，而LLM则减轻手动工作量。通过整合多样化的来源，CulturALL确保了全面的场景覆盖。每个条目都经过精心设计，呈现出高难度，使得CulturALL具有挑战性。CulturALL包含来自51个地区的14种语言的2610个样本，分布在16个主题中，以捕捉实际任务的全部广度。实验表明，最佳LLM在CulturALL上的准确率达到44.48%，表明仍有很大的改进空间。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在多语言和多元文化背景下，对于需要结合真实世界知识进行推理的任务的评估问题。现有基准测试的痛点在于，它们要么侧重于通用的语言理解能力，要么只关注表面的文化知识，而忽略了模型在实际场景中进行推理和决策的能力。

核心思路：论文的核心思路是构建一个更具挑战性和真实性的基准测试，该基准测试能够全面评估LLM在多语言和多元文化环境下的常识推理能力。通过引入需要结合真实世界知识的任务，CulturALL能够更好地反映LLM在实际应用中的表现。

技术框架：CulturALL的构建采用人机协作框架。首先，领域专家负责设计和标注高质量的测试样本，确保样本的难度和事实准确性。其次，利用LLM辅助标注过程，减轻人工标注的工作量。最后，整合来自不同来源的数据，确保基准测试的场景覆盖范围。整个流程旨在创建一个全面、具有挑战性且贴近实际应用的基准测试。

关键创新：CulturALL的关键创新在于其对“grounded tasks”的关注，即需要结合真实世界知识进行推理的任务。与以往侧重于通用语言理解或文化琐事的基准测试不同，CulturALL要求LLM在具体的、上下文丰富的场景中进行推理和决策，从而更真实地反映了LLM在实际应用中的能力。

关键设计：CulturALL包含2610个样本，覆盖14种语言和51个地区，涉及16个主题。每个样本都经过精心设计，以确保其难度和挑战性。此外，CulturALL还采用了人机协作的标注方法，以提高标注效率和质量。具体的参数设置、损失函数和网络结构等技术细节取决于被评估的LLM。

🖼️ 关键图片

📊 实验亮点

实验结果表明，目前最好的LLM在CulturALL上的准确率仅为44.48%，远低于人类水平，表明LLM在多语言和多元文化常识推理方面仍有很大的提升空间。这一结果突显了CulturALL基准测试的挑战性和价值，并为未来的研究方向提供了指导。

🎯 应用场景

CulturALL基准测试可用于评估和改进LLM在多语言和多元文化环境下的应用，例如跨文化交流、智能客服、国际贸易等。通过提高LLM在这些场景下的推理能力，可以促进更有效和自然的跨文化沟通，并减少潜在的误解和偏见。该研究对于推动LLM在国际化场景中的应用具有重要意义。

📄 摘要（原文）

Large language models (LLMs) are now deployed worldwide, inspiring a surge of benchmarks that measure their multilingual and multicultural abilities. However, these benchmarks prioritize generic language understanding or superficial cultural trivia, leaving the evaluation of grounded tasks -- where models must reason within real-world, context-rich scenarios -- largely unaddressed. To fill this gap, we present CulturALL, a comprehensive and challenging benchmark to assess LLMs' multilingual and multicultural competence on grounded tasks. CulturALL is built via a human--AI collaborative framework: expert annotators ensure appropriate difficulty and factual accuracy, while LLMs lighten the manual workload. By incorporating diverse sources, CulturALL ensures comprehensive scenario coverage. Each item is carefully designed to present a high level of difficulty, making CulturALL challenging. CulturALL contains 2,610 samples in 14 languages from 51 regions, distributed across 16 topics to capture the full breadth of grounded tasks. Experiments show that the best LLM achieves 44.48% accuracy on CulturALL, underscoring substantial room for improvement.

CulturALL: Benchmarking Multilingual and Multicultural Competence of LLMs on Grounded Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理