CARTE: A Benchmark for Mapping Language Model Knowledge Across France
作者: Sarah Almeida Carneiro, Christos Xypolopoulos, Xiao Fei, Yang Zhang, Michalis Vazirgiannis
分类: cs.CL
发布日期: 2026-06-01
💡 一句话要点
CARTE:一个评估LLM在法国区域知识推理能力的基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 区域知识 基准测试 知识推理 语言变异
📋 核心要点
- 现有基准测试主要关注国家层面的文化理解,忽略了国家内部区域间的差异性。
- CARTE基准通过构建包含法国13个大区和14个主题的细粒度问题,来评估LLM的区域知识推理能力。
- 实验结果揭示了LLM在不同区域和模型规模上的性能差异,表明模型对国内变异的鲁棒性不足。
📝 摘要(中文)
本文提出了CARTE(Culturally Anchored Regional-Territorial Evaluation),这是一个多项选择题基准,用于评估大型语言模型(LLM)在法国境内进行细粒度、地域性知识推理的能力。现有基准主要关注国家层面的文化理解,忽略了国内区域差异以及区分密切相关的区域背景的需求。CARTE通过引入2431个问题来解决这一问题,这些问题涵盖法国13个大区和14个主题领域,包括文化、语言、人口、经济、环境和交通。此外,本文还引入了CARTE-LV,这是一个针对法国各地区语言变异的子集,可以对语言相关差异进行重点评估。本文评估了27个参数量从1B到12B的LLM在少量样本设置下的表现。实验结果表明,不同区域和模型规模之间存在性能差异,表明预训练覆盖范围存在系统性差距,并且对国内变异的鲁棒性有限。
🔬 方法详解
问题定义:现有的大型语言模型评估基准主要关注国家层面的文化理解,忽略了国家内部不同区域之间的文化、语言、经济等方面的差异。因此,模型难以区分密切相关的区域背景,导致在处理区域性知识时表现不佳。
核心思路:本文的核心思路是构建一个专门针对法国区域知识的评估基准,通过多项选择题的形式,考察模型在不同区域和主题上的推理能力。该基准旨在揭示模型在区域知识方面的不足,并促进模型对区域差异的更好理解。
技术框架:CARTE基准包含以下几个主要组成部分: 1. 区域划分:选取法国13个大区作为评估对象。 2. 主题领域:涵盖文化、语言、人口、经济、环境和交通等14个主题领域。 3. 问题生成:人工构建2431个多项选择题,每个问题都与特定的区域和主题相关。 4. CARTE-LV子集:专门针对法国各地区语言变异的子集,用于评估模型对语言相关差异的理解。 5. 模型评估:使用少量样本学习设置,评估不同规模的LLM在CARTE基准上的表现。
关键创新:CARTE基准的关键创新在于其关注了国家内部的区域差异,并构建了一个细粒度的评估数据集。与以往的基准相比,CARTE能够更全面地评估模型在区域知识方面的推理能力,并揭示模型在处理区域性知识时的不足。CARTE-LV子集则进一步聚焦于语言变异,为评估模型对语言差异的理解提供了更精确的工具。
关键设计:CARTE基准的关键设计包括: 1. 多项选择题形式:选择题形式易于评估和比较不同模型的性能。 2. 区域和主题的平衡:确保每个区域和主题都有足够数量的问题,以保证评估的可靠性。 3. 少量样本学习设置:模拟实际应用场景,考察模型在有限数据下的学习能力。 4. CARTE-LV子集的构建:通过收集和整理法国各地区的语言变异数据,构建专门针对语言差异的评估集。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同区域和模型规模之间存在显著的性能差异。例如,某些区域的问题回答正确率明显低于其他区域,表明模型对这些区域的知识掌握不足。此外,模型规模的增加并不总是带来性能的显著提升,表明预训练数据的覆盖范围和质量对模型性能至关重要。CARTE-LV子集的评估结果也揭示了模型在处理语言变异方面的不足。
🎯 应用场景
CARTE基准的潜在应用领域包括:提升LLM在地理信息系统、旅游推荐、本地化内容生成等方面的性能。通过CARTE基准的评估和改进,LLM可以更好地理解和处理区域性知识,从而为用户提供更准确、更个性化的服务。此外,该基准还可以用于评估和比较不同LLM在区域知识方面的能力,促进LLM的进一步发展。
📄 摘要(原文)
We introduce CARTE 1 (Culturally Anchored Regional-Territorial Evaluation), a multiplechoice benchmark for evaluating the ability of large language models (LLMs) to perform fine-grained reasoning over geographically grounded and regionally differentiated knowledge within France. While prior benchmarks focus on national-level cultural understanding, they largely overlook intra-country variation and the need to distinguish between closely related regional contexts. CARTE addresses this gap by introducing 2,431 questions spanning the 13 metropolitan regions of France and covering 14 thematic domains, including culture, language, demographics, economy, environment, and mobility. We further introduce CARTE-LV, a subset targeting Linguistic Variation across French regions, enabling focused evaluation of language-related differences. We evaluate 27 LLMs ranging from 1B to 12B parameters under few-shot settings. Our experiments reveal performance disparities across regions and model scales, suggesting systematic gaps in pretraining coverage and limited robustness to intra-national variation.