Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language

📄 arXiv: 2510.23828v1 📥 PDF

作者: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab

分类: cs.CL

发布日期: 2025-10-27


💡 一句话要点

评估LLM在文化语境下处理比喻语言的实用差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 比喻语言理解 文化推理 语用学 阿拉伯语 埃及阿拉伯语 跨文化交流 自然语言处理

📋 核心要点

  1. 现有LLM在处理文化背景下的比喻语言时,缺乏对本地知识和文化细微差别的理解和实用能力。
  2. 论文设计了针对阿拉伯语和英语的比喻语言理解、实用和内涵解释评估任务,以衡量LLM的文化推理能力。
  3. 实验结果表明,LLM在处理阿拉伯语比喻语言时性能显著低于英语,且在实用使用方面面临挑战。

📝 摘要(中文)

本文全面评估了大型语言模型(LLM)处理文化背景语言的能力,特别是理解和实用性地使用编码本地知识和文化细微差别的比喻表达。以比喻语言作为文化细微差别和本地知识的代表,我们设计了针对阿拉伯语和英语的上下文理解、实用使用和内涵解释的评估任务。我们评估了22个开源和闭源LLM在埃及阿拉伯语习语、多方言阿拉伯语谚语和英语谚语上的表现。结果显示出一致的层级结构:阿拉伯语谚语的平均准确率比英语谚语低4.29%,埃及习语的表现比阿拉伯语谚语低10.28%。对于实用使用任务,准确率相对于理解下降了14.07%,但提供上下文习语句子可将准确率提高10.66%。模型在内涵意义方面也存在困难,在与人类注释者达成一致(习语的注释者间一致性为100%)时,最多达到85.58%。这些发现表明,比喻语言可以有效地诊断文化推理:虽然LLM通常可以解释比喻意义,但它们在使用方面面临挑战。为了支持未来的研究,我们发布了Kinayat,这是第一个为比喻理解和实用使用评估而设计的埃及阿拉伯语习语数据集。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在处理文化背景下比喻语言时的能力,具体来说,就是理解和恰当使用包含本地知识和文化细微差别的习语和谚语。现有方法在文化推理方面存在不足,无法准确捕捉比喻语言中的文化内涵和语用信息。

核心思路:论文的核心思路是将比喻语言作为文化推理能力的代理指标。通过设计一系列评估任务,考察LLM在理解、实用和内涵解释三个方面的表现,从而诊断其在文化语境下的推理能力。之所以选择比喻语言,是因为它高度依赖于文化背景知识和语用推理。

技术框架:论文的评估框架主要包含以下几个阶段:1) 数据集构建:构建包含埃及阿拉伯语习语、多方言阿拉伯语谚语和英语谚语的数据集,并进行人工标注。2) 任务设计:设计上下文理解、实用使用和内涵解释三个任务。3) 模型评估:在22个开源和闭源LLM上进行评估,并分析结果。4) 误差分析:分析模型在不同任务和语言上的表现差异,找出其弱点。

关键创新:论文的关键创新在于:1) 提出了一个基于比喻语言的文化推理能力评估框架。2) 构建了第一个专门用于评估埃及阿拉伯语习语理解和实用使用的数据集Kinayat。3) 系统地评估了多个LLM在不同文化背景下的比喻语言处理能力,揭示了其在文化推理方面的局限性。

关键设计:在实用使用任务中,论文设计了两种场景:一种是给定上下文,要求模型选择合适的习语;另一种是给定习语,要求模型判断其在特定上下文中是否适用。在内涵解释任务中,论文要求模型对习语的含义进行选择,并与人工标注结果进行比较。论文还考虑了不同方言和语言之间的差异,以更全面地评估模型的文化适应性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在处理阿拉伯语比喻语言时,平均准确率比英语低4.29%,埃及习语的准确率比阿拉伯语谚语低10.28%。在实用使用任务中,准确率下降了14.07%,但提供上下文信息可提高10.66%。模型在内涵解释任务中,与人工标注者的一致性最高为85.58%。这些数据清晰地展示了LLM在文化推理方面的差距。

🎯 应用场景

该研究成果可应用于提升LLM在跨文化交流场景下的表现,例如机器翻译、跨文化对话系统等。通过提高LLM对文化细微差别的理解和应用能力,可以减少误解和文化冲突,促进更有效的跨文化沟通。此外,该研究也为开发更具文化敏感性的AI系统提供了指导。

📄 摘要(原文)

We present a comprehensive evaluation of the ability of large language models (LLMs) to process culturally grounded language, specifically to understand and pragmatically use figurative expressions that encode local knowledge and cultural nuance. Using figurative language as a proxy for cultural nuance and local knowledge, we design evaluation tasks for contextual understanding, pragmatic use, and connotation interpretation in Arabic and English. We evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms, multidialectal Arabic proverbs, and English proverbs. Our results show a consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower than for English proverbs, and performance for Egyptian idioms is 10.28% lower than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07% relative to understanding, though providing contextual idiomatic sentences improves accuracy by 10.66%. Models also struggle with connotative meaning, reaching at most 85.58% agreement with human annotators on idioms with 100% inter-annotator agreement. These findings demonstrate that figurative language serves as an effective diagnostic for cultural reasoning: while LLMs can often interpret figurative meaning, they face challenges in using it appropriately. To support future research, we release Kinayat, the first dataset of Egyptian Arabic idioms designed for both figurative understanding and pragmatic use evaluation.