When Words Don't Mean What They Say: Figurative Understanding in Bengali Idioms
作者: Adib Sakhawat, Shamim Ara Parveen, Md Ruhul Amin, Shamim Al Mahmud, Md Saiful Islam, Tahera Khatun
分类: cs.CL
发布日期: 2026-02-13
备注: 9 pages, 5 figures. Accepted for presentation at LREC 2026 (Language Resources and Evaluation Conference)
💡 一句话要点
构建孟加拉语成语数据集,揭示LLM在低资源语言文化理解上的局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 孟加拉语 成语理解 低资源语言 自然语言处理 大型语言模型
📋 核心要点
- 大型语言模型在理解低资源语言的比喻性语言方面存在显著挑战。
- 论文构建了一个大规模的孟加拉语成语数据集,并设计了详细的标注模式。
- 实验表明,现有LLM在孟加拉语成语理解上表现不佳,远低于人类水平。
📝 摘要(中文)
大型语言模型(LLMs)在理解比喻性语言方面仍然面临重大挑战,尤其是在低资源语言中。为了解决这个问题,我们引入了一个新的成语数据集,这是一个大规模的、具有文化基础的孟加拉语成语语料库,包含10361个成语。每个成语都根据一个包含19个字段的综合模式进行标注,该模式通过审慎的专家共识过程建立和完善,捕捉其语义、句法、文化和宗教维度,为计算语言学提供丰富的、结构化的资源。为了建立孟加拉语比喻性语言理解的可靠基准,我们评估了30个最先进的多语言和指令调优的LLMs在推断比喻意义的任务上的表现。结果表明存在一个关键的性能差距,没有模型的准确率超过50%,这与显著更高的人类表现(83.4%)形成鲜明对比。这突显了现有模型在跨语言和文化推理方面的局限性。通过发布新的成语数据集和基准,我们为推进孟加拉语和其他低资源语言的LLMs在比喻性语言理解和文化基础方面的研究提供了基础架构。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在理解低资源语言(特别是孟加拉语)中的比喻性语言(成语)时遇到的困难。现有方法在跨语言和文化推理方面存在局限性,无法准确理解成语的隐含意义。缺乏高质量的、带有丰富文化信息的孟加拉语成语数据集是主要痛点。
核心思路:论文的核心思路是构建一个大规模、高质量的孟加拉语成语数据集,并设计一个全面的标注模式,以捕捉成语的语义、句法、文化和宗教维度。通过这个数据集,可以评估现有LLMs在孟加拉语比喻性语言理解方面的能力,并为未来的研究提供基准。
技术框架:该研究的技术框架主要包括两个部分:数据集构建和模型评估。数据集构建涉及收集大量的孟加拉语成语,并由专家进行标注。标注模式包含19个字段,涵盖成语的各个方面。模型评估部分则使用构建的数据集,评估30个最先进的LLMs在推断成语比喻意义方面的表现。
关键创新:该论文的关键创新在于构建了一个大规模、高质量的、文化相关的孟加拉语成语数据集,并设计了一个全面的标注模式。该数据集不仅包含成语的语义和句法信息,还包含了文化和宗教维度,这使得它能够更好地反映成语的真实含义。此外,该研究还提供了一个基准,可以用于评估和比较不同LLMs在孟加拉语比喻性语言理解方面的能力。
关键设计:数据集的标注模式包含19个字段,包括成语的字面意义、比喻意义、语法结构、文化背景、宗教关联等。专家通过审慎的共识过程来确定每个成语的标注。在模型评估方面,使用了30个最先进的多语言和指令调优的LLMs,并使用准确率作为评估指标。没有特别提及损失函数或网络结构等细节,因为重点在于数据集的构建和基准的建立。
📊 实验亮点
实验结果表明,即使是最先进的LLMs在孟加拉语成语理解任务上的准确率也远低于人类水平(低于50% vs. 83.4%)。这凸显了现有模型在跨语言和文化推理方面的局限性。该研究强调了构建高质量、文化相关的低资源语言数据集的重要性,并为未来的研究提供了明确的基准。
🎯 应用场景
该研究成果可应用于提升低资源语言的自然语言处理能力,例如机器翻译、情感分析、文本摘要等。高质量的孟加拉语成语数据集能够帮助LLM更好地理解孟加拉语文本,从而提高相关应用的性能。此外,该研究也为其他低资源语言的比喻性语言理解研究提供了借鉴,有助于推动多语言自然语言处理的发展。
📄 摘要(原文)
Figurative language understanding remains a significant challenge for Large Language Models (LLMs), especially for low-resource languages. To address this, we introduce a new idiom dataset, a large-scale, culturally-grounded corpus of 10,361 Bengali idioms. Each idiom is annotated under a comprehensive 19-field schema, established and refined through a deliberative expert consensus process, that captures its semantic, syntactic, cultural, and religious dimensions, providing a rich, structured resource for computational linguistics. To establish a robust benchmark for Bangla figurative language understanding, we evaluate 30 state-of-the-art multilingual and instruction-tuned LLMs on the task of inferring figurative meaning. Our results reveal a critical performance gap, with no model surpassing 50% accuracy, a stark contrast to significantly higher human performance (83.4%). This underscores the limitations of existing models in cross-linguistic and cultural reasoning. By releasing the new idiom dataset and benchmark, we provide foundational infrastructure for advancing figurative language understanding and cultural grounding in LLMs for Bengali and other low-resource languages.