Can LLMs Solve My Grandma's Riddle? Evaluating Multilingual Large Language Models on Reasoning Traditional Bangla Tricky Riddles
作者: Nurul Labib Sayeedi, Md. Faiyaz Abdullah Sayeedi, Khushnur Binte Jahangir, Swakkhar Shatabda, Sarah Masud Preum
分类: cs.CL
发布日期: 2025-12-23
🔗 代码/项目: GITHUB
💡 一句话要点
BanglaRiddleEval:评估多语言大模型在孟加拉语传统谜语推理上的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 孟加拉语 谜语推理 低资源语言 文化推理
📋 核心要点
- 现有大型语言模型在比喻、文化背景和低资源语言推理方面能力不足,缺乏针对性评估。
- 论文构建了BanglaRiddleEval基准,包含孟加拉语传统谜语,用于评估LLM在低资源语言环境下的推理能力。
- 实验结果表明,现有LLM在孟加拉语谜语推理方面远未达到人类水平,为后续研究提供了挑战性基准。
📝 摘要(中文)
大型语言模型(LLMs)在许多NLP基准测试中表现出令人印象深刻的性能,但它们在比喻、文化背景和低资源环境中的推理能力仍未得到充分探索。我们通过引入BanglaRiddleEval来解决孟加拉语的这一差距,这是一个包含1,244个传统孟加拉语谜语的基准,这些谜语被实例化为四个任务(总共4,976个谜语-任务工件)。使用基于LLM的pipeline,我们生成思维链解释、语义连贯的干扰项和细粒度的歧义注释,并在不同的prompt策略下评估各种开源和闭源模型。模型在生成式QA上实现了适度的语义重叠,但正确率较低,MCQ准确率峰值仅为56%左右,而人类基线为83%,歧义消除范围约为26%至68%,高质量的解释仅限于最强的模型。这些结果表明,当前的LLM捕获了一些孟加拉语谜语推理所需的线索,但与人类水平的表现相差甚远,从而将BanglaRiddleEval确立为一个具有挑战性的低资源比喻推理新基准。所有数据、代码和评估脚本都可以在GitHub上找到:https://github.com/Labib1610/BanglaRiddleEval。
🔬 方法详解
问题定义:论文旨在评估大型语言模型在解决孟加拉语传统谜语时的推理能力。现有方法缺乏对低资源语言、文化背景和比喻推理的有效评估,导致模型在这些场景下的表现不佳。传统NLP基准测试通常侧重于高资源语言和通用知识,无法充分反映LLM在特定文化和语言环境下的推理能力。
核心思路:论文的核心思路是构建一个专门针对孟加拉语传统谜语的评估基准,即BanglaRiddleEval。通过该基准,可以系统地评估LLM在理解和解决具有文化背景、比喻意义和歧义性的谜语时的表现。这种方法能够更准确地反映LLM在低资源语言和特定文化环境下的推理能力。
技术框架:整体框架包括数据收集与构建、LLM推理pipeline构建、评估指标设计三个主要阶段。首先,收集并整理了1244个孟加拉语传统谜语,并将其转化为四个不同的任务形式(如生成式QA、多项选择题等)。然后,构建了一个基于LLM的pipeline,用于生成思维链解释、语义连贯的干扰项和细粒度的歧义注释。最后,设计了一系列评估指标,用于衡量LLM在不同任务上的表现,包括正确率、语义重叠度和歧义消除能力。
关键创新:该论文的关键创新在于构建了一个专门针对孟加拉语传统谜语的评估基准BanglaRiddleEval。该基准不仅包含了大量的谜语数据,还提供了多种任务形式、思维链解释、干扰项和歧义注释,从而能够更全面地评估LLM在低资源语言和特定文化环境下的推理能力。此外,论文还提出了一个基于LLM的pipeline,用于自动生成评估所需的数据和注释,从而降低了人工标注的成本。
关键设计:在数据构建方面,论文将每个谜语实例化为四个任务:生成式QA、多项选择题(MCQ)、歧义消除和思维链生成。在LLM推理pipeline中,使用了不同的prompt策略来引导模型生成答案和解释。在评估指标方面,除了传统的正确率之外,还使用了语义重叠度(如ROUGE)来衡量生成答案的质量,并设计了专门的指标来评估模型在歧义消除方面的能力。
📊 实验亮点
实验结果表明,现有LLM在BanglaRiddleEval基准上的表现远低于人类水平。MCQ任务的准确率峰值仅为56%,而人类基线为83%。歧义消除任务的准确率范围为26%至68%。高质量的解释仅限于最强的模型。这些结果突显了现有LLM在低资源语言和文化环境下的推理能力仍然存在很大的提升空间。
🎯 应用场景
该研究成果可应用于提升LLM在低资源语言和文化环境下的推理能力,例如,可以用于开发更智能的跨文化交流工具、个性化教育系统和文化遗产保护应用。此外,该基准测试和评估方法可以推广到其他低资源语言和文化领域,为构建更具包容性和适应性的AI系统提供支持。
📄 摘要(原文)
Large Language Models (LLMs) show impressive performance on many NLP benchmarks, yet their ability to reason in figurative, culturally grounded, and low-resource settings remains underexplored. We address this gap for Bangla by introducing BanglaRiddleEval, a benchmark of 1,244 traditional Bangla riddles instantiated across four tasks (4,976 riddle-task artifacts in total). Using an LLM-based pipeline, we generate Chain-of-Thought explanations, semantically coherent distractors, and fine-grained ambiguity annotations, and evaluate a diverse suite of open-source and closed-source models under different prompting strategies. Models achieve moderate semantic overlap on generative QA but low correctness, MCQ accuracy peaks at only about 56% versus an 83% human baseline, and ambiguity resolution ranges from roughly 26% to 68%, with high-quality explanations confined to the strongest models. These results show that current LLMs capture some cues needed for Bangla riddle reasoning but remain far from human-level performance, establishing BanglaRiddleEval as a challenging new benchmark for low-resource figurative reasoning. All data, code, and evaluation scripts are available on GitHub: https://github.com/Labib1610/BanglaRiddleEval.