Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis

作者: Shimanto Bhowmik, Tawsif Tashwar Dipto, Md Sazzad Islam, Sheryl Hsu, Tahsin Reasat

分类: cs.CL, cs.LG

发布日期: 2025-07-31

🔗 代码/项目: GITHUB

💡 一句话要点

构建孟加拉语LLM基准，评估并分析现有模型的多语言能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 孟加拉语 大型语言模型 多语言处理 基准测试 错误分析

📋 核心要点

孟加拉语NLP面临挑战，缺乏标准评估基准是主要瓶颈，阻碍了模型性能的提升和有效评估。
论文通过构建孟加拉语LLM基准，系统评估现有开源LLM，并分析其在孟加拉语上的性能瓶颈。
实验结果表明，现有LLM在孟加拉语上的表现与英语存在差距，且分词效率与模型准确性呈反比关系。

📝 摘要（中文）

孟加拉语在自然语言处理研究中是一种代表性不足的语言。由于其独特的语言结构和计算约束，孟加拉语NLP仍然面临挑战。本文系统地研究了阻碍孟加拉语NLP性能的挑战，重点关注缺乏标准化评估基准的问题。随后，我们评估了10个最新的开源大型语言模型（LLM）在8个翻译数据集上的表现，并进行了全面的错误分析，以查明其主要失败模式。我们的研究结果表明，与英语相比，孟加拉语的表现始终存在差距，特别是对于较小的模型和特定的模型系列（如Mistral）。我们还发现了一些架构（如DeepSeek）具有良好的鲁棒性，可以在不同语言之间保持更稳定的性能。我们的分析揭示了分词效率和LLM准确性之间的反比关系，即当输入被过度分词时，模型往往表现更差，而更有效和简洁的分词会导致性能的提高。这些发现突出了当前模型的不足之处，并强调需要改进数据集质量和针对多语言环境量身定制的评估方法。这项工作将促进对代表性不足的语言的NLP的进一步研究，有助于在全球范围内普及先进的语言技术。本研究中使用的代码和数据集可在https://github.com/BengaliAI/bn-llm-benchmark公开获取。

🔬 方法详解

问题定义：现有的大型语言模型在孟加拉语上的表现不佳，主要原因是缺乏标准化的评估基准。这使得研究人员难以系统地评估和比较不同模型在孟加拉语上的性能，也难以确定模型在处理孟加拉语时存在的具体问题和瓶颈。现有方法缺乏针对孟加拉语的专门优化，导致模型在处理该语言时效率低下，准确率较低。

核心思路：论文的核心思路是构建一个专门针对孟加拉语的LLM评估基准，并利用该基准对现有开源LLM进行系统评估和错误分析。通过这种方式，可以更清晰地了解现有模型在孟加拉语上的性能瓶颈，并为未来的研究提供指导。论文还关注分词效率对模型性能的影响，并提出了优化分词策略以提高模型准确率的思路。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 数据集构建：收集和翻译多个数据集，构建一个包含多种任务类型的孟加拉语LLM评估基准。2) 模型评估：选择10个最新的开源LLM，并在构建的基准上进行评估。3) 错误分析：对模型的输出进行详细的错误分析，确定模型在处理孟加拉语时的主要失败模式。4) 分词效率分析：分析分词效率对模型性能的影响，并提出优化分词策略的建议。

关键创新：该论文的关键创新在于：1) 构建了一个专门针对孟加拉语的LLM评估基准，填补了该领域的空白。2) 系统地评估了现有开源LLM在孟加拉语上的性能，并进行了全面的错误分析，为未来的研究提供了重要的参考。3) 揭示了分词效率与模型准确性之间的反比关系，并提出了优化分词策略以提高模型性能的思路。

关键设计：论文的关键设计包括：1) 数据集选择：选择了涵盖多种任务类型的数据集，以全面评估模型的性能。2) 模型选择：选择了10个最新的开源LLM，以反映当前的研究进展。3) 评估指标：使用了多种评估指标，以全面评估模型的性能。4) 错误分析方法：采用了详细的错误分析方法，以确定模型在处理孟加拉语时的主要失败模式。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有LLM在孟加拉语上的表现与英语存在差距，特别是对于较小的模型和特定的模型系列（如Mistral）。DeepSeek等模型在不同语言之间表现出较好的鲁棒性。研究还发现分词效率与LLM准确性之间存在反比关系，过度分词会导致性能下降。例如，某些模型在孟加拉语上的准确率明显低于英语，这与孟加拉语的复杂形态和现有模型的训练数据有关。

🎯 应用场景

该研究成果可应用于开发更有效的孟加拉语自然语言处理系统，例如机器翻译、文本摘要、情感分析等。这有助于提升孟加拉语用户获取信息和使用语言技术的便利性，促进孟加拉语在数字世界的普及和发展。此外，该研究的方法和结论也可推广到其他代表性不足的语言，推动多语言自然语言处理的发展。

📄 摘要（原文）

Bengali is an underrepresented language in NLP research. However, it remains a challenge due to its unique linguistic structure and computational constraints. In this work, we systematically investigate the challenges that hinder Bengali NLP performance by focusing on the absence of standardized evaluation benchmarks. We then evaluated 10 recent open source Large Language Models (LLMs) in 8 of the translated datasets and performed a comprehensive error analysis to pinpoint their primary failure modes. Our findings reveal consistent performance gaps for Bengali compared to English, particularly for smaller models and specific model families like Mistral. We also identified promising robustness in certain architectures, such as DeepSeek, that maintain more stable performance across languages. Our analysis reveals an inverse relationship between tokenization efficiency and LLM accuracy where models tend to perform worse when inputs are excessively tokenized, whereas more efficient \& concise tokenization results in improved performance. These findings highlight critical areas where current models fall short and underscore the need for improved dataset quality and evaluation methodologies tailored to multilingual contexts. This work will catalyze further research on NLP for underrepresented languages, helping to democratize access to advanced language technologies worldwide. The code and dataset used in this research is publicly available at https://github.com/BengaliAI/bn-llm-benchmark.

Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理