TigerCoder: A Novel Suite of LLMs for Code Generation in Bangla
作者: Nishat Raihan, Antonios Anastasopoulos, Marcos Zampieri
分类: cs.CL
发布日期: 2025-09-11
💡 一句话要点
TigerCoder:面向孟加拉语代码生成的新型LLM套件
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码生成 大语言模型 孟加拉语 低资源语言 领域自适应
📋 核心要点
- 孟加拉语作为第五大使用语言,在代码生成LLM中代表性不足,主要原因是高质量数据的稀缺。
- TigerCoder通过构建孟加拉语代码指令数据集和评估基准,并在此基础上训练LLM,解决该问题。
- 实验表明,TigerCoder在孟加拉语代码生成任务上,相比现有模型,性能提升显著,Pass@1指标提升11-18%。
📝 摘要(中文)
本文提出TigerCoder,首个专门用于孟加拉语代码生成的大语言模型(LLM)家族(1B和9B参数)。主要贡献包括:(1) 用于编程领域自适应的综合性孟加拉语代码指令数据集;(2) 用于孟加拉语代码生成的评估基准MBPP-Bangla;(3) TigerCoder系列代码LLM,在Pass@1指标上,相比现有的多语言和通用孟加拉语LLM,性能显著提升约11-18%。研究结果表明,高质量的精选数据集可以克服小模型在低资源语言上的局限性。所有资源均已开源,以促进进一步的孟加拉语LLM研究。
🔬 方法详解
问题定义:论文旨在解决孟加拉语代码生成领域缺乏有效LLM的问题。现有方法要么是通用LLM在孟加拉语上的表现不佳,要么是多语言LLM无法充分适应孟加拉语的代码特性。缺乏高质量的孟加拉语代码数据是主要痛点。
核心思路:论文的核心思路是构建高质量的孟加拉语代码指令数据集,并在此基础上对LLM进行微调,使其能够更好地理解和生成孟加拉语代码。通过领域自适应,克服低资源语言数据稀缺的限制。
技术框架:TigerCoder的训练流程主要包括数据收集与构建、模型选择与微调、以及评估三个阶段。首先,构建包含代码和指令的孟加拉语数据集。然后,选择合适的LLM作为基础模型,并使用构建的数据集进行微调。最后,使用MBPP-Bangla基准评估模型的性能。
关键创新:论文的关键创新在于构建了高质量的孟加拉语代码指令数据集和评估基准MBPP-Bangla。这为孟加拉语代码生成LLM的研究提供了基础。此外,通过领域自适应,有效提升了模型在低资源语言上的性能。
关键设计:论文中,数据集的构建过程至关重要,需要保证数据的质量和多样性。模型微调过程中,可能需要调整学习率、batch size等超参数,以获得最佳性能。MBPP-Bangla基准的设计需要覆盖各种编程场景和难度,以全面评估模型的代码生成能力。具体参数设置和网络结构细节在论文中可能未详细公开,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TigerCoder在MBPP-Bangla基准上取得了显著的性能提升,Pass@1指标相比现有的多语言和通用孟加拉语LLM提升了约11-18%。这表明,通过高质量的数据集和领域自适应,可以有效提升LLM在低资源语言上的代码生成能力。
🎯 应用场景
TigerCoder的应用场景包括孟加拉语编程教育、自动化代码生成、代码翻译和代码辅助工具等。它可以帮助孟加拉语程序员更高效地开发软件,并促进孟加拉语在编程领域的普及。该研究的未来影响在于推动低资源语言在人工智能领域的应用。
📄 摘要(原文)
Despite being the 5th most spoken language, Bangla remains underrepresented in Large Language Models (LLMs), particularly for code generation. This primarily stems from the scarcity of high-quality data to pre-train and/or finetune such models. Hence, we introduce the first dedicated family of Code LLMs for Bangla (1B & 9B). We offer three major contributions: (1) a comprehensive Bangla code instruction datasets for programming domain adaptation; (2) MBPP-Bangla, an evaluation benchmark for Bangla code generation; and (3) the TigerCoder-family of Code LLMs, achieving significant ~11-18% performance gains at Pass@1 over existing multilingual and general-purpose Bangla LLMs. Our findings show that curated, high-quality datasets can overcome limitations of smaller models for low-resource languages. We open-source all resources to advance further Bangla LLM research.