UA-Code-Bench: A Competitive Programming Benchmark for Evaluating LLM Code Generation in Ukrainian
作者: Mykyta Syromiatnikov, Victoria Ruvinskaya
分类: cs.CL, cs.AI, cs.SE
发布日期: 2025-11-07
备注: 8 pages, 5 figures. XI International conference "Informatics. Culture. Technique." (2025)
期刊: XI International conference "Informatics. Culture. Technique." (2025) 308-314
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出UA-Code-Bench乌克兰语代码生成评测基准,评估LLM在低资源语言下的编程能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码生成 大型语言模型 低资源语言 乌克兰语 评测基准 竞争性编程 自然语言处理
📋 核心要点
- 现有基准测试大多关注从英语翻译的任务,或仅评估简单的语言理解,难以评估LLM在低资源语言中的代码生成能力。
- UA-Code-Bench基准测试包含500个乌克兰语编程题目,覆盖不同难度等级,旨在全面评估LLM的代码生成和问题解决能力。
- 实验结果表明,即使是顶尖模型在乌克兰语编程任务上也面临挑战,突显了低资源语言代码生成的难度。
📝 摘要(中文)
本文介绍了一个新的开源基准测试UA-Code-Bench,旨在全面评估语言模型在乌克兰语环境下的代码生成和竞争性编程问题解决能力。该基准包含来自Eolymp平台的500个问题,均匀分布在从非常容易到非常困难的五个复杂度级别。研究评估了13个领先的专有和开源模型,使用一次性提示生成Python解决方案,并通过专门的Eolymp环境针对隐藏测试进行评估,以确保代码的正确性。结果表明,即使是OpenAI o3和GPT-5等表现最佳的模型也仅解决了大约一半的问题,突显了在低资源自然语言中进行代码生成的挑战。此外,本研究还全面分析了不同难度级别的性能,并评估了解决方案的唯一性和计算效率,通过已用时间和生成的解决方案的内存消耗来衡量。总之,这项工作证明了竞争性编程基准在评估大型语言模型方面的价值,尤其是在代表性不足的语言中。它也为未来关于多语言代码生成和推理增强模型的研究铺平了道路。基准、数据解析、准备、代码生成和评估脚本可在https://huggingface.co/datasets/NLPForUA/ua-code-bench获得。
🔬 方法详解
问题定义:论文旨在解决低资源语言(乌克兰语)环境下,现有代码生成评测基准不足的问题。现有基准要么是英文翻译而来,要么过于简单,无法充分评估LLM在复杂编程任务中的能力。因此,需要一个专门针对乌克兰语的、具有挑战性的代码生成评测基准。
核心思路:论文的核心思路是构建一个基于竞争性编程题目的评测基准,利用这些题目对LLM的代码生成能力进行全面评估。竞争性编程题目通常具有明确的输入输出要求和较高的难度,能够有效区分不同模型的性能。
技术框架:UA-Code-Bench基准测试包含以下几个主要组成部分:1)题目收集:从Eolymp平台收集500个乌克兰语编程题目,覆盖五个难度等级。2)数据准备:对题目进行清洗和格式化,使其适用于LLM的输入。3)代码生成:使用LLM生成Python代码解决方案,采用one-shot prompt方式。4)代码评估:使用Eolymp环境对生成的代码进行测试,评估其正确性、运行时间和内存消耗。
关键创新:该论文的关键创新在于构建了一个专门针对乌克兰语的、基于竞争性编程题目的代码生成评测基准。这使得研究人员能够更准确地评估LLM在低资源语言环境下的代码生成能力,并推动相关研究的发展。与现有基准相比,UA-Code-Bench更具挑战性,能够更好地反映LLM的真实水平。
关键设计:论文的关键设计包括:1)题目选择:选择来自Eolymp平台的题目,保证了题目的质量和难度。2)难度分级:将题目分为五个难度等级,方便研究人员评估LLM在不同难度下的表现。3)评估指标:采用代码正确性、运行时间和内存消耗等多个指标,全面评估LLM的性能。4)Prompt设计:采用one-shot prompt,减少了对prompt工程的依赖。
📊 实验亮点
实验结果显示,即使是OpenAI o3和GPT-5等顶尖模型,在UA-Code-Bench基准测试上也仅能解决约50%的问题,表明乌克兰语代码生成仍然是一个具有挑战性的任务。该研究还分析了模型在不同难度级别上的表现,以及生成代码的唯一性和计算效率,为后续研究提供了有价值的参考。
🎯 应用场景
该研究成果可应用于评估和提升LLM在低资源语言环境下的代码生成能力,促进多语言代码生成技术的发展。此外,该基准测试可用于训练和优化LLM,使其更好地理解和生成乌克兰语代码,从而推动乌克兰语软件开发和人工智能应用的发展。
📄 摘要(原文)
Evaluating the real capabilities of large language models in low-resource languages still represents a challenge, as many existing benchmarks focus on widespread tasks translated from English or evaluate only simple language understanding. This paper introduces UA-Code-Bench, a new open-source benchmark established for a thorough evaluation of language models' code generation and competitive programming problem-solving abilities in Ukrainian. The benchmark comprises 500 problems from the Eolymp platform, evenly distributed across five complexity levels from very easy to very hard. A diverse set of 13 leading proprietary and open-source models, generating Python solutions based on a one-shot prompt, was evaluated via the dedicated Eolymp environment against hidden tests, ensuring code correctness. The obtained results reveal that even top-performing models, such as OpenAI o3 and GPT-5, solve only half of the problems, highlighting the challenge of code generation in low-resource natural language. Furthermore, this research presents a comprehensive analysis of performance across various difficulty levels, as well as an assessment of solution uniqueness and computational efficiency, measured by both elapsed time and memory consumption of the generated solutions. In conclusion, this work demonstrates the value of competitive programming benchmarks in evaluating large language models, especially in underrepresented languages. It also paves the way for future research on multilingual code generation and reasoning-enhanced models. The benchmark, data parsing, preparation, code generation, and evaluation scripts are available at https://huggingface.co/datasets/NLPForUA/ua-code-bench.