Evaluating OpenAI GPT Models for Translation of Endangered Uralic Languages: A Comparison of Reasoning and Non-Reasoning Architectures
作者: Yehor Tereshchenko, Mika Hämäläinen, Svitlana Myroniuk
分类: cs.CL
发布日期: 2025-12-18
备注: IWCLUL 2025
💡 一句话要点
评估OpenAI GPT模型在濒危乌拉尔语翻译中的性能,对比推理与非推理架构。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器翻译 低资源语言 乌拉尔语 大型语言模型 GPT模型 推理模型 濒危语言 拒绝率
📋 核心要点
- 现有大型语言模型翻译评估主要集中在高资源语言,忽略了低资源和濒危语言的性能。
- 本研究对比OpenAI的GPT模型,考察推理和非推理架构在乌拉尔语翻译中的差异。
- 实验结果表明,推理模型在低资源乌拉尔语翻译中表现更佳,拒绝率显著降低。
📝 摘要(中文)
本研究旨在评估大型语言模型(LLMs)在翻译任务中的性能,特别关注低资源和濒危语言,弥补现有研究主要集中于高资源语言的不足。本文对比了OpenAI的GPT模型,着重考察了推理和非推理架构在芬兰语与四种低资源乌拉尔语(科米-兹梁语、莫克沙语、埃尔兹亚语和乌德穆尔特语)之间翻译的差异。通过使用文学文本的平行语料库,我们评估了模型尝试翻译的意愿,并通过拒绝率分析比较了不同模型架构。研究结果表明,推理模型和非推理模型之间存在显著的性能差异,推理模型的拒绝率降低了16个百分点。这些发现为研究乌拉尔语的研究人员和从业者提供了有价值的见解,并有助于更广泛地理解推理模型在濒危语言保护方面的能力。
🔬 方法详解
问题定义:论文旨在解决低资源和濒危乌拉尔语的机器翻译问题。现有方法在这些语言上的表现不佳,缺乏针对性的评估和优化。现有的大型语言模型主要针对高资源语言进行训练和评估,直接应用于低资源语言时,翻译质量往往难以保证,且模型拒绝翻译的情况较为常见。
核心思路:论文的核心思路是对比分析OpenAI的GPT模型(包括推理和非推理架构)在乌拉尔语翻译任务中的表现,通过量化模型拒绝翻译的比例(拒绝率)来评估其翻译意愿和能力。通过平行语料库进行评估,从而揭示不同架构对低资源语言翻译的适应性。
技术框架:研究采用平行语料库,包含芬兰语和四种低资源乌拉尔语(科米-兹梁语、莫克沙语、埃尔兹亚语和乌德穆尔特语)的文学文本。研究流程包括:1) 选择OpenAI的GPT模型(推理和非推理架构);2) 使用平行语料库进行翻译实验;3) 分析模型的拒绝率,即模型拒绝进行翻译的比例;4) 对比不同模型架构的性能差异。
关键创新:论文的关键创新在于针对低资源乌拉尔语,系统性地评估了大型语言模型在翻译任务中的性能,并着重比较了推理和非推理架构的差异。通过拒绝率分析,提供了一种新的评估视角,可以更全面地了解模型在处理低资源语言时的能力和局限性。
关键设计:研究的关键设计包括:1) 选择具有代表性的低资源乌拉尔语;2) 构建高质量的平行语料库;3) 采用拒绝率作为评估指标,量化模型翻译意愿;4) 对比不同GPT模型的架构(推理 vs. 非推理)在翻译性能上的差异。具体参数设置和损失函数等细节可能取决于所使用的OpenAI GPT模型的具体版本和配置,论文中可能未详细公开。
📊 实验亮点
实验结果表明,推理模型在低资源乌拉尔语翻译中表现优于非推理模型,拒绝率降低了16个百分点。这一发现突显了推理能力在处理低资源语言翻译任务中的重要性,为未来模型设计和优化提供了方向。
🎯 应用场景
该研究成果可应用于濒危语言的保护和传承,例如辅助语言学习、文化交流和文献翻译。通过优化大型语言模型在低资源语言上的翻译性能,可以促进这些语言的数字化和可持续发展,并为相关领域的研究人员和从业者提供有价值的参考。
📄 摘要(原文)
The evaluation of Large Language Models (LLMs) for translation tasks has primarily focused on high-resource languages, leaving a significant gap in understanding their performance on low-resource and endangered languages. This study presents a comprehensive comparison of OpenAI's GPT models, specifically examining the differences between reasoning and non-reasoning architectures for translating between Finnish and four low-resource Uralic languages: Komi-Zyrian, Moksha, Erzya, and Udmurt. Using a parallel corpus of literary texts, we evaluate model willingness to attempt translation through refusal rate analysis across different model architectures. Our findings reveal significant performance variations between reasoning and non-reasoning models, with reasoning models showing 16 percentage points lower refusal rates. The results provide valuable insights for researchers and practitioners working with Uralic languages and contribute to the broader understanding of reasoning model capabilities for endangered language preservation.