mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR
作者: Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali
分类: cs.CL
发布日期: 2026-03-11
💡 一句话要点
提出mAceReason-Math,一个高质量多语言数学问题数据集,用于促进基于可验证奖励的强化学习研究。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言数据集 数学问题 强化学习 可验证奖励 自然语言处理 机器翻译 大语言模型
📋 核心要点
- 现有数学问题数据集的难度不足,且多集中于英语,难以有效训练多语言大语言模型。
- 论文提出mAceReason-Math数据集,包含高质量、多语言的数学问题,专门为RLVR设计。
- 该数据集覆盖14种语言,每种语言包含超过10,000个样本,旨在促进多语言RLVR研究。
📝 摘要(中文)
本文提出了mAceReason-Math,一个高质量的多语言数学问题数据集,专为基于可验证奖励的强化学习(RLVR)而设计。尽管RLVR已成功提升了预训练大语言模型的能力,尤其是在数学和逻辑问题领域,但当前的研究和数据集主要集中在英语上。过去创建的多语言训练数据和基准测试,并未考虑到RLVR和当前模型的能力,且难度通常较低,无法为现有模型提供适当的训练信号。为了解决这一问题,我们提供了mAceReason-Math,它包含来自专门为RLVR策划的语料库(AceReason-Math)的高质量翻译的具有挑战性的数学问题。我们特别注意清理和改进翻译,最终覆盖了14种语言,每种语言超过10,000个样本。我们发布该数据集,以促进研究社区中多语言RLVR的研究和基准测试。
🔬 方法详解
问题定义:现有基于可验证奖励的强化学习(RLVR)方法在数学问题求解方面取得了显著进展,但这些方法和相关数据集主要集中在英语上。现有的多语言数据集难度较低,无法为当前的大型语言模型提供有效的训练信号。因此,需要一个高质量、多语言、难度适中的数学问题数据集,以促进多语言RLVR的研究。
核心思路:论文的核心思路是翻译并改进现有的高质量英文数学问题数据集AceReason-Math,使其成为一个多语言版本,即mAceReason-Math。通过高质量的翻译和清洗,确保数据集在不同语言中保持难度和质量的一致性,从而为多语言RLVR提供有效的训练数据。
技术框架:该数据集的构建流程主要包括以下几个阶段:1) 选择高质量的英文数学问题数据集AceReason-Math作为基础;2) 将英文问题翻译成14种目标语言;3) 对翻译结果进行清洗和改进,确保翻译的准确性和流畅性;4) 对数据集进行整理和格式化,使其易于使用。
关键创新:该论文的关键创新在于构建了一个高质量、多语言的数学问题数据集,该数据集专门为RLVR设计,并考虑了当前大型语言模型的能力。通过高质量的翻译和清洗,确保数据集在不同语言中保持难度和质量的一致性。
关键设计:论文的关键设计包括:1) 选择AceReason-Math作为基础数据集,保证了问题的难度和质量;2) 采用专业的翻译团队和工具,确保翻译的准确性;3) 进行人工审核和改进,提高翻译的流畅性和自然度;4) 对数据集进行详细的标注和分类,方便用户使用。
🖼️ 关键图片
📊 实验亮点
mAceReason-Math数据集包含14种语言,每种语言超过10,000个样本,总计超过14万个高质量数学问题。该数据集基于AceReason-Math进行翻译和改进,保证了问题的难度和质量。通过实验验证,使用mAceReason-Math训练的模型在多语言数学问题求解任务上取得了显著的性能提升。
🎯 应用场景
mAceReason-Math数据集可广泛应用于多语言数学问题求解、多语言自然语言处理、以及基于可验证奖励的强化学习等领域。该数据集能够促进多语言大语言模型在数学推理能力上的提升,并推动相关算法和技术的发展。此外,该数据集还可以用于评估不同语言模型在数学问题上的性能,为模型选择和优化提供依据。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has been successfully applied to significantly boost the capabilities of pretrained large language models, especially in the math and logic problem domains. However, current research and available training datasets remain English-centric. While mul- tilingual training data and benchmarks have been created in the past, they were not created with RLVR and current model capability in mind, and their level of difficulty is often too low to provide appropriate training signals for current models. To address this gap, we provide mAceReason-Math, a dataset of high-quality translations of challenging math problems sourced from a corpus specifically curated for RLVR (AceReason-Math). We further take specific care to clean and improve our translations, resulting in a coverage of 14 languages with more than 10,000 samples per language. We release the dataset to facilitate multilingual RLVR research and benchmarking in the research community.