General-Reasoner: Advancing LLM Reasoning Across All Domains
作者: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen
分类: cs.CL
发布日期: 2025-05-20 (更新: 2025-06-09)
💡 一句话要点
提出General-Reasoner,提升LLM在多领域推理能力,解决数据稀缺和答案多样性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多领域推理 强化学习 答案验证 生成模型
📋 核心要点
- 现有LLM推理方法主要集中在数学和编码领域,缺乏在数据稀缺和答案多样化领域的泛化能力。
- General-Reasoner通过构建大规模高质量数据集和开发生成模型答案验证器,提升LLM在多领域的推理能力。
- 实验结果表明,General-Reasoner在多个基准测试中优于现有方法,实现了鲁棒且通用的推理性能。
📝 摘要(中文)
本文提出General-Reasoner,一种新颖的训练范式,旨在提升大型语言模型(LLM)在不同领域的推理能力。当前LLM推理工作主要集中在数学和编码领域,这主要是由于数据丰富和答案易于验证。然而,这限制了模型在更广泛领域的适用性和泛化性,因为这些领域的问题通常具有多样化的答案表示,并且数据更加稀缺。General-Reasoner的关键贡献包括:(1) 构建了一个大规模、高质量的问题数据集,这些问题具有可验证的答案,并通过网络爬取进行整理,涵盖了广泛的学科;(2) 开发了一个基于生成模型的答案验证器,它用具有思维链和上下文感知能力的验证器取代了传统的基于规则的验证。通过在一系列模型上进行训练,并在涵盖物理、化学、金融、电子学等广泛领域的12个基准数据集(例如MMLU-Pro、GPQA、SuperGPQA、TheoremQA、BBEH和MATH AMC)上进行评估,结果表明General-Reasoner优于现有的基线方法,实现了鲁棒和通用的推理性能,同时保持了在数学推理任务中的卓越有效性。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)推理能力主要集中在数学和编程等领域,这些领域的数据量大且答案验证相对容易。然而,在更广泛的领域,例如物理、化学、金融等,数据稀缺且答案形式多样,传统的基于规则的答案验证方法难以适用。因此,如何提升LLM在这些通用领域的推理能力是一个关键问题。
核心思路:General-Reasoner的核心思路是通过大规模高质量的数据集和更智能的答案验证方法来训练LLM,使其能够更好地理解和推理各种领域的问题。具体来说,它通过网络爬取构建了一个包含各种学科问题的数据集,并使用生成模型来构建答案验证器,使其能够进行思维链推理和上下文感知,从而更准确地判断答案的正确性。
技术框架:General-Reasoner的训练框架主要包括两个关键部分:数据构建和模型训练。数据构建阶段,通过网络爬取收集各个领域的问题和答案,并进行清洗和整理,构建大规模高质量的数据集。模型训练阶段,使用强化学习(RL)方法,以LLM作为主体,利用构建的数据集进行训练,并使用生成模型答案验证器作为奖励信号,引导LLM生成更准确的答案。
关键创新:General-Reasoner的关键创新在于两个方面:一是构建了大规模、高质量、多领域的数据集,解决了数据稀缺的问题;二是开发了基于生成模型的答案验证器,取代了传统的基于规则的验证方法,使其能够进行思维链推理和上下文感知,从而更准确地判断答案的正确性。
关键设计:在数据构建方面,论文采用了多种策略来保证数据的质量,例如使用高质量的来源、进行数据清洗和去重等。在模型训练方面,论文使用了强化学习方法,并设计了合适的奖励函数,以引导LLM生成更准确的答案。生成模型答案验证器使用了预训练的LLM,并进行了微调,使其能够更好地理解问题和答案,并进行推理和判断。
🖼️ 关键图片
📊 实验亮点
实验结果表明,General-Reasoner在12个基准数据集上优于现有的基线方法,包括MMLU-Pro、GPQA、SuperGPQA、TheoremQA、BBEH和MATH AMC等。这表明General-Reasoner具有鲁棒和通用的推理性能,并且在数学推理任务中也保持了卓越的有效性。例如,在某些基准测试中,General-Reasoner的性能提升超过了10%。
🎯 应用场景
General-Reasoner具有广泛的应用前景,可以应用于智能问答系统、教育辅导、科研辅助等领域。通过提升LLM在多领域的推理能力,可以使其更好地理解用户的问题,并提供更准确、更全面的答案,从而提高用户体验和工作效率。未来,该研究可以进一步扩展到更多领域,并与其他技术相结合,例如知识图谱、多模态学习等,以实现更强大的推理能力。
📄 摘要(原文)
Reinforcement learning (RL) has recently demonstrated strong potential in enhancing the reasoning capabilities of large language models (LLMs). Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero, enables direct RL training of base LLMs without relying on an intermediate supervised fine-tuning stage. Despite these advancements, current works for LLM reasoning mainly focus on mathematical and coding domains, largely due to data abundance and the ease of answer verification. This limits the applicability and generalization of such models to broader domains, where questions often have diverse answer representations, and data is more scarce. In this paper, we propose General-Reasoner, a novel training paradigm designed to enhance LLM reasoning capabilities across diverse domains. Our key contributions include: (1) constructing a large-scale, high-quality dataset of questions with verifiable answers curated by web crawling, covering a wide range of disciplines; and (2) developing a generative model-based answer verifier, which replaces traditional rule-based verification with the capability of chain-of-thought and context-awareness. We train a series of models and evaluate them on a wide range of datasets covering wide domains like physics, chemistry, finance, electronics etc. Our comprehensive evaluation across these 12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC) demonstrates that General-Reasoner outperforms existing baseline methods, achieving robust and generalizable reasoning performance while maintaining superior effectiveness in mathematical reasoning tasks.