Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models

作者: Joykirat Singh, Tanmoy Chakraborty, Akshay Nambi

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-03-04

💡 一句话要点

SPHERE：一种自进化偏好优化方法，提升小语言模型数学推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学推理 小语言模型 自进化学习 偏好优化 数据生成

📋 核心要点

现有方法在解决复杂数学问题时，存在误差累积、缺乏自纠错能力以及泛化性不足等问题。
SPHERE通过迭代生成、纠正和多样化推理链，实现小语言模型数学推理能力的自进化提升。
实验表明，SPHERE训练的模型在多个数学基准测试中显著优于基线模型，甚至可媲美GPT-4o。

📝 摘要（中文）

大型语言模型（LLMs）的推理能力显著提高，但由于误差传播、缺乏自我纠正以及对不同推理风格的适应性有限，它们在复杂的多步骤数学问题解决方面仍然面临挑战。现有方法依赖于静态微调或提示工程，无法推广到不同问题复杂度，而高质量偏好数据的稀缺进一步阻碍了可靠的推理。本文提出SPHERE，一种自进化数据生成流程，通过迭代生成、纠正和多样化推理链来增强小语言模型（SLMs）的推理能力。SPHERE分三个阶段运行：（i）自我生成，模型自主构建问题解决步骤；（ii）自我纠正，使其能够识别和纠正错误；（iii）多样性诱导，通过多个有效的推理轨迹提高鲁棒性。这种自进化机制加强了数学推理并提高了模型可靠性。在MATH 500、GSM8K、AIME、AMC和Olympiad上的评估表明，经过SPHERE训练的模型比其基础版本取得了显著的提升，并在某些基准测试中与GPT-4o相匹配/超过。研究结果表明，自进化模型可以缩小SLM和最先进LLM之间的推理差距，使数学AI更可靠、可扩展和高效。

🔬 方法详解

问题定义：论文旨在解决小语言模型（SLMs）在复杂多步骤数学问题求解中表现不佳的问题。现有方法，如静态微调和提示工程，无法很好地泛化到不同难度级别的数学问题，并且缺乏高质量的偏好数据来指导模型进行可靠的推理。

核心思路：SPHERE的核心思路是让模型通过自我进化来提升推理能力。具体来说，模型通过自主生成、纠正和多样化推理链，不断学习和改进自身的推理策略，从而提高解决数学问题的准确性和鲁棒性。这种自进化机制避免了对大量人工标注数据的依赖，并允许模型根据自身的特点进行优化。

技术框架：SPHERE包含三个主要阶段：1) 自我生成：模型自主生成解决问题的步骤序列。2) 自我纠正：模型识别并纠正自身生成的推理链中的错误。3) 多样性诱导：通过生成多个有效的推理轨迹，提高模型的鲁棒性和泛化能力。这三个阶段迭代进行，使模型不断学习和改进。

关键创新：SPHERE的关键创新在于其自进化数据生成流程。与传统的依赖人工标注数据或静态微调的方法不同，SPHERE允许模型自主地生成、纠正和多样化推理链，从而实现推理能力的持续提升。这种自进化机制使得模型能够更好地适应不同的问题类型和难度级别。

关键设计：论文中没有明确给出关键参数设置、损失函数或网络结构的具体细节。但是，可以推断，在自我纠正阶段，可能使用了某种形式的奖励或惩罚机制，以鼓励模型生成正确的推理步骤并惩罚错误的步骤。多样性诱导阶段可能使用了某种采样策略，以确保生成的推理链具有足够的多样性。具体的技术细节可能需要参考论文的补充材料或代码。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过SPHERE训练的模型在MATH 500、GSM8K、AIME、AMC和Olympiad等多个数学基准测试中取得了显著的提升。在某些基准测试中，SPHERE训练的模型甚至可以与GPT-4o相媲美或超越，表明该方法能够有效缩小SLM和先进LLM之间的推理差距。

🎯 应用场景

SPHERE方法具有广泛的应用前景，可用于提升各种小语言模型在数学、科学、工程等领域的推理能力。该方法能够降低对大规模标注数据的依赖，提高模型的可扩展性和实用性，并有望推动数学AI在教育、科研等领域的应用。

📄 摘要（原文）

Large language models (LLMs) have significantly improved their reasoning capabilities; however, they still struggle with complex multi-step mathematical problem-solving due to error propagation, lack of self-correction, and limited adaptability to diverse reasoning styles. Existing methods rely on static fine-tuning or prompt engineering, which fail to generalize across problem complexities, while the scarcity of high-quality preference data further hinders reliable reasoning. We introduce SPHERE, a self-evolving data generation pipeline that enhances reasoning in small language models (SLMs) by iteratively generating, correcting, and diversifying reasoning chains. SPHERE operates in three stages: (i) Self-Generation, where the model autonomously constructs problem-solving steps; (ii) Self-Correction, enabling it to identify and rectify errors; and (iii) Diversity Induction, improving robustness through multiple valid reasoning trajectories. This self-evolution mechanism strengthens mathematical reasoning and enhances model reliability. Evaluations on MATH 500, GSM8K, AIME, AMC, and Olympiad show that SPHERE-trained models achieve significant gains over their base versions and match/surpass GPT-4o on certain benchmarks. Our findings demonstrate that self-evolving models can close the reasoning gap between SLMs and state-of-the-art LLMs, making mathematical AI more reliable, scalable, and efficient.

Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理