CoTEvol: Self-Evolving Chain-of-Thoughts for Data Synthesis in Mathematical Reasoning

作者: Zhuo Wang, Zhuo Zhang, Yafu Li, Yu Cheng, Lizhen Qu, Zenglin Xu

分类: cs.AI

发布日期: 2026-04-16

备注: acl2026 findings

💡 一句话要点

提出CoTEvol，通过自进化思维链进行数学推理数据合成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链 数据合成 数学推理 遗传算法 大型语言模型 自进化 知识蒸馏

📋 核心要点

现有CoT数据标注成本高昂，而知识蒸馏和自合成方法存在收益递减或计算开销大的问题。
CoTEvol采用遗传进化框架，通过种群搜索推理轨迹，实现CoT的自动生成和优化。
实验表明，CoTEvol显著提高了CoT合成的成功率和多样性，并提升了LLM在数学推理任务上的性能。

📝 摘要（中文）

大型语言模型(LLMs)在高质量的思维链(CoT)上训练时表现出强大的数学推理能力，但代价高昂的CoT管理阻碍了进一步的进展。现有的补救措施，如从更强大的LLM中进行知识蒸馏和基于测试时搜索的自合成，通常会遇到收益递减或计算开销过高的问题。本文提出了CoTEvol，一个遗传进化框架，将CoT生成视为推理轨迹上基于种群的搜索。候选轨迹通过轨迹级别的反射全局交叉和步骤级别的不确定性引导的局部变异进行迭代进化，从而实现整体重组和细粒度细化。轻量级的、任务感知的适应度函数旨在引导进化过程朝着准确和多样化的推理方向发展。实验表明，CoTEvol将正确的CoT合成成功率提高了30%以上，并增强了结构多样性，同时显著提高了效率。在这些进化CoT数据上训练的LLM在八个数学基准测试中平均提高了6.6%，优于之前的蒸馏和自合成方法。这些结果强调了进化CoT合成作为一种可扩展且有效的数学推理任务方法的潜力。

🔬 方法详解

问题定义：论文旨在解决数学推理中高质量思维链（CoT）数据稀缺的问题。现有方法，如人工标注、知识蒸馏和自合成，存在成本高、效率低或效果不佳的痛点，难以满足训练高性能LLM的需求。

核心思路：论文的核心思路是将CoT生成过程视为一个进化搜索问题，通过模拟生物进化中的选择、交叉和变异等操作，自动生成和优化CoT数据。这种方法旨在克服传统方法的局限性，提高CoT数据的质量和多样性。

技术框架：CoTEvol框架包含以下主要模块：1) 初始化：随机生成一组CoT轨迹作为初始种群；2) 评估：使用任务感知的适应度函数评估每个CoT轨迹的质量；3) 选择：根据适应度选择优秀的CoT轨迹；4) 交叉：通过全局交叉操作，将不同CoT轨迹的片段进行重组；5) 变异：通过局部变异操作，对CoT轨迹的单个步骤进行优化；6) 迭代：重复执行选择、交叉和变异操作，直到满足停止条件。

关键创新：CoTEvol的关键创新在于将遗传算法应用于CoT生成，通过全局交叉和局部变异相结合的方式，实现CoT数据的整体重组和细粒度优化。与现有方法相比，CoTEvol能够更有效地探索CoT空间，生成更准确、更具多样性的CoT数据。

关键设计：CoTEvol的关键设计包括：1) 任务感知的适应度函数，用于评估CoT轨迹的质量；2) 反射全局交叉操作，用于重组不同CoT轨迹的片段；3) 基于不确定性引导的局部变异操作，用于优化CoT轨迹的单个步骤。此外，论文还对遗传算法的参数进行了精细调整，以提高CoTEvol的性能。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，CoTEvol将正确的CoT合成成功率提高了30%以上，并增强了结构多样性。在八个数学基准测试中，使用CoTEvol生成的CoT数据训练的LLM平均提高了6.6%，优于之前的蒸馏和自合成方法。这些结果充分证明了CoTEvol在CoT生成和数学推理方面的有效性。

🎯 应用场景

CoTEvol可应用于各种需要数学推理能力的场景，例如自动解题、智能辅导系统、科学研究等。通过自动生成高质量的CoT数据，可以显著提升LLM在这些场景中的性能，并降低人工标注的成本。该研究为LLM在数学推理领域的应用开辟了新的途径。

📄 摘要（原文）

Large Language Models (LLMs) exhibit strong mathematical reasoning when trained on high-quality Chain-of-Thought (CoT) that articulates intermediate steps, yet costly CoT curation hinders further progress. While existing remedies such as distillation from stronger LLMs and self-synthesis based on test-time search alleviate this issue, they often suffer from diminishing returns or high computing overhead.In this work, we propose CoTEvol, a genetic evolutionary framework that casts CoT generation as a population-based search over reasoning trajectories.Candidate trajectories are iteratively evolved through reflective global crossover at the trajectory level and local mutation guided by uncertainty at the step level, enabling holistic recombination and fine-grained refinement. Lightweight, task-aware fitness functions are designed to guide the evolutionary process toward accurate and diverse reasoning. Empirically, CoTEvol improves correct-CoT synthesis success by over 30% and enhances structural diversity, with markedly improved efficiency. LLMs trained on these evolutionary CoT data achieve an average gain of 6.6% across eight math benchmarks, outperforming previous distillation and self-synthesis approaches. These results underscore the promise of evolutionary CoT synthesis as a scalable and effective method for mathematical reasoning tasks.