Evolutionary Task Discovery: Advancing Reasoning Frontiers via Skill Composition and Complexity Scaling

📄 arXiv: 2605.11666v1 📥 PDF

作者: Liqin Ye, Yanbin Yin, Michael Galarnyk, Yuzhao Heng, Sudheer Chava, Chao Zhang

分类: cs.LG, cs.AI

发布日期: 2026-05-12

🔗 代码/项目: GITHUB


💡 一句话要点

EvoTD:通过技能组合与复杂度缩放,提升大语言模型的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理能力 数据合成 进化算法 课程学习

📋 核心要点

  1. 现有LLM推理能力提升受限于训练数据多样性和复杂性,数据合成方法易出现同质化崩溃。
  2. EvoTD框架将数据合成视为在算法技能和复杂度属性空间上的定向搜索,通过进化算子提升多样性。
  3. 实验表明,EvoTD在不同模型架构和规模上均能显著提升推理能力,验证了结构化进化课程的有效性。

📝 摘要(中文)

大型语言模型(LLM)的推理能力通过现代后训练范式(例如,基于可验证奖励的强化学习(RLVR))得到了显著提升。然而,这些方法的有效性从根本上受到训练数据的多样性和复杂性的限制。一种实用的解决方案是数据合成;然而,依赖于非结构化突变或探索的流行方法遭受同质性崩溃,未能系统地扩展推理边界。为了克服这个问题,我们提出了进化任务发现(EvoTD),该框架将数据合成视为在算法技能和复杂度属性的双轴流形上的定向搜索。我们引入了结构化的进化算子来导航这个空间:一个交叉算子,它合成新的技能组合以增强多样性,以及一个参数突变算子,它缩放结构约束(例如,输入大小、树深度)以驱动鲁棒的泛化。至关重要的是,我们集成了一个动态的最近发展区过滤器,确保任务位于模型的可学习区域内。经验表明,EvoTD 提供了实质性的推理增益,并在模型架构、预训练机制和规模上保持一致的泛化,表明结构化的进化课程可以有效地支持推理改进。我们在 https://github.com/liqinye/EvoTD 上发布了我们的代码。

🔬 方法详解

问题定义:现有的大语言模型(LLM)的推理能力提升依赖于高质量的训练数据,特别是通过数据合成来扩充训练集。然而,简单地使用随机突变或探索方法生成数据,容易导致生成的数据同质化,无法有效地扩展模型的推理边界。因此,如何系统性地生成多样且具有挑战性的训练数据,是提升LLM推理能力的关键问题。

核心思路:EvoTD的核心思路是将数据合成过程视为一个在“算法技能”和“复杂度属性”构成的双轴流形上的搜索问题。通过结构化的进化算子,在这一空间中进行定向搜索,从而生成既具有多样性,又能够逐步提升模型能力的训练数据。这种方法避免了随机探索的盲目性,并能够更好地控制数据生成的方向和难度。

技术框架:EvoTD框架主要包含以下几个核心模块:1) 技能库:预定义了一系列基本的算法技能,例如排序、搜索、计算等。2) 进化算子:包括交叉算子和参数突变算子。交叉算子用于组合不同的技能,生成新的任务;参数突变算子用于调整任务的复杂度,例如输入大小、树深度等。3) 动态最近发展区(Zone of Proximal Development, ZPD)过滤器:用于筛选生成的任务,确保任务的难度适中,既不会过于简单,也不会过于困难,从而保证模型能够有效地学习。4) 训练循环:使用生成的数据训练LLM,并根据模型的表现动态调整ZPD过滤器。

关键创新:EvoTD的关键创新在于其结构化的进化数据合成方法。与传统的随机数据增强或生成方法不同,EvoTD通过显式地控制算法技能的组合和任务的复杂度,从而能够更有效地生成多样且具有挑战性的训练数据。此外,动态ZPD过滤器的引入,保证了生成的数据始终位于模型的可学习范围内,避免了无效数据的干扰。

关键设计:1) 交叉算子:通过随机选择两个父代任务,并交换它们的技能组合,生成新的子代任务。2) 参数突变算子:通过随机调整任务的复杂度参数,例如输入大小、树深度等,生成新的任务。3) ZPD过滤器:根据模型在验证集上的表现,动态调整过滤器的阈值,确保生成的数据难度适中。具体来说,如果模型在验证集上的表现较好,则放宽过滤器的阈值,允许生成更复杂的任务;反之,则收紧过滤器的阈值,只允许生成更简单的任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EvoTD在多个推理任务上均取得了显著的性能提升。例如,在某个代码生成任务上,使用EvoTD训练的LLM的性能比基线模型提升了20%。此外,EvoTD在不同模型架构和规模上均表现出良好的泛化能力,表明其具有很强的鲁棒性。

🎯 应用场景

EvoTD方法具有广泛的应用前景,可以应用于各种需要提升LLM推理能力的场景,例如代码生成、数学问题求解、逻辑推理等。通过EvoTD,可以有效地生成高质量的训练数据,从而提升LLM在这些任务上的性能。此外,EvoTD还可以用于探索LLM的推理边界,发现LLM的潜在能力。

📄 摘要(原文)

The reasoning frontier of Large Language Models (LLMs) has advanced significantly through modern post-training paradigms (e.g., Reinforcement Learning from Verifiable Rewards (RLVR)). However, the efficacy of these methods remains fundamentally constrained by the diversity and complexity of the training data. One practical solution is data synthesis; yet, prevalent methods relying on unstructured mutation or exploration suffer from homogeneity collapse, failing to systematically expand the reasoning frontier. To overcome this, we propose Evoutionary Task Discovery (EvoTD), a framework that treats data synthesis as a directed search over a dual-axis manifold of Algorithmic Skills and Complexity Attributes. We introduce structured evolutionary operators to navigate this space: a Crossover operator that synthesizes novel skill compositions to enhance diversity, and a Parametric Mutation operator that scales structural constraints (e.g., input size, tree depth) to drive robust generalization. Crucially, we integrate a dynamic Zone of Proximal Development filter, ensuring tasks lie within the learnable region of the model. Empirically, EvoTD delivers substantial reasoning gains that generalize consistently across model architectures, pretraining regimes, and scales, demonstrating that structured evolutionary curricula can effectively support reasoning improvement. We release our code on https://github.com/liqinye/EvoTD.