EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

📄 arXiv: 2510.17928v1 📥 PDF

作者: He Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao

分类: cs.LG, cs.AI, cs.NE

发布日期: 2025-10-20


💡 一句话要点

EvoSyn:面向可验证学习的通用进化数据合成框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据合成 可验证学习 进化算法 强化学习 模型蒸馏 通用性 一致性评估

📋 核心要点

  1. 现有合成数据方法易产生幻觉,验证手段不足,且依赖特定任务的启发式规则,缺乏通用性。
  2. EvoSyn通过进化策略,联合生成问题、解和验证工件,并利用一致性评估器迭代优化策略,实现通用数据合成。
  3. 实验表明,使用EvoSyn合成的数据进行训练,在LiveCodeBench和AgentBench-OS任务上取得了显著的性能提升。

📝 摘要(中文)

可靠的可验证数据已成为现代语言模型能力提升的关键驱动力,它支持稳定的可验证奖励强化学习,以及跨数学、编码和智能体任务的能力迁移的有效蒸馏。然而,构建通用的合成可验证数据仍然很困难,因为生成过程容易产生幻觉,并且验证工件较弱或过于简单,无法区分强解和弱解。现有方法通常依赖于特定于任务的启发式方法或事后过滤器,这些方法无法跨领域迁移,并且缺乏对可验证性的有原则的、通用的评估器。本文介绍了一种进化的、任务无关的、策略引导的、可执行检查的数据合成框架,该框架从最少的种子监督中,联合合成问题、多样化的候选解决方案和验证工件,并通过基于一致性的评估器迭代地发现策略,该评估器强制执行人工标注和策略诱导的检查之间的一致性。该流程将过滤升级为有原则的合成:它可靠地组装连贯的、可验证的训练实例,并在没有特定领域规则的情况下进行泛化。实验表明,所提出的方法在RLVR和模型蒸馏训练范式下均有效。结果表明,使用我们合成的数据进行训练可以在LiveCodeBench和AgentBench-OS任务上产生显着改进,突出了我们框架的强大泛化能力。

🔬 方法详解

问题定义:现有方法在生成可验证的合成数据时面临挑战,主要体现在三个方面:一是生成过程容易产生幻觉,导致数据质量不高;二是验证方法过于简单,无法有效区分高质量和低质量的解决方案;三是依赖于特定任务的启发式规则,缺乏跨领域的通用性。这些问题限制了合成数据在强化学习和模型蒸馏等领域的应用。

核心思路:EvoSyn的核心思路是通过进化算法,迭代地生成问题、候选解和验证工件,并利用一个基于一致性的评估器来评估生成数据的质量。该评估器通过比较人工标注和策略诱导的检查结果,来判断生成的数据是否具有可验证性。通过这种方式,EvoSyn可以将过滤过程升级为有原则的合成,从而生成高质量、可验证且通用的合成数据。

技术框架:EvoSyn框架包含以下几个主要模块:1) 问题生成器:负责生成新的问题实例;2) 解生成器:负责为每个问题生成多个候选解;3) 验证工件生成器:负责生成用于验证候选解正确性的工件;4) 一致性评估器:负责评估生成数据的质量,并根据评估结果调整生成策略;5) 进化算法:负责迭代地优化生成策略,以生成更高质量的合成数据。

关键创新:EvoSyn的关键创新在于其进化的、任务无关的、策略引导的数据合成方法。与现有方法相比,EvoSyn不需要依赖于特定任务的启发式规则,而是通过进化算法自动地学习生成高质量数据的策略。此外,EvoSyn还引入了一个基于一致性的评估器,可以有效地评估生成数据的可验证性。

关键设计:EvoSyn的关键设计包括:1) 使用进化算法来优化生成策略;2) 设计了一个基于一致性的评估器,用于评估生成数据的可验证性;3) 采用模块化的设计,使得各个模块可以独立地进行改进和替换。具体的参数设置、损失函数和网络结构等技术细节在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用EvoSyn合成的数据进行训练,在LiveCodeBench和AgentBench-OS任务上取得了显著的性能提升。具体来说,与使用人工标注数据训练的模型相比,使用EvoSyn合成数据训练的模型在LiveCodeBench上的性能提升了X%,在AgentBench-OS上的性能提升了Y%。(具体提升百分比未知,论文中未给出明确数据)

🎯 应用场景

EvoSyn可应用于各种需要可验证数据的机器学习任务,例如强化学习、模型蒸馏和安全关键系统。通过生成高质量的合成数据,EvoSyn可以提高模型的性能、鲁棒性和可信度,并降低数据标注的成本。该研究的潜在应用领域包括自动驾驶、金融风控和医疗诊断等。

📄 摘要(原文)

Reliable verifiable data has become a key driver of capability gains in modern language models, enabling stable reinforcement learning with verifiable rewards and effective distillation that transfers competence across math, coding, and agentic tasks. Yet constructing generalizable synthetic verifiable data remains difficult due to hallucination-prone generation, and weak or trivial verification artifacts that fail to separate strong from weak solutions. Existing approaches often rely on task-specific heuristics or post-hoc filters that do not transfer across domains and lack a principled, universal evaluator of verifiability. In this work, we introduce an evolutionary, task-agnostic, strategy-guided, executably-checkable data synthesis framework that, from minimal seed supervision, jointly synthesizes problems, diverse candidate solutions, and verification artifacts, and iteratively discovers strategies via a consistency-based evaluator that enforces agreement between human-annotated and strategy-induced checks. This pipeline upgrades filtering into principled synthesis: it reliably assembles coherent, verifiable training instances and generalizes without domain-specific rules. Our experiments demonstrate the effectiveness of the proposed approach under both RLVR and model distillation training paradigms. The results show that training with our synthesized data yields significant improvements on both the LiveCodeBench and AgentBench-OS tasks, highlighting the robust generalization of our framework.