Discovering Novel LLM Experts via Task-Capability Coevolution
作者: Andrew Dai, Boris Meinardus, Ciaran Regan, Yingtao Tian, Yujin Tang
分类: cs.AI
发布日期: 2026-04-16
备注: ICLR 2026
💡 一句话要点
提出AC/DC框架,通过任务-能力协同进化发现具备新技能且更高效的LLM。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 协同进化 模型合并 合成数据生成 开放性 能力发现 持续学习
📋 核心要点
- 现有LLM能力扩展依赖手动训练和静态数据,缺乏自主探索新技能的机制。
- AC/DC框架通过模型和任务的协同进化,在单次运行中发现具备新技能的LLM。
- 实验表明,AC/DC发现的LLM在覆盖率上超越了其他模型,且无需显式基准优化。
📝 摘要(中文)
前沿模型开发者致力于持续训练模型,使其具备涌现的、多样化的能力。为了扩展能力,当前的预训练和后训练范式每次都需要手动启动训练,并使用静态数据集或奖励函数。为了解决这个限制,本文提出开放性(通过模型和任务的协同进化)可以在单次运行中发现具有日益新颖技能的模型。本文介绍了一种新的模型开发框架,将协同进化扩展到大型语言模型(LLM)的发现,即开放式“评估与多样化能力协同进化”(AC/DC)。AC/DC通过模型合并来进化LLM,并通过合成数据生成来进化自然语言任务。AC/DC发现不断增长的LLM档案,这些LLM超越了更大LLM的能力,同时占用更少的GPU内存。特别地,我们的LLM群体在下游基准测试中实现了比其他精选模型或基线更广泛的专业知识覆盖,而没有任何显式的基准优化。此外,AC/DC随着时间的推移提高了覆盖率,不断创新任务和模型,并提高了多智能体N选优选择的性能。我们的发现突出了协同进化作为从基础LLM中发现更广泛能力集的手段的潜力。总的来说,AC/DC使我们更接近一种深刻的LLM开发新范式,在这种范式中,通过利用现有模型作为通往日益强大的模型的垫脚石,可以加速模型能力多样性的持续改进。
🔬 方法详解
问题定义:现有大型语言模型(LLM)的开发范式依赖于预训练和后训练,每次扩展模型能力都需要手动启动训练,并使用静态数据集或奖励函数。这种方式效率低下,难以发现模型的新兴能力,并且无法充分利用现有模型的知识。
核心思路:论文的核心思路是引入协同进化(Coevolution)的概念,让LLM和任务相互影响、共同进化。通过这种方式,模型可以自主探索新的能力,而任务则可以根据模型的能力进行调整,从而实现更高效、更具创新性的模型开发。
技术框架:AC/DC框架包含两个主要组成部分:LLM进化和任务进化。LLM进化通过模型合并(Model Merging)来实现,将多个LLM的参数进行组合,从而产生新的LLM。任务进化通过合成数据生成(Synthetic Data Generation)来实现,根据当前LLM的能力生成新的任务,从而推动LLM不断学习新的技能。整个框架通过迭代LLM进化和任务进化,不断发现新的LLM和任务。
关键创新:AC/DC的关键创新在于将协同进化应用于LLM的开发。与传统的静态训练方法相比,AC/DC能够自主探索新的能力,并且能够充分利用现有模型的知识。此外,AC/DC还能够生成新的任务,从而推动LLM不断学习新的技能。
关键设计:AC/DC的关键设计包括模型合并策略和合成数据生成策略。模型合并策略决定了如何将多个LLM的参数进行组合,从而产生新的LLM。合成数据生成策略决定了如何根据当前LLM的能力生成新的任务。具体的参数设置、损失函数、网络结构等技术细节在论文中没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
AC/DC框架发现的LLM在下游基准测试中实现了比其他精选模型或基线更广泛的专业知识覆盖,且无需任何显式的基准优化。此外,AC/DC随着时间的推移提高了覆盖率,不断创新任务和模型,并提高了多智能体N选优选择的性能。这些结果表明,AC/DC能够有效地发现新的LLM能力,并且能够持续改进LLM的性能。
🎯 应用场景
AC/DC框架可应用于各种需要持续学习和能力扩展的LLM应用场景,例如智能助手、对话系统、内容生成等。通过AC/DC,可以更高效地开发出具备更广泛能力、更适应特定任务需求的LLM,从而提升用户体验和应用价值。该研究为LLM的自主学习和进化提供了一种新的思路,具有重要的理论和实践意义。
📄 摘要(原文)
Frontier model developers aim to train models continually to possess emergent, diverse capabilities. To extend capabilities, the current pre-training and post-training paradigm requires manually starting training runs with static datasets or reward functions every time. Addressing this limitation, our work pursues the insight that open-endedness (via the coevolution of models and tasks) can discover models with increasingly novel skills in a single run. We introduce a new model development framework that extends coevolution to large language model (LLM) discovery, open-ended \textit{Assessment Coevolving with Diverse Capabilities} (AC/DC). AC/DC evolves both LLMs via model merging and natural language tasks via synthetic data generation. AC/DC discovers growing archives of LLMs that surpass the capabilities of larger LLMs while taking up less GPU memory. In particular, our LLM populations achieve a broader Coverage of expertise than other curated models or baselines on downstream benchmarks, without \textit{any} explicit benchmark optimization. Furthermore, AC/DC improves Coverage over time, continually innovates on tasks and models, and improves performance in multi-agent best-of-N selection. Our findings highlight the potential of coevolution as a means of discovering broader sets of capabilities from base LLMs. Overall, AC/DC brings us one step closer to a profoundly new paradigm of LLM development, where continual improvements to the diversity of model capabilities can be accelerated by leveraging existing models as stepping stones to increasingly powerful models.