Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

作者: Taebong Kim, Youngsik Hong, Minsik Kim, Sunyoung Choi, Jaewon Jang, Junghoon Shin, Minseo Kim

分类: cs.NE, cs.AI

发布日期: 2026-05-14

备注: NeurIPS 2026 submission. 18 pages including appendix

💡 一句话要点

提出Darwin Family，通过无训练的演化合并提升语言模型推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 推理能力 演化算法 模型合并 免训练

📋 核心要点

现有大型语言模型推理能力提升依赖昂贵的训练或微调，缺乏效率和灵活性。
Darwin Family通过演化合并，在无需额外训练的情况下，重组现有模型权重，提升推理性能。
实验表明，Darwin模型在GPQA Diamond等基准测试中超越其父模型，验证了该方法的有效性。

📝 摘要（中文）

本文提出了Darwin Family，一个通过免训练的演化合并大型语言模型框架，该框架利用无梯度的权重空间重组。我们探究了是否可以通过重组现有检查点中已编码的潜在能力，在无需额外训练的情况下提高前沿水平的推理性能。Darwin引入了三个关键思想：（i）一个14维的自适应合并基因组，支持细粒度的组件和块级重组；（ii）MRI-Trust Fusion，通过可学习的信任参数自适应地平衡诊断层重要性信号与演化搜索；（iii）一个架构映射器，支持异构模型家族之间的跨架构繁殖。实验表明，旗舰模型Darwin-27B-Opus在GPQA Diamond上取得了86.9%的成绩，在1252个评估模型中排名第6，并且在没有任何基于梯度的训练下，优于其完全训练的基础模型。在4B到35B参数的范围内，Darwin模型始终优于其父模型，支持递归多代演化，并支持结合基于Transformer和Mamba的组件的免训练演化合并。总而言之，Darwin Family证明了诊断引导的演化合并是面向推理的语言模型的一种实用且可复现的替代方案，可以替代代价高昂的后训练流程。

🔬 方法详解

问题定义：现有大型语言模型（LLM）的推理能力提升通常需要大量的训练数据和计算资源，例如微调或后训练。这些方法成本高昂，且难以灵活地组合不同架构或能力的模型。因此，如何在不进行额外训练的情况下，有效提升LLM的推理能力是一个重要的挑战。

核心思路：Darwin Family的核心思路是通过演化算法在模型的权重空间中进行搜索，找到一个更优的权重组合，从而提升模型的推理能力。这种方法类似于生物进化中的基因重组，通过将不同模型的“基因”（权重）进行混合和变异，产生新的、更强大的模型。关键在于如何有效地指导这个搜索过程，使其能够找到有意义的权重组合。

技术框架：Darwin Family的整体框架包括以下几个主要模块：1) 自适应合并基因组：定义了模型权重的重组方式，允许在组件和块级别进行细粒度的调整。2) MRI-Trust Fusion：利用模型的诊断信息（MRI）来指导演化搜索，并引入一个可学习的信任参数来平衡诊断信息和演化搜索。3) 架构映射器：允许不同架构的模型之间进行“繁殖”，例如Transformer和Mamba。整个流程首先对现有模型进行诊断分析，然后利用演化算法搜索最优的权重组合，最终生成新的、推理能力更强的模型。

关键创新：Darwin Family的关键创新在于：1) 免训练演化合并：无需额外的训练数据和计算资源，即可提升模型性能。2) MRI-Trust Fusion：将模型的诊断信息融入到演化搜索中，提高了搜索效率和效果。3) 跨架构繁殖：允许不同架构的模型进行组合，扩展了模型设计的可能性。

关键设计：1) 14维自适应合并基因组：允许对模型的不同组件和块进行精细的权重调整。2) MRI-Trust Fusion中的可学习信任参数：自适应地平衡诊断信息和演化搜索，避免过度依赖诊断信息。3) 架构映射器：通过定义不同架构之间的权重映射关系，实现跨架构模型的组合。

🖼️ 关键图片

📊 实验亮点

Darwin-27B-Opus在GPQA Diamond数据集上取得了86.9%的准确率，在1252个评估模型中排名第6，超过了其完全训练的基础模型。此外，在4B到35B参数规模的模型上，Darwin模型均优于其父模型，证明了该方法在不同规模模型上的有效性。该方法还支持递归多代演化，进一步提升模型性能。

🎯 应用场景

Darwin Family可应用于各种需要强大推理能力的场景，例如问答系统、代码生成、科学研究等。它降低了模型优化的成本，使得研究人员可以更高效地探索新的模型架构和组合方式。该方法还有助于构建更加个性化和适应性强的语言模型，满足不同用户的特定需求。

📄 摘要（原文）

We present Darwin Family, a framework for training-free evolutionary merging of large language models via gradient-free weight-space recombination. We ask whether frontier-level reasoning performance can be improved without additional training, by reorganizing latent capabilities already encoded in existing checkpoints. Darwin introduces three key ideas: (i) a 14-dimensional adaptive merge genome enabling fine-grained component- and block-level recombination; (ii) MRI-Trust Fusion, which adaptively balances diagnostic layer-importance signals with evolutionary search through a learnable trust parameter; and (iii) an Architecture Mapper that enables cross-architecture breeding between heterogeneous model families. Empirically, the flagship Darwin-27B-Opus achieves 86.9% on GPQA Diamond, ranking #6 among 1,252 evaluated models, and outperforming its fully trained foundation model without any gradient-based training. Across scales from 4B to 35B parameters, Darwin models consistently improve over their parents, support recursive multi-generation evolution, and enable a training-free evolutionary merge that combines Transformer- and Mamba-based components. Together, the Darwin Family demonstrates that diagnostic-guided evolutionary merging is a practical and reproducible alternative to costly post-training pipelines for reasoning-centric language models.

Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理