Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution

📄 arXiv: 2604.07725v1 📥 PDF

作者: Monishwaran Maheswaran, Leon Lakhani, Zhongzhu Zhou, Shijia Yang, Junxiong Wang, Coleman Hooper, Yuezhou Hu, Rishabh Tiwari, Jue Wang, Harman Singh, Qingyang Wu, Yuqing Jian, Ce Zhang, Kurt Keutzer, Tri Dao, Xiaoxia Wu, Ben Athiwaratkun, James Zou, Chenfeng Xu

分类: cs.AI, cs.CL

发布日期: 2026-04-09

备注: 40 Pages, Project Page: https://squeeze-evolve.github.io/


💡 一句话要点

Squeeze Evolve:用于无验证器进化的统一多模型编排框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无验证器进化 多模型编排 模型选择 成本效益 自动化机器学习 资源优化 进化算法

📋 核心要点

  1. 现有无验证器进化方法在多样性和效率上存在瓶颈,容易陷入局部最优且计算成本高昂。
  2. Squeeze Evolve的核心思想是根据模型能力的边际效用进行分配,在关键阶段使用强模型,其他阶段使用低成本模型。
  3. 实验表明,Squeeze Evolve在多个基准测试中显著提升了成本-能力边界,降低了API成本并提高了吞吐量。

📝 摘要(中文)

本文指出,无验证器的进化方法受限于多样性和效率:在没有外部校正的情况下,重复进化会加速向狭窄模式的崩溃,而统一使用高成本模型会浪费计算资源,并在经济上变得不切实际。我们提出了Squeeze Evolve,一个用于无验证器进化推理的统一多模型编排框架。我们的方法遵循一个简单的原则:将模型能力分配到具有最高边际效用的地方。更强的模型被保留用于高影响阶段,而更便宜的模型以更低的成本处理其他阶段。这一原则在保持轻量级的同时,共同解决了多样性和成本效率问题。Squeeze Evolve自然支持开源、闭源和混合模型部署。在AIME 2025、HMMT 2025、LiveCodeBench V6、GPQA-Diamond、ARC-AGI-V2以及多模态视觉基准测试(如MMMU-Pro和BabyVision)中,Squeeze Evolve始终改进了单模型进化的成本-能力边界,并在多个任务上实现了新的最先进结果。经验表明,Squeeze Evolve将API成本降低了高达约3倍,并将固定预算服务吞吐量提高了高达约10倍。此外,在发现任务中,Squeeze Evolve是第一个能够匹配甚至超过基于验证器的进化方法性能的无验证器进化方法。

🔬 方法详解

问题定义:论文旨在解决无验证器进化方法在多样性和效率上的不足。现有方法要么容易陷入局部最优,缺乏探索能力,要么计算成本过高,难以实际应用。这些问题限制了无验证器进化方法在复杂任务中的应用。

核心思路:Squeeze Evolve的核心思路是根据不同阶段的重要性,动态地分配模型能力。它认为,并非所有阶段都需要最强大的模型,而应该将计算资源集中在对结果影响最大的阶段。通过这种方式,可以在保证性能的同时,显著降低计算成本。

技术框架:Squeeze Evolve是一个统一的多模型编排框架,其主要流程包括:1)确定进化过程中的关键阶段;2)根据阶段的重要性,选择合适的模型(可以是开源、闭源或混合模型);3)在关键阶段使用强模型,在其他阶段使用低成本模型;4)迭代进化,不断优化模型组合和参数。

关键创新:Squeeze Evolve的关键创新在于其动态模型分配策略。与以往的单一模型或固定模型组合方法不同,Squeeze Evolve能够根据任务需求和资源限制,灵活地选择和组合不同的模型,从而实现成本和性能的平衡。这是第一个在无验证器进化中匹配甚至超过有验证器进化方法性能的工作。

关键设计:Squeeze Evolve的关键设计包括:1)阶段重要性评估方法,用于确定哪些阶段对最终结果影响最大;2)模型选择策略,根据阶段重要性和模型能力,选择合适的模型;3)成本效益分析,用于评估不同模型组合的成本和性能,并选择最优方案。具体的参数设置和损失函数选择取决于具体的任务和模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Squeeze Evolve在AIME 2025、HMMT 2025、LiveCodeBench V6、GPQA-Diamond、ARC-AGI-V2以及多模态视觉基准测试(如MMMU-Pro和BabyVision)等多个任务上取得了显著成果。实验结果表明,Squeeze Evolve可以将API成本降低高达约3倍,并将固定预算服务吞吐量提高高达约10倍,并在发现任务中首次匹配甚至超过了基于验证器的进化方法性能。

🎯 应用场景

Squeeze Evolve具有广泛的应用前景,例如自动化机器学习(AutoML)、机器人控制、药物发现等领域。它可以帮助研究人员和工程师在资源有限的情况下,快速找到最优的模型组合和参数配置,从而加速科学发现和工程创新。该方法尤其适用于需要高效率和低成本的在线服务场景。

📄 摘要(原文)

We show that verifier-free evolution is bottlenecked by both diversity and efficiency: without external correction, repeated evolution accelerates collapse toward narrow modes, while the uniform use of a high-cost model wastes compute and quickly becomes economically impractical. We introduce Squeeze Evolve, a unified multi-model orchestration framework for verifier-free evolutionary inference. Our approach is guided by a simple principle: allocate model capability where it has the highest marginal utility. Stronger models are reserved for high-impact stages, while cheaper models handle the other stages at much lower costs. This principle addresses diversity and cost-efficiency jointly while remaining lightweight. Squeeze Evolve naturally supports open-source, closed-source, and mixed-model deployments. Across AIME 2025, HMMT 2025, LiveCodeBench V6, GPQA-Diamond, ARC-AGI-V2, and multimodal vision benchmarks, such as MMMU-Pro and BabyVision, Squeeze Evolve consistently improves the cost-capability frontier over single-model evolution and achieves new state-of-the-art results on several tasks. Empirically, Squeeze Evolve reduces API cost by up to $\sim$3$\times$ and increases fixed-budget serving throughput by up to $\sim$10$\times$. Moreover, on discovery tasks, Squeeze Evolve is the first verifier-free evolutionary method to match, and in some cases exceed, the performance of verifier-based evolutionary methods.