Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution

作者: Monishwaran Maheswaran, Leon Lakhani, Zhongzhu Zhou, Shijia Yang, Junxiong Wang, Coleman Hooper, Yuezhou Hu, Rishabh Tiwari, Jue Wang, Harman Singh, Qingyang Wu, Yuqing Jian, Ce Zhang, Kurt Keutzer, Tri Dao, Xiaoxia Wu, Ben Athiwaratkun, James Zou, Chenfeng Xu

分类: cs.AI, cs.CL

发布日期: 2026-04-09 (更新: 2026-04-10)

备注: 40 Pages, Project Page: https://squeeze-evolve.github.io/

💡 一句话要点

Squeeze Evolve：用于无验证器进化的统一多模型编排框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 进化推理 多模型编排 无验证器进化 成本效率 模型选择

📋 核心要点

现有无验证器进化方法在多样性和效率上存在瓶颈，易陷入局部最优且计算成本高昂。
Squeeze Evolve的核心思想是根据模型能力的边际效用进行分配，在关键阶段使用强模型，其余阶段使用廉价模型。
实验表明，Squeeze Evolve在多个基准测试中显著提升了成本-能力边界，降低API成本并提高吞吐量。

📝 摘要（中文）

本文指出，无验证器的进化方法受限于多样性和效率：在没有外部校正的情况下，重复进化会加速向狭窄模式的崩溃，而统一使用高成本模型会浪费计算资源，并在经济上变得不切实际。我们提出了Squeeze Evolve，一个用于无验证器进化推理的统一多模型编排框架。我们的方法遵循一个简单的原则：将模型能力分配到具有最高边际效用的阶段。更强的模型被保留用于高影响阶段，而更便宜的模型以更低的成本处理其他阶段。这一原则在保持轻量级的同时，共同解决了多样性和成本效率问题。Squeeze Evolve自然支持开源、闭源和混合模型部署。在AIME 2025、HMMT 2025、LiveCodeBench V6、GPQA-Diamond、ARC-AGI-V2以及多模态视觉基准测试（如MMMU-Pro和BabyVision）中，Squeeze Evolve始终改进了单模型进化的成本-能力边界，并在多个任务上实现了新的最先进结果。经验表明，Squeeze Evolve将API成本降低了高达约3倍，并将固定预算服务吞吐量提高了高达约10倍。此外，在发现任务中，Squeeze Evolve是第一个在某些情况下匹配甚至超过基于验证器的进化方法性能的无验证器进化方法。

🔬 方法详解

问题定义：论文旨在解决无验证器进化方法中存在的两个主要问题：一是缺乏多样性，导致进化过程容易陷入局部最优，无法探索更广阔的解空间；二是效率低下，统一使用高成本模型导致计算资源浪费，经济效益差。现有方法难以在多样性和成本效率之间取得平衡。

核心思路：Squeeze Evolve的核心思路是根据不同进化阶段对模型能力的需求，动态地分配不同复杂度的模型。具体而言，在对结果影响较大的关键阶段，使用更强大的模型以保证性能；而在其他阶段，则使用成本较低的模型以降低整体计算开销。这种差异化分配策略旨在最大化模型能力的边际效用，从而在保证性能的同时提高效率。

技术框架：Squeeze Evolve是一个统一的多模型编排框架，其整体流程包括以下几个阶段：首先，根据任务特点和资源约束，选择合适的模型集合，包括开源、闭源以及混合模型。然后，根据进化过程中的不同阶段，动态地分配模型。在关键阶段，使用更强大的模型进行推理；在其他阶段，使用更便宜的模型进行推理。最后，通过实验评估不同模型组合的性能和成本，并根据结果调整模型分配策略。

关键创新：Squeeze Evolve最重要的技术创新点在于其动态模型分配策略，它能够根据进化过程中的不同阶段，自适应地选择合适的模型。与现有方法相比，Squeeze Evolve不再是简单地统一使用某个模型，而是根据模型能力的边际效用进行分配，从而在保证性能的同时显著降低计算成本。

关键设计：Squeeze Evolve的关键设计包括：1) 模型选择策略：根据任务特点和资源约束，选择合适的模型集合。2) 模型分配策略：根据进化过程中的不同阶段，动态地分配模型。3) 性能评估指标：用于评估不同模型组合的性能和成本，并根据结果调整模型分配策略。具体的参数设置、损失函数和网络结构取决于所使用的具体模型。

🖼️ 关键图片

📊 实验亮点

Squeeze Evolve在AIME 2025、HMMT 2025、LiveCodeBench V6、GPQA-Diamond、ARC-AGI-V2以及多模态视觉基准测试中均取得了显著的性能提升。实验结果表明，Squeeze Evolve可以将API成本降低高达3倍，并将固定预算服务吞吐量提高高达10倍。此外，在发现任务中，Squeeze Evolve首次实现了无验证器进化方法与基于验证器的进化方法相媲美的性能。

🎯 应用场景

Squeeze Evolve适用于各种需要进化推理的场景，例如自动机器学习、神经架构搜索、代码生成、以及其他需要探索解空间的优化问题。该方法能够显著降低计算成本，提高效率，使得在资源受限的环境下也能进行复杂的进化过程。未来，Squeeze Evolve有望应用于更多实际问题，例如药物发现、材料设计等。

📄 摘要（原文）

We show that verifier-free evolution is bottlenecked by both diversity and efficiency: without external correction, repeated evolution accelerates collapse toward narrow modes, while the uniform use of a high-cost model wastes compute and quickly becomes economically impractical. We introduce Squeeze Evolve, a unified multi-model orchestration framework for verifier-free evolutionary inference. Our approach is guided by a simple principle: allocate model capability where it has the highest marginal utility. Stronger models are reserved for high-impact stages, while cheaper models handle the other stages at much lower costs. This principle addresses diversity and cost-efficiency jointly while remaining lightweight. Squeeze Evolve naturally supports open-source, closed-source, and mixed-model deployments. Across AIME 2025, HMMT 2025, LiveCodeBench V6, GPQA-Diamond, ARC-AGI-V2, and multimodal vision benchmarks, such as MMMU-Pro and BabyVision, Squeeze Evolve consistently improves the cost-capability frontier over single-model evolution and achieves new state-of-the-art results on several tasks. Empirically, Squeeze Evolve reduces API cost by up to $\sim$3$\times$ and increases fixed-budget serving throughput by up to $\sim$10$\times$. Moreover, on discovery tasks, Squeeze Evolve is the first verifier-free evolutionary method to match, and in some cases exceed, the performance of verifier-based evolutionary methods.

Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理