MultiGA: Leveraging Multi-Source Seeding in Genetic Algorithms

📄 arXiv: 2512.04097v1 📥 PDF

作者: Isabelle Diana May-Xin Ng, Tharindu Cyril Weerasooriya, Haitao Zhu, Wei Wei

分类: cs.NE, cs.AI

发布日期: 2025-11-21


💡 一句话要点

MultiGA:利用多源种子的大语言模型遗传算法优化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遗传算法 大型语言模型 多源学习 自然语言处理 模型集成

📋 核心要点

  1. 现有方法难以有效利用多个LLM的互补能力,导致在特定任务上性能受限或选择困难。
  2. MultiGA通过遗传算法,从多个LLM采样生成初始种群,迭代重组优化,寻找最优解。
  3. 实验表明,MultiGA在多个NLP任务上收敛到最佳LLM的精度,验证了多源种子策略的有效性。

📝 摘要(中文)

大型语言模型(LLM)被广泛应用于各个研究领域,以解决复杂的任务,但它们的性能会因任务而异。受自然选择启发的进化算法可用于在推理时迭代地优化解决方案。据我们所知,目前还没有人探索利用多源种子来指导LLM遗传算法。本文介绍了一种新方法MultiGA,它应用遗传算法原理,通过从不同的LLM群体中采样来初始化种群,从而解决复杂的自然语言任务和推理问题。MultiGA从各种父LLM(开源和闭源)生成一系列输出,并使用中性的适应度函数来评估它们。通过迭代重组过程,我们混合和优化这些代,直到获得最佳解决方案。我们使用text-to-SQL代码生成任务、旅行计划、GPQA基准(针对研究生水平的科学问题)和BBQ偏差基准来评估我们的方法。结果表明,MultiGA收敛到最适合该任务的LLM的准确性,这些见解为未来的研究奠定了基础,这些研究更密切地关注集成多个LLM以用于未探索的任务,在这些任务中,选择一个预训练模型是不明确的或次优的。

🔬 方法详解

问题定义:论文旨在解决如何有效利用多个大型语言模型(LLM)的优势,以提升复杂自然语言任务和推理问题的解决效果。现有方法通常依赖于选择单个预训练模型,但在某些任务中,选择哪个模型并不明确,或者单个模型的能力存在局限性,无法达到最优性能。因此,如何整合多个LLM的知识和能力,成为一个亟待解决的问题。

核心思路:MultiGA的核心思路是借鉴遗传算法的思想,将多个LLM的输出作为初始种群,通过选择、交叉和变异等遗传操作,迭代地优化解决方案。这种方法允许算法探索不同的LLM组合方式,并逐步逼近最优解,从而充分利用各个LLM的优势。

技术框架:MultiGA的整体框架包括以下几个主要阶段:1. 初始化种群:从多个LLM(包括开源和闭源模型)中采样生成初始种群。每个个体代表一个可能的解决方案。2. 适应度评估:使用一个中性的适应度函数来评估每个个体的质量。适应度函数的设计旨在鼓励多样性,避免过早收敛。3. 选择:根据适应度值选择优秀的个体,作为下一代种群的父代。4. 交叉:将选定的父代个体进行交叉操作,生成新的个体。交叉操作旨在混合不同LLM的知识和能力。5. 变异:对新生成的个体进行变异操作,引入新的变化,增加种群的多样性。6. 迭代:重复执行选择、交叉和变异操作,直到满足停止条件(例如,达到最大迭代次数或适应度值收敛)。

关键创新:MultiGA的关键创新在于将遗传算法应用于LLM的集成,并提出了多源种子的概念。与传统的遗传算法不同,MultiGA的初始种群不是随机生成的,而是从多个LLM中采样得到的。这种多源种子策略能够更有效地利用LLM的先验知识,加速算法的收敛速度。

关键设计:MultiGA的关键设计包括:1. 适应度函数:论文使用了一个中性的适应度函数,旨在评估解决方案的质量,同时鼓励种群的多样性。适应度函数的具体形式取决于具体的任务。2. 交叉操作:论文设计了一种交叉操作,能够有效地混合不同LLM的输出。交叉操作的具体实现方式也取决于具体的任务。3. 变异操作:论文设计了一种变异操作,能够引入新的变化,增加种群的多样性。变异操作的具体实现方式也取决于具体的任务。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,MultiGA在text-to-SQL代码生成、旅行计划、GPQA科学问题解答和BBQ偏差检测等任务上表现出色。MultiGA能够收敛到最适合该任务的LLM的准确性,证明了其有效性。例如,在某些任务上,MultiGA的性能甚至超过了单个最优LLM。

🎯 应用场景

MultiGA具有广泛的应用前景,可用于解决各种复杂的自然语言处理和推理问题,例如代码生成、旅行规划、科学问题解答和偏差检测等。该方法能够充分利用多个LLM的优势,提高问题解决的准确性和效率。未来,MultiGA有望应用于更多未探索的任务,尤其是在难以选择单个最优LLM的场景下。

📄 摘要(原文)

Large Language Models (LLMs) are widely used across research domains to tackle complex tasks, but their performance can vary significantly depending on the task at hand. Evolutionary algorithms, inspired by natural selection, can be used to refine solutions iteratively at inference-time. To the best of our knowledge, there has not been exploration on leveraging the collective capabilities of multi-source seeding for LLM-guided genetic algorithms. In this paper, we introduce a novel approach, MultiGA, which applies genetic algorithm principles to address complex natural language tasks and reasoning problems by sampling from a diverse population of LLMs to initialize the population. MultiGA generates a range of outputs from various parent LLMs, open source and closed source, and uses a neutral fitness function to evaluate them. Through an iterative recombination process, we mix and refine these generations until an optimal solution is achieved. We benchmark our approach using text-to-SQL code generation tasks, trip planning, GPQA benchmark for grad-level science questions, and the BBQ bias benchmark. Our results show that MultiGA converges to the accuracy of the LLM best fit for the task, and these insights lay the foundation for future research looking closer at integrating multiple LLMs for unexplored tasks in which selecting only one pre-trained model is unclear or suboptimal.