Fine-tuning Large Language Model for Automated Algorithm Design

📄 arXiv: 2507.10614v1 📥 PDF

作者: Fei Liu, Rui Zhang, Xi Lin, Zhichao Lu, Qingfu Zhang

分类: cs.LG, cs.AI

发布日期: 2025-07-13


💡 一句话要点

通过微调大语言模型,实现自动化算法设计的性能提升与泛化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 算法设计 微调 多样性采样 直接偏好优化 自动化 代码生成 泛化能力

📋 核心要点

  1. 现有自动化算法设计方法依赖通用LLM,缺乏针对性,导致性能受限。
  2. 提出多样性感知排序采样(DAR)和直接偏好优化,微调LLM以适应算法设计任务。
  3. 实验表明,微调后的LLM在算法设计任务上显著优于通用LLM,并展现出良好的泛化能力。

📝 摘要(中文)

本文探讨了针对算法设计微调大语言模型(LLM)的有效性。现有方法通常依赖于为通用编码任务训练的现成LLM,但本文旨在回答:是否需要专门为算法设计定制的LLM?如果需要,如何有效地获得此类LLM,以及它们在不同算法设计任务中的泛化能力如何?本文通过探索LLM的微调来初步回答这些问题。研究引入了一种多样性感知排序(DAR)采样策略,以平衡训练数据的多样性和质量,然后利用直接偏好优化来有效地使LLM输出与任务目标对齐。在Llama-3.2-1B-Instruct和Llama-3.1-8B-Instruct上进行的三种不同算法设计任务的实验表明,微调后的LLM显著优于其现成的对应模型,并且在可接受集问题上与更大的Llama-3.1-8B-Instruct相匹配。此外,研究观察到良好的泛化能力:在特定算法设计任务上微调的LLM也提高了在具有不同设置的相关任务上的性能。这些发现突出了任务特定适应对于算法设计中LLM的价值,并为未来的研究开辟了新的途径。

🔬 方法详解

问题定义:现有自动化算法设计方法通常直接使用预训练的通用大语言模型,这些模型虽然具备一定的代码生成能力,但缺乏针对算法设计任务的优化。这导致生成的算法质量不高,难以满足特定任务的需求,且泛化能力有限。因此,如何针对算法设计任务定制LLM,提升其性能和泛化能力,是本文要解决的核心问题。

核心思路:本文的核心思路是通过微调预训练的大语言模型,使其更好地适应算法设计任务。具体来说,通过设计特定的训练策略和优化方法,使LLM能够生成更符合任务目标、更具多样性的算法代码。这种方法旨在弥补通用LLM在算法设计方面的不足,提升自动化算法设计的效率和质量。

技术框架:本文的技术框架主要包括数据采样、模型微调和性能评估三个阶段。首先,通过多样性感知排序(DAR)采样策略,从候选算法集合中选择具有代表性的样本进行训练。然后,利用直接偏好优化(DPO)算法,根据任务目标对LLM进行微调,使其输出与目标对齐。最后,在不同的算法设计任务上评估微调后的LLM的性能,并与现有的方法进行比较。

关键创新:本文的关键创新在于提出了多样性感知排序(DAR)采样策略和直接偏好优化(DPO)相结合的微调方法。DAR策略旨在平衡训练数据的多样性和质量,避免模型过度拟合特定样本。DPO算法则能够直接根据任务目标优化LLM的输出,无需复杂的奖励函数设计。

关键设计:DAR采样策略的关键在于根据算法的多样性和质量对候选算法进行排序,并选择排名靠前的样本进行训练。DPO算法的关键在于构建偏好数据集,即对于同一任务,选择更符合任务目标的算法作为正样本,选择相对较差的算法作为负样本。此外,本文还采用了Llama-3.2-1B-Instruct和Llama-3.1-8B-Instruct作为基础模型,并针对算法设计任务的特点,调整了模型的超参数。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,通过DAR采样和DPO优化微调后的LLM,在三个不同的算法设计任务上均显著优于现成的LLM。例如,在可接受集问题上,微调后的Llama-3.2-1B-Instruct与更大的Llama-3.1-8B-Instruct性能相当。此外,研究还发现,在特定任务上微调的LLM在相关任务上也能表现出良好的泛化能力。

🎯 应用场景

该研究成果可应用于自动化算法设计、软件开发、智能优化等领域。通过微调LLM,可以快速生成满足特定需求的算法代码,降低开发成本,提高开发效率。未来,该技术有望应用于更复杂的算法设计任务,例如机器学习模型的自动设计、优化算法的自动生成等。

📄 摘要(原文)

The integration of large language models (LLMs) into automated algorithm design has shown promising potential. A prevalent approach embeds LLMs within search routines to iteratively generate and refine candidate algorithms. However, most existing methods rely on off-the-shelf LLMs trained for general coding tasks,leaving a key question open: Do we need LLMs specifically tailored for algorithm design? If so, how can such LLMs be effectively obtained and how well can they generalize across different algorithm design tasks? In this paper, we take a first step toward answering these questions by exploring fine-tuning of LLMs for algorithm design. We introduce a Diversity-Aware Rank based (DAR) sampling strategy to balance training data diversity and quality, then we leverage direct preference optimization to efficiently align LLM outputs with task objectives. Our experiments, conducted on Llama-3.2-1B-Instruct and Llama- 3.1-8B-Instruct, span three distinct algorithm design tasks. Results suggest that finetuned LLMs can significantly outperform their off-the-shelf counterparts with the smaller Llama-3.2-1B-Instruct and match the larger Llama-3.1-8B-Instruct on the admissible set problem. Moreover, we observe promising generalization: LLMs finetuned on specific algorithm design tasks also improve performance on related tasks with varying settings. These findings highlight the value of task-specific adaptation for LLMs in algorithm design and open new avenues for future research.