TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

作者: Zerun Ma, Guoqiang Wang, Xinchen Xie, Yicheng Chen, He Du, Bowen Li, Yanan Sun, Wenran Liu, Kai Chen, Yining Li

分类: cs.AI, cs.CL

发布日期: 2026-04-15

💡 一句话要点

TREX：通过Agent驱动的树状探索实现LLM微调自动化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM微调 自动化机器学习 多Agent系统 树搜索 知识复用

📋 核心要点

现有LLM训练流程复杂，依赖人工干预，效率低下且难以优化。
TREX通过多Agent协作，将LLM训练过程建模为树状搜索，实现自动化探索和优化。
实验表明，TREX在FT-Bench基准测试中，能够有效提升模型在各种任务上的性能。

📝 摘要（中文）

大型语言模型(LLMs)已经使AI研究Agent能够执行孤立的科学任务，但自动化复杂的、真实世界的工作流程（如LLM训练）仍然是一个重大挑战。本文介绍了一种多Agent系统TREX，它可以自动化整个LLM训练生命周期。通过协调两个核心模块——研究员和执行者之间的合作，该系统无缝地执行需求分析、开放领域的文献和数据研究、训练策略的制定、数据配方的准备以及模型训练和评估。多轮实验过程被建模为搜索树，使系统能够有效地规划探索路径，重用历史结果，并从迭代试验中提炼出高级见解。为了评估自动化LLM训练的能力，我们构建了FT-Bench，这是一个包含10个源自真实世界场景的任务的基准，范围从优化基本模型能力到提高领域特定任务的性能。实验结果表明，TREX Agent始终如一地优化目标任务上的模型性能。

🔬 方法详解

问题定义：论文旨在解决LLM微调过程中高度依赖人工、效率低下的问题。现有方法需要专家手动设计训练策略、准备数据，并且难以充分利用历史实验数据，导致优化过程耗时且效果不稳定。

核心思路：TREX的核心思路是将LLM微调过程视为一个搜索问题，通过Agent驱动的树状探索，自动寻找最优的训练策略。这种方法借鉴了强化学习和贝叶斯优化的思想，但更加注重知识的复用和策略的提炼。

技术框架：TREX包含两个核心模块：研究员（Researcher）和执行者（Executor）。研究员负责分析需求、搜索文献和数据、制定训练策略；执行者负责准备数据、执行训练和评估模型。这两个模块通过共享知识库进行协作，并将实验过程建模为搜索树，每个节点代表一个训练策略，边代表策略的演化。系统通过不断探索和评估，逐步优化训练策略。

关键创新：TREX的关键创新在于将LLM微调过程建模为Agent驱动的树状搜索。这种方法能够有效地利用历史实验数据，避免重复探索，并能够从迭代试验中提炼出高级见解。此外，TREX的多Agent协作机制能够充分发挥不同Agent的优势，提高训练效率。

关键设计：TREX使用树搜索算法来探索不同的训练策略。每个节点包含训练配置（如学习率、batch size等）和性能指标。研究员Agent根据历史数据和当前节点的信息，生成新的训练策略，并将其添加到搜索树中。执行者Agent负责执行训练并评估性能。系统使用奖励函数来评估训练策略的优劣，并使用树搜索算法来选择下一个要探索的节点。具体参数设置和损失函数选择取决于具体的任务和数据集。

🖼️ 关键图片

📊 实验亮点

TREX在FT-Bench基准测试中表现出色，该基准包含10个源自真实世界场景的任务。实验结果表明，TREX能够持续优化模型在目标任务上的性能，相较于人工调优或其他自动化方法，TREX在多个任务上取得了显著的性能提升，证明了其在自动化LLM微调方面的有效性。

🎯 应用场景

TREX可应用于各种LLM微调场景，例如优化模型在特定领域的性能、提升模型的泛化能力、降低模型的训练成本等。该研究成果有助于推动LLM在实际应用中的普及，并为自动化机器学习领域提供新的思路。

📄 摘要（原文）

While Large Language Models (LLMs) have empowered AI research agents to perform isolated scientific tasks, automating complex, real-world workflows, such as LLM training, remains a significant challenge. In this paper, we introduce TREX, a multi-agent system that automates the entire LLM training life-cycle. By orchestrating collaboration between two core modules-the Researcher and the Executor-the system seamlessly performs requirement analysis, open-domain literature and data research, formulation of training strategies, preparation of data recipes, and model training and evaluation. The multi-round experimental process is modeled as a search tree, enabling the system to efficiently plan exploration paths, reuse historical results, and distill high-level insights from iterative trials. To evaluate the capability of automated LLM training, we construct FT-Bench, a benchmark comprising 10 tasks derived from real-world scenarios, ranging from optimizing fundamental model capabilities to enhancing performance on domain-specific tasks. Experimental results demonstrate that the TREX agent consistently optimizes model performance on target tasks.

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理