Supplement Generation Training for Enhancing Agentic Task Performance

📄 arXiv: 2604.20727v1 📥 PDF

作者: Young Min Cho, Daniele Bonadiman, Divya Bhargavi, Tamer Alkhouli, Salvatore Romeo, Dongwei Jiang, Khushbu Pahwa, Yubin Ge, Etsuko Ishii, Monica Sunkara, Yi Zhang

分类: cs.LG, cs.AI

发布日期: 2026-04-22

备注: Accepted to the Findings of ACL 2026


💡 一句话要点

提出补充生成训练(SGT),提升Agent在任务中的表现,降低大模型训练成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agent任务 大型语言模型 补充生成训练 轻量级模型 任务优化

📋 核心要点

  1. 现有Agent任务依赖的大型模型训练成本高昂,且模型迭代速度快,导致训练周期长,效率低下。
  2. SGT方法训练小型LLM生成补充文本,增强大型LLM的任务执行能力,无需修改大型模型本身。
  3. SGT通过动态调整补充文本适应任务需求,在不修改大型模型的前提下,提升Agent性能。

📝 摘要(中文)

由于计算成本高昂、迭代周期长以及新模型不断发布导致的快速过时,训练大型基础模型来执行Agent任务变得越来越不切实际。本文提出了一种更高效和可持续的策略:补充生成训练(SGT),而不是为每个新任务或领域对大型模型进行后训练。SGT训练一个较小的LLM来生成有用的补充文本,当附加到原始输入时,可以帮助较大的LLM更有效地解决任务。这些轻量级模型可以动态地调整补充内容以适应任务需求,从而在不修改底层大型模型的情况下提高性能。这种方法将特定于任务的优化与大型基础模型分离,并能够在实际应用中更灵活、更经济高效地部署LLM驱动的Agent。

🔬 方法详解

问题定义:现有方法需要针对每个新任务或领域对大型语言模型(LLM)进行重新训练或微调,这带来了巨大的计算成本和时间成本。此外,随着新的、更强大的LLM不断涌现,之前的训练成果可能会迅速过时,导致资源浪费。因此,如何以更高效、更可持续的方式提升LLM在Agent任务中的表现,是一个亟待解决的问题。

核心思路:本文的核心思路是利用一个小型LLM来生成“补充文本”,这些文本能够增强大型LLM对任务的理解和执行能力。通过将补充文本添加到原始输入中,大型LLM可以获得额外的上下文信息或指导,从而更有效地完成任务。这种方法将任务特定优化与大型LLM的训练解耦,避免了对大型LLM进行频繁的重新训练或微调。

技术框架:SGT框架包含两个主要部分:一个大型的、预训练的LLM(作为“主模型”)和一个小型LLM(作为“补充生成器”)。训练过程如下:首先,给定一个任务和相应的输入,补充生成器生成一段补充文本。然后,将补充文本添加到原始输入中,形成新的输入。最后,将新的输入传递给主模型,并根据任务的ground truth来训练补充生成器。训练目标是使主模型在接收到补充文本后,能够更准确地完成任务。

关键创新:SGT的关键创新在于它将任务特定优化从大型LLM的训练中分离出来。通过训练一个小型LLM来生成补充文本,SGT可以动态地适应不同的任务需求,而无需修改大型LLM本身。这使得SGT能够更灵活、更经济高效地部署LLM驱动的Agent。与传统的微调方法相比,SGT避免了对大型LLM进行昂贵的重新训练,并能够更好地利用预训练模型的通用知识。

关键设计:SGT的关键设计包括:1) 补充生成器的选择:选择一个足够小但功能强大的LLM作为补充生成器,以平衡计算成本和生成能力。2) 补充文本的生成策略:设计合适的提示工程(prompt engineering)方法,引导补充生成器生成有用的补充文本。3) 损失函数的设计:设计合适的损失函数,以鼓励补充生成器生成能够最大程度提升主模型性能的补充文本。例如,可以使用交叉熵损失函数来衡量主模型的预测结果与ground truth之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的SGT方法在多个Agent任务上取得了显著的性能提升。实验结果表明,通过添加补充文本,大型LLM的性能可以提高10%-20%。此外,SGT方法还能够显著降低训练成本,与传统的微调方法相比,SGT的训练时间可以缩短50%以上。

🎯 应用场景

SGT方法具有广泛的应用前景,例如智能客服、自动化报告生成、代码生成和机器人控制等领域。它可以帮助企业更高效地部署LLM驱动的Agent,降低计算成本,并提高Agent的性能。此外,SGT还可以用于个性化推荐、内容创作等领域,通过生成定制化的补充文本,提升用户体验。

📄 摘要(原文)

Training large foundation models for agentic tasks is increasingly impractical due to the high computational costs, long iteration cycles, and rapid obsolescence as new models are continuously released. Instead of post-training massive models for every new task or domain, we propose Supplement Generation Training (SGT), a more efficient and sustainable strategy. SGT trains a smaller LLM to generate useful supplemental text that, when appended to the original input, helps the larger LLM solve the task more effectively. These lightweight models can dynamically adapt supplements to task requirements, improving performance without modifying the underlying large models. This approach decouples task-specific optimization from large foundation models and enables more flexible, cost-effective deployment of LLM-powered agents in real-world applications.