Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

📄 arXiv: 2605.30621v1 📥 PDF

作者: Minhua Lin, Juncheng Wu, Zijun Wang, Zhan Shi, Yisi Sang, Bing He, Zewen Liu, Tianxin Wei, Zongyu Wu, Zhiwei Zhang, Dakuo Wang, Xiang Zhang, Benoit Dumoulin, Cihang Xie, Yuyin Zhou, Suhang Wang, Hanqing Lu

分类: cs.AI

发布日期: 2026-05-28

备注: 24 pages, 9 figures, 12 tables

🔗 代码/项目: GITHUB


💡 一句话要点

揭示自进化LLM Agent中Harness更新与收益的解耦关系,优化Agent训练策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 自进化 Harness更新 Harness收益 能力解耦

📋 核心要点

  1. 现有方法缺乏对LLM Agent Harness自进化能力的深入理解,未能区分Harness更新能力和Harness收益能力。
  2. 论文通过解耦Harness更新和Harness收益能力,分析了不同能力层级模型在这两种能力上的表现差异。
  3. 实验表明,Harness更新能力与模型基础能力无关,而Harness收益能力与模型基础能力呈非单调关系,中等模型收益最高。

📝 摘要(中文)

本文研究了自进化LLM Agent中Harness的自进化能力,即通过更新prompt、技能、记忆和工具等外部Harness来提升Agent性能,而无需改变模型参数。论文重点分析了两种能力:(i) Harness-updating,即从执行证据中产生有用的、持久的Harness更新的能力;(ii) Harness-benefit,即在任务解决过程中从更新后的Harness中获益的能力。研究发现,Harness-updating能力与模型的基础能力关系不大,不同能力层级的模型产生的Harness更新带来的收益相似。Harness-benefit能力与模型的基础能力呈非单调关系:弱模型受益甚微,中等模型受益最多,强模型受益反而低于中等模型。弱模型的低收益归因于无法激活相关Harness组件或无法忠实遵循Harness指令。研究结果表明,应将能力预算投入到任务解决Agent本身,并着重训练Agent的Harness调用和长程指令遵循能力。

🔬 方法详解

问题定义:现有自进化LLM Agent通过更新Harness(如prompt、技能、记忆和工具)来提升性能,但缺乏对模型Harness更新能力和从更新中获益能力的区分。现有方法未能明确模型的基础能力是否能预测其Harness自进化能力,以及哪些模型能产生有用的Harness更新,哪些模型能真正从中受益。

核心思路:论文的核心思路是将Harness自进化能力解耦为Harness-updating(产生有用更新的能力)和Harness-benefit(从更新中获益的能力),并分析不同能力层级的LLM在这两种能力上的表现。通过这种解耦,可以更清晰地理解模型在Harness自进化过程中的优势和不足,从而指导Agent训练策略。

技术框架:论文构建了一个实验框架,用于评估不同LLM的Harness-updating和Harness-benefit能力。该框架包括:1) 任务环境:用于测试Agent的任务;2) Harness:包含prompt、技能、记忆和工具等;3) Agent:使用LLM作为核心,通过与环境交互并更新Harness来提升性能;4) 评估指标:用于衡量Harness-updating和Harness-benefit的效果。实验流程包括:Agent与环境交互,收集执行证据,利用执行证据更新Harness,然后评估更新后的Harness对Agent性能的影响。

关键创新:论文最重要的技术创新在于解耦了Harness-updating和Harness-benefit能力,并发现它们与模型基础能力之间的非线性关系。这一发现挑战了以往认为更强大的模型在Harness自进化方面也必然更优秀的假设。

关键设计:论文的关键设计包括:1) 选择不同能力层级的LLM(如Qwen3.5-9B、Claude Opus~4.6)进行对比实验;2) 设计合理的任务环境和Harness结构,以确保实验的有效性和可重复性;3) 使用明确的评估指标来量化Harness-updating和Harness-benefit的效果;4) 分析弱模型在Harness-benefit方面的失败模式,并提出相应的改进建议。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Harness-updating能力与模型的基础能力关系不大,不同能力层级的模型产生的Harness更新带来的收益相似。Harness-benefit能力与模型的基础能力呈非单调关系:弱模型受益甚微,中等模型受益最多,强模型受益反而低于中等模型。例如,Qwen3.5-9B的Harness更新收益与Claude Opus~4.6相当,而中等模型的Harness-benefit效果优于强模型。

🎯 应用场景

该研究成果可应用于LLM Agent的自动优化和训练。通过理解不同模型在Harness自进化方面的能力差异,可以更有针对性地设计Agent的训练策略,例如,将更多资源投入到任务解决Agent本身,并着重训练Agent的Harness调用和长程指令遵循能力。这有助于提升LLM Agent在各种实际应用场景中的性能,例如智能客服、自动化流程和机器人控制等。

📄 摘要(原文)

LLM agents are increasingly deployed as systems built around editable external harnesses, including prompts, skills, memories and tools, that shape task execution without changing model parameters. Harness self-evolution adapts such agents by updating these harnesses from execution evidence. Yet it remains unclear whether a model's base capability in task-solving predicts its capabilities in harness self-evolution: which models produce useful harness updates, and which actually benefit from them? We analyze two harness self-evolution capabilities: (i) harness-updating, the capability to produce useful persistent harness updates from execution evidence; (ii) harness-benefit, the capability to benefit from updated harnesses during task solving. Our analysis reveals two findings. First, harness-updating is flat in base capability: models from different capability tiers produce harness updates that lead to surprisingly similar gains; even Qwen3.5-9B's updates yield gains comparable to those of Claude Opus~4.6. Second, harness-benefit is non-monotonic in base capability: weak-tier models benefit little from updated harnesses, mid-tier models benefit most, and strong-tier models benefit less than mid-tier. We trace low gains at the weak tier to two failure modes: weak-tier models may fail to activate relevant harness artifacts, or activate them but fail to follow them faithfully. These findings suggest investing capability budget in the task-solving agent rather than the evolver, and targeting harness invocation and long-horizon instruction following in agent training. Our source code is publicly available at https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.