Meta-Harness: End-to-End Optimization of Model Harnesses

📄 arXiv: 2603.28052v1 📥 PDF

作者: Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn

分类: cs.AI

发布日期: 2026-03-30


💡 一句话要点

Meta-Harness:端到端优化LLM应用的代码框架,提升性能并降低token消耗。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 代码框架优化 元学习 自动化 agentic proposer

📋 核心要点

  1. 现有LLM应用的代码框架设计依赖手工,缺乏自动化优化,导致性能瓶颈和资源浪费。
  2. Meta-Harness通过agentic proposer搜索优化代码框架,利用历史代码、分数和执行轨迹进行学习。
  3. 实验表明,Meta-Harness在文本分类、数学推理和agentic coding任务上均超越现有方法。

📝 摘要(中文)

大型语言模型(LLM)系统的性能不仅取决于模型权重,还取决于其代码框架(harness):决定存储、检索和呈现给模型的信息的代码。然而,代码框架的设计在很大程度上仍然是手工完成的,现有的文本优化器由于过度压缩反馈,与此设置不太匹配。我们引入了Meta-Harness,一个在LLM应用的代码框架上进行搜索的外部循环系统。它使用一个agentic proposer,通过文件系统访问所有先前候选者的源代码、分数和执行跟踪。在在线文本分类中,Meta-Harness比最先进的上下文管理系统提高了7.7个百分点,同时使用的上下文token减少了4倍。在检索增强的数学推理中,一个发现的代码框架在200个IMO级别的问题上,在五个held-out模型上的平均准确率提高了4.7个百分点。在agentic coding中,发现的代码框架超过了TerminalBench-2上最好的手工设计的基线。总之,这些结果表明,更丰富的先前经验访问可以实现自动化的代码框架工程。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)应用,其性能高度依赖于代码框架(harness)的设计。这些代码框架负责处理输入、检索相关信息、组织上下文并最终呈现给LLM。然而,目前这些代码框架的设计主要依赖于人工,耗时且难以达到最优。现有的文本优化器无法有效解决这个问题,因为它们通常会过度压缩反馈信息,导致优化效果不佳。

核心思路:Meta-Harness的核心思路是将代码框架的设计过程视为一个搜索优化问题。通过一个agentic proposer,自动探索不同的代码框架,并根据其在特定任务上的表现进行评估和改进。这种方法借鉴了元学习的思想,即通过学习如何学习来提高优化效率。

技术框架:Meta-Harness采用一个外部循环系统,主要包含以下几个模块:1) Agentic Proposer:负责生成新的代码框架候选者。它能够访问所有先前候选者的源代码、分数和执行跟踪,从而进行有指导的探索。2) Execution Environment:负责执行代码框架,并记录其执行过程中的各种信息,例如token使用量、执行时间等。3) Scoring Function:负责评估代码框架的性能。评估指标可以根据具体的任务进行选择,例如准确率、召回率等。4) Filesystem:用于存储所有候选代码框架的源代码、分数和执行跟踪,为Agentic Proposer提供学习的素材。

关键创新:Meta-Harness的关键创新在于其agentic proposer的设计。与传统的文本优化器不同,agentic proposer能够访问更丰富的历史信息,包括源代码、分数和执行跟踪。这使得它能够更好地理解代码框架的结构和行为,从而生成更有效的候选者。此外,Meta-Harness采用外部循环优化,避免了文本优化器过度压缩反馈的问题。

关键设计:Agentic Proposer的具体实现可以采用不同的方法,例如基于LLM的代码生成模型。Scoring Function的设计需要根据具体的任务进行调整,例如可以使用交叉验证来评估代码框架的泛化能力。Filesystem的设计需要考虑存储效率和访问速度,例如可以使用数据库来存储代码框架的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Meta-Harness在三个不同的任务上进行了评估,包括在线文本分类、检索增强的数学推理和agentic coding。在在线文本分类中,Meta-Harness比最先进的上下文管理系统提高了7.7个百分点,同时使用的上下文token减少了4倍。在检索增强的数学推理中,Meta-Harness在200个IMO级别的问题上,平均准确率提高了4.7个百分点。在agentic coding中,Meta-Harness超过了TerminalBench-2上最好的手工设计的基线。

🎯 应用场景

Meta-Harness具有广泛的应用前景,可以应用于各种需要使用LLM的应用场景,例如智能客服、知识问答、代码生成等。通过自动优化代码框架,可以显著提高LLM应用的性能,降低token消耗,并减少人工设计成本。该研究成果有望推动LLM应用的普及和发展。

📄 摘要(原文)

The performance of large language model (LLM) systems depends not only on model weights, but also on their harness: the code that determines what information to store, retrieve, and present to the model. Yet harnesses are still designed largely by hand, and existing text optimizers are poorly matched to this setting because they compress feedback too aggressively. We introduce Meta-Harness, an outer-loop system that searches over harness code for LLM applications. It uses an agentic proposer that accesses the source code, scores, and execution traces of all prior candidates through a filesystem. On online text classification, Meta-Harness improves over a state-of-the-art context management system by 7.7 points while using 4x fewer context tokens. On retrieval-augmented math reasoning, a single discovered harness improves accuracy on 200 IMO-level problems by 4.7 points on average across five held-out models. On agentic coding, discovered harnesses surpass the best hand-engineered baselines on TerminalBench-2. Together, these results show that richer access to prior experience can enable automated harness engineering.