Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

📄 arXiv: 2606.02373v1 📥 PDF

作者: Pengcheng Jiang, Zhiyi Shi, Kelly Hong, Xueqiang Xu, Jiashuo Sun, Jimeng Sun, Hammad Bashir, Jiawei Han

分类: cs.AI, cs.CL, cs.IR

发布日期: 2026-06-01

🔗 代码/项目: GITHUB


💡 一句话要点

Harness-1:利用强化学习和外部状态管理提升搜索Agent性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 搜索Agent 信息检索 状态管理 迁移学习

📋 核心要点

  1. 现有搜索Agent训练通常将状态管理置于策略内部,导致强化学习同时优化语义搜索决策和环境可维护的簿记。
  2. Harness-1通过状态化的搜索框架,将环境侧工作记忆与策略的语义决策分离,减轻了策略的状态管理负担。
  3. 实验表明,Harness-1在多个检索基准测试中显著优于现有开放搜索Agent,尤其在迁移学习中表现出更好的泛化能力。

📝 摘要(中文)

本文提出Harness-1,一个200亿参数的搜索Agent(检索子Agent),它在具有状态的搜索框架内通过强化学习进行训练。该框架维护环境侧的工作记忆,包括候选池、重要性标记的精选集合、紧凑的证据链接、验证记录、压缩和去重的观察结果以及预算感知的上下文渲染。策略保留语义决策:搜索什么、保留或丢弃哪些文档、验证什么以及何时停止。在涵盖Web、金融、专利和多跳问答的八个检索基准测试中,Harness-1实现了0.730的平均精选召回率,比次优的开放搜索子Agent高出+11.4个百分点,并且与更大的前沿模型搜索器保持竞争力。其增益在保留的迁移基准测试中尤为强劲,表明在显式搜索状态上进行强化学习可以产生泛化到训练领域之外的检索行为。代码可在https://github.com/pat-jj/harness-1获取。

🔬 方法详解

问题定义:现有搜索Agent的训练方式存在瓶颈,即将搜索策略和状态管理耦合在一起。Agent需要在不断增长的文本记录上进行决策,同时记住已看到的内容、有用的证据、未解决的约束以及已检查的声明。这种方式迫使强化学习同时优化语义搜索决策和可恢复的簿记,而后者本可以由环境更可靠地维护。

核心思路:核心思想是将搜索Agent的状态管理职责从策略转移到环境。通过引入一个状态化的搜索框架(Harness),环境负责维护工作记忆,包括候选池、精选集合、证据链接、验证记录和压缩的观察结果。策略则专注于语义决策,例如搜索什么、保留或丢弃哪些文档、验证什么以及何时停止。

技术框架:Harness-1的整体架构包含一个强化学习Agent和一个状态化的搜索框架(Harness)。Agent负责制定搜索策略,包括选择搜索查询、过滤文档和决定何时停止。Harness则负责维护搜索状态,包括候选文档池、已验证的证据和搜索历史。Agent与Harness通过交互进行学习,Agent根据Harness提供的状态信息做出决策,Harness根据Agent的决策更新状态并提供奖励信号。

关键创新:关键创新在于将状态管理从Agent策略中解耦,并将其转移到环境侧的Harness中。这种设计允许Agent专注于更高级别的语义决策,而无需担心底层的状态维护。此外,Harness还采用了多种技术来压缩和去重观察结果,从而减少了Agent的输入维度并提高了学习效率。

关键设计:Harness-1使用了200亿参数的检索子Agent。Harness维护了环境侧的工作记忆,包括候选池、重要性标记的精选集合、紧凑的证据链接、验证记录、压缩和去重的观察结果以及预算感知的上下文渲染。强化学习的奖励函数设计旨在鼓励Agent找到相关的文档并进行验证。具体的网络结构和损失函数细节在论文中可能有所描述,但摘要中未明确提及。

📊 实验亮点

Harness-1在八个检索基准测试中实现了0.730的平均精选召回率,比次优的开放搜索子Agent高出+11.4个百分点,并且与更大的前沿模型搜索器保持竞争力。尤其在迁移基准测试中,Harness-1表现出更强的泛化能力,表明其学习到的检索行为可以推广到训练领域之外。

🎯 应用场景

Harness-1的潜在应用领域包括智能搜索引擎、金融信息检索、专利检索、多跳问答系统等。通过将状态管理从Agent策略中解耦,Harness-1可以提高搜索Agent的效率和泛化能力,从而为用户提供更准确、更全面的搜索结果。该研究的未来影响在于推动了强化学习在搜索领域的应用,并为构建更智能的搜索系统提供了新的思路。

📄 摘要(原文)

Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.