Is Grep All You Need? How Agent Harnesses Reshape Agentic Search

📄 arXiv: 2605.15184v1 📥 PDF

作者: Sahil Sen, Akhil Kasturi, Elias Lumer, Anmol Gulati, Vamse Kumar Subbiah

分类: cs.CL

发布日期: 2026-05-14


💡 一句话要点

研究Agentic Search中Grep与向量检索的性能差异及影响因素

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic Search 检索增强生成 Grep 向量检索 大型语言模型 工具调用 Agent Harness

📋 核心要点

  1. 现有Agentic Search系统缺乏对不同检索策略(如grep和向量检索)的系统性比较,以及它们与Agent架构和工具调用方式的交互影响。
  2. 论文通过实证研究,比较了grep和向量检索在不同Agent harness和工具调用风格下的性能,并考察了无关信息对检索效果的影响。
  3. 实验结果表明,grep在特定条件下优于向量检索,但整体性能受Agent harness和工具调用方式的显著影响,强调了全面评估的重要性。

📝 摘要(中文)

本文研究了大型语言模型(LLM)Agent中检索策略选择如何与Agent架构和工具调用范式相互作用,从而影响Agentic Search的性能。尽管检索增强生成(RAG)在Agentic Search系统中应用日益广泛,但现有文献缺乏对检索策略的系统性比较。本文通过两个实验进行了实证研究。实验1比较了grep和向量检索在LongMemEval数据集上的性能,使用了自定义Agent harness(Chronos)和原生CLI harness(Claude Code、Codex和Gemini CLI),并考虑了内联工具结果和基于文件的工具结果。实验2比较了仅使用grep和仅使用向量检索,同时逐步增加不相关的对话历史,以模拟更嘈杂的搜索环境。结果表明,在实验1中,grep通常比向量检索产生更高的准确率;同时,总体得分强烈依赖于所使用的harness和工具调用风格,即使底层对话数据相同。

🔬 方法详解

问题定义:现有Agentic Search系统依赖检索增强生成(RAG),但缺乏对不同检索策略(如grep和向量检索)的系统性比较。现有方法未充分考虑Agent架构、工具调用方式以及无关信息对检索性能的影响,导致实际应用中检索效果不稳定。

核心思路:论文的核心思路是通过控制变量的实验设计,系统性地比较grep和向量检索在不同Agent harness、工具调用风格以及不同噪声水平下的性能。通过分析实验结果,揭示不同因素对Agentic Search性能的影响,为实际应用中选择合适的检索策略提供指导。

技术框架:论文采用实证研究方法,包含两个主要实验。实验1比较了grep和向量检索在不同Agent harness(Chronos、Claude Code、Codex和Gemini CLI)和工具调用风格(内联和文件)下的性能。实验2比较了仅使用grep和仅使用向量检索,并逐步增加不相关的对话历史,以模拟更嘈杂的搜索环境。

关键创新:论文的关键创新在于系统性地研究了Agent架构、工具调用方式和噪声水平对Agentic Search性能的影响。通过对比grep和向量检索,揭示了不同检索策略的优缺点,并强调了全面评估的重要性。此外,论文还提出了自定义的Agent harness(Chronos),为后续研究提供了平台。

关键设计:实验1使用了LongMemEval数据集,包含116个问题。Agent harness包括自定义的Chronos和原生CLI harness(Claude Code、Codex和Gemini CLI)。工具调用风格分为内联工具结果和基于文件的工具结果。实验2逐步增加不相关的对话历史,以模拟更嘈杂的搜索环境。性能指标主要为准确率。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,在特定条件下,grep通常比向量检索产生更高的准确率。然而,总体得分强烈依赖于所使用的Agent harness和工具调用风格,即使底层对话数据相同。例如,不同的CLI工具在相同的检索策略下表现出显著差异,强调了在Agentic Search中全面评估的重要性。

🎯 应用场景

该研究成果可应用于各种需要Agentic Search的场景,例如智能客服、知识库问答、代码生成等。通过选择合适的检索策略和优化Agent架构,可以提高Agent的准确性和效率,从而提升用户体验。未来的研究可以进一步探索更复杂的Agent架构和检索策略,以及如何自动选择最佳的配置。

📄 摘要(原文)

Recent advances in Large Language Model (LLM) agents have enabled complex agentic workflows where models autonomously retrieve information, call tools, and reason over large corpora to complete tasks on behalf of users. Despite the growing adoption of retrieval-augmented generation (RAG) in agentic search systems, existing literature lacks a systematic comparison of how retrieval strategy choice interacts with agent architecture and tool-calling paradigm. Important practical dimensions, including how tool outputs are presented to the model and how performance changes when searches must cope with more irrelevant surrounding text, remain under-explored in agent loops. This paper reports an empirical study organized into two experiments. Experiment 1 compares grep and vector retrieval on a 116-question sample from LongMemEval, using a custom agent harness (Chronos) and provider-native CLI harnesses (Claude Code, Codex, and Gemini CLI), for both inline tool results and file-based tool results that the model reads separately. Experiment 2 compares grep-only and vector-only retrieval while progressively mixing in additional unrelated conversation history, so that each query is embedded in more distracting material alongside the passages that matter. Across Chronos and the provider CLIs, grep generally yields higher accuracy than vector retrieval in our comparisons in experiment 1; at the same time, overall scores still depend strongly on which harness and tool-calling style is used, even when the underlying conversation data are the same.