RAG-MCP: Mitigating Prompt Bloat in LLM Tool Selection via Retrieval-Augmented Generation
作者: Tiantian Gan, Qiyao Sun
分类: cs.AI, cs.SE
发布日期: 2025-05-06
💡 一句话要点
RAG-MCP:通过检索增强生成缓解LLM工具选择中的Prompt膨胀问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 大型语言模型 工具选择 Prompt膨胀 模型上下文协议
📋 核心要点
- 现有方法在LLM工具选择中面临prompt膨胀和选择复杂性问题,限制了模型对大量外部工具的有效利用。
- RAG-MCP通过检索增强生成,利用语义检索从外部索引中选择最相关的工具描述,减少prompt大小。
- 实验表明,RAG-MCP显著减少了prompt tokens,并将工具选择准确率提高了三倍以上,提升显著。
📝 摘要(中文)
大型语言模型(LLM)在有效利用日益增长的外部工具(例如模型上下文协议(MCP)定义的工具)时面临挑战,这主要是由于prompt膨胀和选择复杂性。本文提出了RAG-MCP,一个检索增强生成框架,通过卸载工具发现来克服这一挑战。RAG-MCP使用语义检索从外部索引中识别与给定查询最相关的MCP,然后再与LLM交互。只有选定的工具描述被传递给模型,从而显著减少了prompt大小并简化了决策过程。实验,包括MCP压力测试,表明RAG-MCP显著减少了prompt tokens(例如,超过50%),并在基准测试任务中将工具选择准确率提高了三倍以上(43.13% vs 13.62%)。RAG-MCP为LLM实现了可扩展且准确的工具集成。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在集成和选择大量外部工具时遇到的prompt膨胀问题。随着工具数量的增加,将所有工具描述都放入prompt中会导致prompt过长,增加计算成本,并降低工具选择的准确性。现有的方法难以有效管理和利用大量的工具信息,导致工具选择性能下降。
核心思路:RAG-MCP的核心思路是利用检索增强生成(RAG)来动态地选择与当前查询最相关的工具描述,而不是将所有工具描述都放入prompt中。通过语义检索,从预先构建的工具索引中找到最相关的工具,从而减少prompt的长度,并提高LLM选择工具的效率和准确性。
技术框架:RAG-MCP框架主要包含以下几个阶段:1) 工具索引构建:将所有可用的工具描述(MCP)构建成一个可检索的索引,例如使用向量数据库。2) 查询编码:将用户查询编码成向量表示。3) 工具检索:使用查询向量在工具索引中进行语义检索,找到与查询最相关的K个工具描述。4) Prompt构建:将检索到的工具描述添加到prompt中,并将其输入到LLM中。5) 工具选择:LLM根据prompt中的工具描述选择合适的工具。
关键创新:RAG-MCP的关键创新在于将检索增强生成应用于LLM的工具选择任务。通过动态地选择工具描述,而不是静态地将所有工具描述都放入prompt中,有效地缓解了prompt膨胀问题,并提高了工具选择的准确性。与现有方法相比,RAG-MCP能够更好地处理大量的工具信息,并能够根据不同的查询选择不同的工具组合。
关键设计:RAG-MCP的关键设计包括:1) 语义检索方法:选择合适的语义检索方法(例如,基于Transformer的嵌入模型)来编码查询和工具描述,并计算它们之间的相似度。2) 检索数量K:确定合适的检索数量K,以平衡prompt长度和工具选择的准确性。3) Prompt模板:设计合适的prompt模板,以指导LLM选择工具。4) 索引构建策略:选择合适的索引构建策略,以提高检索效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RAG-MCP在减少prompt tokens和提高工具选择准确率方面表现出色。在基准测试任务中,RAG-MCP能够将prompt tokens减少超过50%,并将工具选择准确率从基线的13.62%提高到43.13%,提升幅度超过三倍。这些结果证明了RAG-MCP在缓解prompt膨胀和提高工具选择性能方面的有效性。
🎯 应用场景
RAG-MCP具有广泛的应用前景,可以应用于各种需要LLM与外部工具集成的场景,例如智能助手、自动化工作流程、代码生成和数据分析等。通过RAG-MCP,LLM可以更有效地利用大量的外部工具,从而提高任务完成的效率和质量。该研究有助于推动LLM在实际应用中的普及和发展。
📄 摘要(原文)
Large language models (LLMs) struggle to effectively utilize a growing number of external tools, such as those defined by the Model Context Protocol (MCP)\cite{IntroducingMCP}, due to prompt bloat and selection complexity. We introduce RAG-MCP, a Retrieval-Augmented Generation framework that overcomes this challenge by offloading tool discovery. RAG-MCP uses semantic retrieval to identify the most relevant MCP(s) for a given query from an external index before engaging the LLM. Only the selected tool descriptions are passed to the model, drastically reducing prompt size and simplifying decision-making. Experiments, including an MCP stress test, demonstrate RAG-MCP significantly cuts prompt tokens (e.g., by over 50%) and more than triples tool selection accuracy (43.13% vs 13.62% baseline) on benchmark tasks. RAG-MCP enables scalable and accurate tool integration for LLMs.