RAG-MCP: Mitigating Prompt Bloat in LLM Tool Selection via Retrieval-Augmented Generation

作者: Tiantian Gan, Qiyao Sun

分类: cs.AI, cs.SE

发布日期: 2025-05-06

💡 一句话要点

RAG-MCP：通过检索增强生成缓解LLM工具选择中的Prompt膨胀问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 工具选择 Prompt膨胀 模型上下文协议

📋 核心要点

现有方法在LLM工具选择中面临prompt膨胀和选择复杂性问题，限制了模型对大量外部工具的有效利用。
RAG-MCP通过检索增强生成，利用语义检索从外部索引中选择最相关的工具描述，减少prompt大小。
实验表明，RAG-MCP显著减少了prompt tokens，并将工具选择准确率提高了三倍以上，提升显著。

📝 摘要（中文）

大型语言模型（LLM）在有效利用日益增长的外部工具（例如模型上下文协议（MCP）定义的工具）时面临挑战，这主要是由于prompt膨胀和选择复杂性。本文提出了RAG-MCP，一个检索增强生成框架，通过卸载工具发现来克服这一挑战。RAG-MCP使用语义检索从外部索引中识别与给定查询最相关的MCP，然后再与LLM交互。只有选定的工具描述被传递给模型，从而显著减少了prompt大小并简化了决策过程。实验，包括MCP压力测试，表明RAG-MCP显著减少了prompt tokens（例如，超过50%），并在基准测试任务中将工具选择准确率提高了三倍以上（43.13% vs 13.62%）。RAG-MCP为LLM实现了可扩展且准确的工具集成。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在集成和选择大量外部工具时遇到的prompt膨胀问题。随着工具数量的增加，将所有工具描述都放入prompt中会导致prompt过长，增加计算成本，并降低工具选择的准确性。现有的方法难以有效管理和利用大量的工具信息，导致工具选择性能下降。

核心思路：RAG-MCP的核心思路是利用检索增强生成（RAG）来动态地选择与当前查询最相关的工具描述，而不是将所有工具描述都放入prompt中。通过语义检索，从预先构建的工具索引中找到最相关的工具，从而减少prompt的长度，并提高LLM选择工具的效率和准确性。

技术框架：RAG-MCP框架主要包含以下几个阶段：1) 工具索引构建：将所有可用的工具描述（MCP）构建成一个可检索的索引，例如使用向量数据库。2) 查询编码：将用户查询编码成向量表示。3) 工具检索：使用查询向量在工具索引中进行语义检索，找到与查询最相关的K个工具描述。4) Prompt构建：将检索到的工具描述添加到prompt中，并将其输入到LLM中。5) 工具选择：LLM根据prompt中的工具描述选择合适的工具。

关键创新：RAG-MCP的关键创新在于将检索增强生成应用于LLM的工具选择任务。通过动态地选择工具描述，而不是静态地将所有工具描述都放入prompt中，有效地缓解了prompt膨胀问题，并提高了工具选择的准确性。与现有方法相比，RAG-MCP能够更好地处理大量的工具信息，并能够根据不同的查询选择不同的工具组合。

关键设计：RAG-MCP的关键设计包括：1) 语义检索方法：选择合适的语义检索方法（例如，基于Transformer的嵌入模型）来编码查询和工具描述，并计算它们之间的相似度。2) 检索数量K：确定合适的检索数量K，以平衡prompt长度和工具选择的准确性。3) Prompt模板：设计合适的prompt模板，以指导LLM选择工具。4) 索引构建策略：选择合适的索引构建策略，以提高检索效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RAG-MCP在减少prompt tokens和提高工具选择准确率方面表现出色。在基准测试任务中，RAG-MCP能够将prompt tokens减少超过50%，并将工具选择准确率从基线的13.62%提高到43.13%，提升幅度超过三倍。这些结果证明了RAG-MCP在缓解prompt膨胀和提高工具选择性能方面的有效性。

🎯 应用场景

RAG-MCP具有广泛的应用前景，可以应用于各种需要LLM与外部工具集成的场景，例如智能助手、自动化工作流程、代码生成和数据分析等。通过RAG-MCP，LLM可以更有效地利用大量的外部工具，从而提高任务完成的效率和质量。该研究有助于推动LLM在实际应用中的普及和发展。

📄 摘要（原文）

Large language models (LLMs) struggle to effectively utilize a growing number of external tools, such as those defined by the Model Context Protocol (MCP)\cite{IntroducingMCP}, due to prompt bloat and selection complexity. We introduce RAG-MCP, a Retrieval-Augmented Generation framework that overcomes this challenge by offloading tool discovery. RAG-MCP uses semantic retrieval to identify the most relevant MCP(s) for a given query from an external index before engaging the LLM. Only the selected tool descriptions are passed to the model, drastically reducing prompt size and simplifying decision-making. Experiments, including an MCP stress test, demonstrate RAG-MCP significantly cuts prompt tokens (e.g., by over 50%) and more than triples tool selection accuracy (43.13% vs 13.62% baseline) on benchmark tasks. RAG-MCP enables scalable and accurate tool integration for LLMs.

RAG-MCP: Mitigating Prompt Bloat in LLM Tool Selection via Retrieval-Augmented Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理