Code2MCP: Transforming Code Repositories into MCP Services

📄 arXiv: 2509.05941v3 📥 PDF

作者: Chaoqian Ouyang, Ling Yue, Shimin Di, Libin Zheng, Linan Yue, Shaowu Pan, Jian Yin, Min-Ling Zhang

分类: cs.SE, cs.LG, cs.MA

发布日期: 2025-09-07 (更新: 2026-01-17)

🔗 代码/项目: GITHUB


💡 一句话要点

Code2MCP:将代码仓库转化为模型上下文协议(MCP)服务,促进工具集成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型上下文协议 MCP服务 代码转换 自动化 多智能体系统

📋 核心要点

  1. 现有方法主要关注从现有工具池中选择工具,忽略了如何将海量代码仓库转化为可用的MCP服务这一关键问题。
  2. Code2MCP采用多代理框架,自动化地将GitHub仓库转换为MCP服务,降低了人工干预的需求,提升了效率。
  3. 实验证明,Code2MCP能够成功转换生物信息学、数学、流体动力学等领域的开源库,扩展了MCP生态系统的能力。

📝 摘要(中文)

模型上下文协议(MCP)旨在为大型语言模型使用工具创建标准。然而,当前研究主要集中于从现有池中选择工具。一个更根本但被忽视的问题是如何通过将大量现有软件项目转换为MCP兼容的服务来填充这个池。为了弥合这一差距,我们提出了Code2MCP,一个基于代理的框架,可以自动将GitHub仓库转换为功能性MCP服务,且只需最少的人工干预。Code2MCP采用多代理工作流程进行代码分析、环境设置、工具函数设计和服务生成,并通过自纠正循环来确保可靠性。我们证明Code2MCP成功转换了科学领域(如生物信息学、数学和流体动力学)中现有的MCP服务器无法提供的开源计算库。通过提供一种新颖的自动化途径来解锁GitHub(世界上最大的代码仓库),从而服务于MCP生态系统,Code2MCP可以显著加速该协议的采用和实际应用。

🔬 方法详解

问题定义:现有的大语言模型工具使用标准MCP主要关注工具的选择,而忽略了如何将现有的代码仓库转化为可用的MCP服务。手动转换代码仓库成本高昂且效率低下,阻碍了MCP生态系统的扩展。因此,需要一种自动化的方法,将GitHub等代码仓库转化为可用的MCP服务。

核心思路:Code2MCP的核心思路是利用多智能体系统,模拟软件工程师的工作流程,自动化地完成代码分析、环境配置、工具函数设计和服务生成等步骤。通过自纠正循环,确保转换过程的可靠性和准确性。

技术框架:Code2MCP包含以下主要模块:1) 代码分析代理:分析代码仓库的结构和依赖关系。2) 环境设置代理:自动配置运行代码所需的软件环境。3) 工具函数设计代理:根据代码功能设计MCP兼容的工具函数。4) 服务生成代理:将工具函数封装成可用的MCP服务。整个流程通过一个自纠正循环进行迭代优化,确保最终生成的服务质量。

关键创新:Code2MCP的关键创新在于其自动化程度和多智能体协作。它无需人工干预即可将代码仓库转化为MCP服务,显著降低了成本和时间。多智能体之间的协作和自纠正循环保证了转换的可靠性和准确性。与现有方法相比,Code2MCP提供了一种更高效、更可扩展的解决方案。

关键设计:Code2MCP的具体技术细节包括:代码分析代理使用静态分析和动态分析相结合的方法,提取代码的关键信息。环境设置代理使用Docker等容器化技术,确保环境的一致性。工具函数设计代理使用自然语言处理技术,理解代码的功能并生成相应的函数描述。自纠正循环使用强化学习技术,根据服务的使用反馈不断优化转换策略。具体的参数设置和损失函数等细节未在论文中详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Code2MCP成功地将生物信息学、数学和流体动力学等领域的开源计算库转换为MCP服务,这些库在现有的MCP服务器中不可用。这表明Code2MCP能够有效地扩展MCP生态系统的能力,并为大语言模型提供更多的工具选择。具体的性能数据和对比基线未在摘要中详细给出,但论文强调了其自动化和可靠性。

🎯 应用场景

Code2MCP具有广泛的应用前景,可用于自动化地将各种软件项目转化为MCP服务,从而丰富大语言模型的工具生态系统。这可以促进大语言模型在科学计算、数据分析、软件开发等领域的应用,并加速MCP协议的普及和应用。未来,Code2MCP可以进一步扩展到支持更多的编程语言和代码仓库,并集成更多的自动化工具。

📄 摘要(原文)

The Model Context Protocol (MCP) aims to create a standard for how Large Language Models use tools. However, most current research focuses on selecting tools from an existing pool. A more fundamental, yet largely overlooked, problem is how to populate this pool by converting the vast number of existing software projects into MCP-compatible services. To bridge this gap, we introduce Code2MCP, an agent-based framework that automatically transforms a GitHub repository into a functional MCP service with minimal human intervention. Code2MCP employs a multi-agent workflow for code analysis, environment setup, tool function design, and service generation, enhanced by a self-correcting loop to ensure reliability. We demonstrate that Code2MCP successfully transforms open-source computing libraries in scientific fields such as bioinformatics, mathematics, and fluid dynamics that are not available in existing MCP servers. By providing a novel automated pathway to unlock GitHub, the world's largest code repository, for the MCP ecosystem, Code2MCP serves as a catalyst to significantly accelerate the protocol's adoption and practical application. The code is public at https://github.com/DEFENSE-SEU/Code2MCP.