MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

作者: Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen

分类: cs.AI

发布日期: 2026-06-01

备注: ICML 2026 Camera Ready

🔗 代码/项目: GITHUB

💡 一句话要点

MCP-Persona：通过环境模拟评估LLM Agent在真实个人应用中的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 基准测试 环境模拟 个性化应用 工具使用 社交媒体 企业协作

📋 核心要点

现有基准测试主要关注通用信息检索，忽略了个人社交应用中Agent与个性化数据交互的挑战。
MCP-Persona基准旨在评估LLM Agent在真实、个性化的MCP工具上的性能，涵盖社交媒体和企业协作等多种应用。
实验表明，SOTA Agent在个性化工具使用方面表现不佳，凸显了MCP-Persona在发现和解决这些问题上的重要性。

📝 摘要（中文）

模型上下文协议（MCP）已成为连接大型语言模型（LLMs）与外部数据源和工具的变革性标准，并在个人应用和开发平台中得到迅速采用。然而，现有的基准测试主要集中在通用信息检索工具上，未能捕捉到个人社交应用带来的实际挑战，在这些应用中，工具与个人账户或本地数据库交互。为了弥合这一关键差距，我们推出了MCP-Persona，这是第一个专门为评估Agent在真实、个性化的MCP工具上的性能而设计的基准。MCP-Persona包含了一系列广泛使用的应用程序，从Reddit和Xiaohongshu（Rednote）等社交媒体平台到Lark（Feishu）和Slack等企业协作套件。我们对各种最先进（SOTA）Agent进行了广泛的实验，结果表明它们在个性化工具使用方面存在显著困难，从而突出了该基准在识别和解决这些局限性方面的关键作用。MCP-Persona已在https://github.com/wwh0411/MCP-Persona上公开发布。

🔬 方法详解

问题定义：现有的大语言模型Agent基准测试主要集中在通用信息检索任务上，缺乏对个人社交应用场景的评估。在这些场景中，Agent需要与用户的个人账户和本地数据库进行交互，例如在社交媒体上发布内容、在企业协作平台中查找信息等。现有方法难以处理这种个性化的工具使用，导致Agent在实际应用中表现不佳。

核心思路：MCP-Persona的核心思路是构建一个模拟真实个人应用环境的基准测试，其中包含各种常用的社交媒体和企业协作平台。通过提供个性化的MCP工具，Agent可以在这些环境中执行各种任务，从而评估其在真实场景下的性能。这种方法能够更全面地评估Agent的工具使用能力，并发现其在个性化数据处理方面的不足。

技术框架：MCP-Persona基准测试包含以下主要模块：1) 环境模拟器：模拟各种社交媒体和企业协作平台，提供API接口供Agent调用。2) MCP工具：提供个性化的工具，例如发布帖子、搜索信息、发送消息等。3) 任务定义：定义一系列需要在模拟环境中完成的任务，例如“在Reddit上发布一篇关于AI的帖子”、“在Slack中查找关于项目进展的信息”。4) 评估指标：评估Agent完成任务的成功率、效率和准确性。

关键创新：MCP-Persona的关键创新在于其专注于评估Agent在真实、个性化的MCP工具上的性能。与现有基准测试相比，MCP-Persona更贴近实际应用场景，能够更全面地评估Agent的工具使用能力。此外，MCP-Persona还提供了一系列常用的社交媒体和企业协作平台，方便研究人员进行实验和比较。

关键设计：MCP-Persona的关键设计包括：1) 环境模拟器的真实性：尽可能模拟真实平台的API接口和用户界面，以确保Agent在模拟环境中的行为与在真实环境中相似。2) MCP工具的个性化：提供个性化的工具，例如使用用户的个人账户发布帖子、搜索信息等。3) 任务的多样性：定义一系列多样化的任务，以全面评估Agent的工具使用能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的SOTA Agent在MCP-Persona基准测试中表现不佳，尤其是在需要与个性化数据交互的任务中。例如，在Reddit上发布帖子的成功率仅为XX%，在Slack中查找信息的准确率仅为YY%。这些结果表明，现有Agent在处理个性化工具使用方面存在显著的局限性，需要进一步的研究和改进。

🎯 应用场景

MCP-Persona的研究成果可以应用于开发更智能、更个性化的LLM Agent，这些Agent能够在各种个人应用场景中提供更好的服务。例如，可以用于开发智能社交媒体助手，帮助用户自动发布内容、回复评论等；也可以用于开发智能企业协作助手，帮助用户查找信息、安排会议等。此外，MCP-Persona还可以用于评估和比较不同LLM Agent的性能，从而推动Agent技术的发展。

📄 摘要（原文）

The Model Context Protocol (MCP) has emerged as a transformative standard for connecting large language models (LLMs) with external data sources and tools, and has been rapidly adopted across personal applications and development platforms. However, existing benchmarks predominantly focus on generic information-seeking tools and fail to capture the practical challenges posed by personal social applications, where tools interact with individual accounts or local databases. To bridge this critical gap, we introduce MCP-Persona, the first benchmark specifically designed for evaluating agent performance on real-world, personalized MCP tools. MCP-Persona encompasses a diverse set of widely-used applications, ranging from social media platforms like Reddit and Xiaohongshu (Rednote) to enterprise collaboration suites such as Lark (Feishu) and Slack. Our extensive experiments on various state-of-the-art (SOTA) agents demonstrate their significant struggles with personalized tool use, thereby highlighting the benchmark's crucial role in identifying and addressing these limitations. MCP-Persona is publicly available at https://github.com/wwh0411/MCP-Persona}{https://github.com/wwh0411/MCP-Persona.

MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理