Magentic-UI: Towards Human-in-the-loop Agentic Systems

📄 arXiv: 2507.22358v1 📥 PDF

作者: Hussein Mozannar, Gagan Bansal, Cheng Tan, Adam Fourney, Victor Dibia, Jingya Chen, Jack Gerrits, Tyler Payne, Matheus Kunzler Maldaner, Madeleine Grunde-McLaughlin, Eric Zhu, Griffin Bassman, Jacob Alber, Peter Chang, Ricky Loynd, Friederike Niedtner, Ece Kamar, Maya Murad, Rafah Hosn, Saleema Amershi

分类: cs.AI, cs.HC

发布日期: 2025-07-30


💡 一句话要点

Magentic-UI:面向人机协作Agentic系统的开源Web界面

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机协作 Agentic系统 大型语言模型 开源界面 多Agent架构 模型上下文协议 安全评估

📋 核心要点

  1. 现有AI Agent在复杂任务中表现不足,且自主性增强带来安全风险,需要有效的人机协作机制。
  2. Magentic-UI通过灵活的多Agent架构和六种交互机制,实现人对Agent的监督和控制,提升安全性和效率。
  3. 实验结果表明,Magentic-UI在自主任务完成、用户交互和安全性方面具有潜力,能够促进人机协作。

📝 摘要(中文)

基于大型语言模型的AI Agent在自主完成复杂、多步骤任务方面的能力日益增强,但其在计算机使用、软件开发和研究等领域仍未达到人类水平。日益增长的自主性和与外部世界交互的能力也带来了安全风险。本文提出人机协作的Agentic系统是一种有前景的解决方案,它结合了人类的监督和控制以及AI的效率。为此,本文介绍Magentic-UI,一个用于开发和研究人机交互的开源Web界面。Magentic-UI基于灵活的多Agent架构,支持Web浏览、代码执行和文件操作,并可通过模型上下文协议(MCP)扩展各种工具。此外,Magentic-UI提供了六种交互机制,以实现有效且低成本的人工参与:协同规划、协同任务、多任务处理、动作守卫和长期记忆。通过在Agentic基准测试上的自主任务完成、交互能力的模拟用户测试、真实用户的定性研究以及有针对性的安全评估,验证了Magentic-UI在促进安全高效的人机协作方面的潜力。

🔬 方法详解

问题定义:现有基于大型语言模型的AI Agent虽然在自主完成复杂任务方面取得了进展,但在计算机使用、软件开发和研究等领域仍然无法达到人类水平。此外,Agent的自主性和与外部世界交互的能力也带来了潜在的安全风险,例如行为不端和对抗性操纵。因此,如何设计安全、高效的人机协作Agentic系统是一个关键问题。

核心思路:本文的核心思路是构建一个允许人类以低成本、多种方式参与到Agent任务执行过程中的交互界面。通过人类的监督和控制,可以纠正Agent的错误,防止潜在的安全风险,并提升Agent的整体性能。这种人机协作的方式旨在结合人类的智慧和AI的效率,从而实现更高的生产力。

技术框架:Magentic-UI是一个基于Web的开源界面,用于开发和研究人机交互。其核心是一个灵活的多Agent架构,允许Agent之间进行通信和协作。Magentic-UI支持Web浏览、代码执行和文件操作等基本功能,并且可以通过模型上下文协议(MCP)扩展各种工具。此外,Magentic-UI还提供了六种交互机制,包括协同规划、协同任务、多任务处理、动作守卫和长期记忆,以支持不同程度的人工参与。

关键创新:Magentic-UI的关键创新在于其提供了一套完整的、可扩展的平台,用于研究和开发人机协作的Agentic系统。与以往的研究相比,Magentic-UI不仅关注Agent的自主能力,更强调人类在Agent任务执行过程中的作用。通过提供多种交互机制,Magentic-UI允许研究人员探索不同的人机协作模式,并评估其对Agent性能和安全性的影响。

关键设计:Magentic-UI的关键设计包括:1) 灵活的多Agent架构,允许Agent之间进行通信和协作;2) 模型上下文协议(MCP),用于扩展各种工具;3) 六种交互机制,包括协同规划、协同任务、多任务处理、动作守卫和长期记忆,以支持不同程度的人工参与。具体的参数设置、损失函数和网络结构等技术细节取决于所使用的Agent模型和工具。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Magentic-UI在Agentic基准测试中表现出良好的自主任务完成能力。模拟用户测试表明,其交互机制能够有效支持人机协作。真实用户的定性研究也验证了Magentic-UI的可用性和有效性。此外,安全评估表明,Magentic-UI能够有效降低Agent的潜在安全风险。具体性能数据未知,但整体结果表明Magentic-UI具有促进安全高效人机协作的潜力。

🎯 应用场景

Magentic-UI可应用于多个领域,例如软件开发、研究辅助、客户服务等。通过人机协作,可以提高工作效率,降低错误率,并增强系统的安全性。未来,Magentic-UI有望成为开发和研究人机协作Agentic系统的标准平台,推动AI技术在各行各业的广泛应用。

📄 摘要(原文)

AI agents powered by large language models are increasingly capable of autonomously completing complex, multi-step tasks using external tools. Yet, they still fall short of human-level performance in most domains including computer use, software development, and research. Their growing autonomy and ability to interact with the outside world, also introduces safety and security risks including potentially misaligned actions and adversarial manipulation. We argue that human-in-the-loop agentic systems offer a promising path forward, combining human oversight and control with AI efficiency to unlock productivity from imperfect systems. We introduce Magentic-UI, an open-source web interface for developing and studying human-agent interaction. Built on a flexible multi-agent architecture, Magentic-UI supports web browsing, code execution, and file manipulation, and can be extended with diverse tools via Model Context Protocol (MCP). Moreover, Magentic-UI presents six interaction mechanisms for enabling effective, low-cost human involvement: co-planning, co-tasking, multi-tasking, action guards, and long-term memory. We evaluate Magentic-UI across four dimensions: autonomous task completion on agentic benchmarks, simulated user testing of its interaction capabilities, qualitative studies with real users, and targeted safety assessments. Our findings highlight Magentic-UI's potential to advance safe and efficient human-agent collaboration.