From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production
作者: Segev Shlomov, Alon Oved, Sami Marreed, Ido Levy, Offer Akrabi, Avi Yaeli, Łukasz Strąk, Elizabeth Koumpan, Yinon Goldshtein, Eilam Shapira, Nir Mashkif, Asaf Adi
分类: cs.AI
发布日期: 2025-10-27 (更新: 2025-12-09)
备注: AAAI Conference on Artificial Intelligence
🔗 代码/项目: GITHUB
💡 一句话要点
IBM提出CUGA通用Agent,并应用于企业BPO人才招聘领域,验证其业务价值。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 通用Agent 企业应用 业务流程自动化 分层架构 人才招聘
📋 核心要点
- 企业数字化转型面临Agent部署难题,现有框架分散且缺乏标准化评估,难以衡量业务价值。
- IBM提出CUGA通用Agent,采用分层规划器-执行器架构,旨在提升任务处理的灵活性和通用性。
- CUGA在BPO人才招聘领域试点,初步评估显示其准确性接近专用Agent,并有望降低开发成本。
📝 摘要(中文)
Agent正在快速发展,以实现数字工作的自动化,但企业面临着更严峻的挑战:从原型转向可交付可衡量业务价值的已部署系统。框架分散、开发缓慢以及缺乏标准化评估实践使这一过程变得复杂。通用Agent已成为一个有希望的方向,在学术基准测试中表现出色,并在任务类型、应用程序和模态方面提供了灵活性。然而,它们在生产企业环境中的使用证据仍然有限。本文报告了IBM开发和试点计算机使用通用Agent(CUGA)的经验,该Agent已开源(https://github.com/cuga-project/cuga-agent)。CUGA采用具有强大分析基础的分层规划器-执行器架构,在AppWorld和WebArena上实现了最先进的性能。除了基准测试之外,它还在业务流程外包人才招聘领域进行了试点评估,解决了企业对可扩展性、可审计性、安全性以及治理的要求。为了支持评估,我们引入了BPO-TA,这是一个包含13个分析端点的26任务基准。在初步评估中,CUGA接近了专用Agent的准确性,同时表明了减少开发时间和成本的潜力。我们的贡献是双重的:展示了通用Agent在企业规模上运行的早期证据,并从最初的试点中提炼出技术和组织经验。我们概述了将CUGA等研究级架构推进到稳健的、企业就绪的系统的要求和后续步骤。
🔬 方法详解
问题定义:论文旨在解决企业在实际生产环境中部署通用Agent所面临的挑战。现有方法通常依赖于针对特定任务定制的Agent,缺乏通用性和可扩展性,导致开发成本高昂且难以适应新的业务需求。此外,缺乏标准化的评估方法也使得企业难以衡量Agent的实际业务价值。
核心思路:论文的核心思路是采用一种分层规划器-执行器架构的通用Agent(CUGA),使其能够处理各种不同的任务,并具备良好的可扩展性和可审计性。通过在实际的业务场景中进行试点,验证CUGA在企业环境中的可行性和有效性。
技术框架:CUGA采用分层架构,主要包含规划器和执行器两个模块。规划器负责接收用户指令,将其分解为一系列可执行的子任务,并确定执行顺序。执行器则负责执行这些子任务,并与外部环境进行交互。该架构还包括一个知识库,用于存储任务相关的知识和信息。
关键创新:CUGA的关键创新在于其通用性,它能够处理多种不同类型的任务,而无需针对每个任务进行定制。这得益于其分层架构和强大的规划能力,使其能够灵活地适应不同的业务场景。此外,论文还提出了BPO-TA基准,用于评估Agent在业务流程外包人才招聘领域的性能。
关键设计:CUGA的具体技术细节并未在摘要中详细描述,但可以推断其规划器可能采用了某种形式的搜索算法或强化学习方法,以优化任务执行顺序。执行器则可能依赖于自然语言处理和计算机视觉等技术,以理解用户指令并与外部环境进行交互。损失函数和网络结构等细节未知。
🖼️ 关键图片
📊 实验亮点
CUGA在BPO-TA基准测试中表现出色,初步评估结果显示其准确性接近于专门为该领域设计的Agent。此外,研究表明CUGA具有降低开发时间和成本的潜力,这对于企业来说具有重要的实际意义。这些结果表明通用Agent在企业环境中具有良好的应用前景。
🎯 应用场景
该研究成果可应用于企业数字化转型,尤其是在业务流程自动化领域。CUGA通用Agent能够处理各种不同的任务,降低开发成本,提高效率。在人才招聘领域,CUGA可以辅助招聘人员进行简历筛选、面试安排等工作,提升招聘效率和质量。未来,该技术有望扩展到更多领域,如客户服务、财务管理等。
📄 摘要(原文)
Agents are rapidly advancing in automating digital work, but enterprises face a harder challenge: moving beyond prototypes to deployed systems that deliver measurable business value. This path is complicated by fragmented frameworks, slow development, and the absence of standardized evaluation practices. Generalist agents have emerged as a promising direction, excelling on academic benchmarks and offering flexibility across task types, applications, and modalities. Yet, evidence of their use in production enterprise settings remains limited. This paper reports IBM's experience developing and piloting the Computer Using Generalist Agent (CUGA), which has been open-sourced for the community (https://github.com/cuga-project/cuga-agent). CUGA adopts a hierarchical planner--executor architecture with strong analytical foundations, achieving state-of-the-art performance on AppWorld and WebArena. Beyond benchmarks, it was evaluated in a pilot within the Business-Process-Outsourcing talent acquisition domain, addressing enterprise requirements for scalability, auditability, safety, and governance. To support assessment, we introduce BPO-TA, a 26-task benchmark spanning 13 analytics endpoints. In preliminary evaluations, CUGA approached the accuracy of specialized agents while indicating potential for reducing development time and cost. Our contribution is twofold: presenting early evidence of generalist agents operating at enterprise scale, and distilling technical and organizational lessons from this initial pilot. We outline requirements and next steps for advancing research-grade architectures like CUGA into robust, enterprise-ready systems.