CirrusBench: Evaluating LLM-based Agents Beyond Correctness in Real-World Cloud Service Environments
作者: Yi Yu, Guangquan Hu, Chenghuang Shen, Xingyan Liu, Jing Gu, Hangyi Sun, Junzhuo Ma, Weiting Liu, Jianfeng Liu, Mingyue Pu, Yu Wang, Zhengdong Xiao, Rui Xie, Longjiu Luo, Qianrong Wang, Gurong Cui, Honglin Qiao, Wenlian Lu
分类: cs.LG, cs.AI, cs.IR, cs.PF
发布日期: 2026-03-30
备注: Submitted for SIGKDD 2026
💡 一句话要点
CirrusBench:在真实云服务环境中评估LLM智能体,超越正确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM智能体 云服务 基准测试 真实数据 客户服务 解决效率 多轮交互
📋 核心要点
- 现有LLM智能体评测benchmark依赖合成数据,无法捕捉真实云服务场景的复杂性和不可预测性,忽略了解决效率。
- CirrusBench基于真实云服务工单数据,保留多轮逻辑链和工具依赖,更贴近实际应用。
- 引入以客户为中心的指标,如归一化效率指数和多轮延迟,量化服务质量和解决效率。
📝 摘要(中文)
大型语言模型(LLM)日益增强的智能体能力使其能够部署在真实的云服务等应用中。在这些场景下,客户助理交互展现出高度的技术复杂性和长期的依赖关系,使得鲁棒性和解决效率对于客户满意度至关重要。然而,现有的LLM智能体基准测试主要依赖于合成环境,无法捕捉真实客户输入的多样性和不可预测性,并且常常忽略了实际部署至关重要的解决效率。为了弥合这一差距,我们推出了CirrusBench,这是一个新颖的评估框架,其特点是基于来自真实云服务工单的真实数据。CirrusBench保留了技术服务环境中固有的复杂多轮逻辑链和真实的工具依赖关系。除了执行正确性之外,我们还引入了以客户为中心的新型指标来定义智能体的成功,通过诸如归一化效率指数和多轮延迟等指标来量化服务质量,从而明确地衡量解决效率。利用我们的框架进行的实验表明,尽管最先进的模型表现出强大的推理能力,但它们在复杂的、真实的多轮任务中经常遇到困难,并且未能满足客户服务所需的高效率标准,这突出了LLM智能体在实际技术服务应用中未来发展的关键方向。CirrusBench评估框架已在https://github.com/CirrusAI发布。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)智能体评估基准主要使用合成数据,这与真实世界的云服务环境存在显著差异。真实环境中,客户问题复杂,需要多轮交互和工具调用,并且对解决效率有很高要求。现有方法无法有效评估LLM智能体在真实场景下的性能,尤其是在效率方面。
核心思路:CirrusBench的核心思路是构建一个基于真实云服务工单数据的评估框架,以此来模拟真实客户服务场景。通过保留工单中的多轮逻辑链和工具依赖关系,能够更准确地评估LLM智能体在解决复杂问题时的能力。同时,引入以客户为中心的指标,关注解决效率,从而更全面地衡量智能体的性能。
技术框架:CirrusBench框架主要包含以下几个部分:1)真实云服务工单数据集的收集和整理;2)构建模拟真实客户服务环境的接口;3)定义以客户为中心的评估指标,包括归一化效率指数和多轮延迟;4)提供标准化的评估流程,方便不同LLM智能体进行比较。该框架允许研究人员在更贴近实际的场景中评估LLM智能体的性能。
关键创新:CirrusBench的关键创新在于其数据来源的真实性和评估指标的客户中心性。与以往使用合成数据的基准测试不同,CirrusBench使用真实云服务工单,能够更好地反映实际应用中的挑战。此外,引入的归一化效率指数和多轮延迟等指标,能够更全面地评估LLM智能体的解决效率和服务质量,而不仅仅是关注正确性。
关键设计:CirrusBench的关键设计包括:1)工单数据的预处理和清洗,确保数据的质量和可用性;2)模拟客户服务环境的接口设计,需要支持多轮交互和工具调用;3)评估指标的定义和计算方法,需要能够准确反映解决效率和服务质量;4)评估流程的标准化,确保不同LLM智能体可以在相同条件下进行比较。
🖼️ 关键图片
📊 实验亮点
实验结果表明,尽管最先进的LLM模型在推理能力方面表现出色,但在复杂的真实多轮任务中表现不佳,未能达到客户服务所需的高效率标准。这突显了当前LLM智能体在实际应用中面临的挑战,并为未来的研究方向提供了重要启示,即需要更加关注解决效率和服务质量。
🎯 应用场景
CirrusBench可用于评估和优化LLM智能体在云服务、技术支持、客户服务等领域的应用。通过该基准测试,可以推动LLM智能体在解决复杂技术问题、提高服务效率和客户满意度方面的能力提升。未来,该研究可以扩展到其他领域,如金融、医疗等,为各行业提供更智能、高效的客户服务。
📄 摘要(原文)
The increasing agentic capabilities of Large Language Models (LLMs) have enabled their deployment in real-world applications, such as cloud services, where customer-assistant interactions exhibit high technical complexity and long-horizon dependencies, making robustness and resolution efficiency critical for customer satisfaction. However, existing benchmarks for LLM-based agents largely rely on synthetic environments that fail to capture the diversity and unpredictability of authentic customer inputs, often ignoring the resolution efficiency essential for real-world deployment. To bridge this gap, we introduce CirrusBench, a novel evaluation framework distinguished by its foundation in real-world data from authentic cloud service tickets. CirrusBench preserves the intricate multi-turn logical chains and realistic tool dependencies inherent to technical service environments. Moving beyond execution correctness, we introduce novel Customer-Centric metrics to define agent success, quantifying service quality through metrics such as the Normalized Efficiency Index and Multi-Turn Latency to explicitly measure resolution efficiency. Experiments utilizing our framework reveal that while state-of-the-art models demonstrate strong reasoning capabilities, they frequently struggle in complex, realistic multi-turn tasks and fail to meet the high-efficiency standards required for customer service, highlighting critical directions for the future development of LLM-based agents in practical technical service applications. CirrusBench evaluation framework is released at: https://github.com/CirrusAI