SAGE: A Service Agent Graph-guided Evaluation Benchmark
作者: Ling Shi, Yuqin Dai, Ziyin Wang, Ning Gao, Wei Zhang, Chaozheng Wang, Yujie Wang, Wei He, Jinpeng Wang, Deiyi Xiong
分类: cs.AI
发布日期: 2026-04-10
💡 一句话要点
提出SAGE:一个服务代理图引导的评估基准,用于评估LLM在客服场景中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 客服系统 评估基准 动态对话图 标准操作程序 对抗意图 多智能体 执行差距
📋 核心要点
- 现有客服LLM评估基准依赖静态范式和单一指标,无法模拟真实场景中复杂的用户行为和严格的SOP流程。
- SAGE通过将非结构化SOP转化为动态对话图,实现对LLM逻辑合规性和路径覆盖的精确验证。
- 实验表明,LLM在客服场景中存在“执行差距”和“共情弹性”问题,即逻辑错误下仍保持礼貌的对话。
- SAGE引入对抗意图分类法和模块化扩展机制,从而能够在各个领域进行低成本部署,并促进自动对话数据合成。
📝 摘要(中文)
大型语言模型(LLMs)的发展推动了客户服务自动化,但评估其性能仍然具有挑战性。现有的基准主要依赖于静态范式和单一维度指标,无法解释多样化的用户行为或严格遵守现实部署中所需的结构化标准操作程序(SOP)。为了弥合这一差距,我们提出了SAGE(服务代理图引导评估),这是一个用于自动化双轴评估的通用多代理基准。SAGE将非结构化SOP形式化为动态对话图,从而能够精确验证逻辑合规性和全面路径覆盖。我们引入了对抗意图分类法和模块化扩展机制,从而能够在各个领域进行低成本部署,并促进自动对话数据合成。通过一个框架进行评估,其中Judge Agents和Rule Engine分析User和Service Agents之间的交互,以生成确定性的ground truth。对6个工业场景中27个LLM的广泛实验揭示了一个显著的“执行差距”,即模型准确地对意图进行分类,但未能得出正确的后续行动。我们还观察到“共情弹性”现象,即模型在高对抗强度下保持礼貌的对话外表,尽管存在潜在的逻辑失败。
🔬 方法详解
问题定义:现有客服LLM评估方法无法有效模拟真实场景,缺乏对复杂用户行为和结构化SOP流程的考量。这导致评估结果与实际应用效果存在偏差,难以准确衡量LLM在客服场景中的能力。现有方法主要依赖静态数据集和单一指标,无法捕捉对话的动态性和逻辑性。
核心思路:SAGE的核心思路是将非结构化的标准操作程序(SOP)形式化为动态对话图。通过这种方式,可以精确地验证LLM在对话过程中是否遵循了预定的逻辑流程,并全面覆盖所有可能的对话路径。这种方法能够更真实地模拟实际客服场景,从而更准确地评估LLM的性能。
技术框架:SAGE包含以下主要模块:1) 动态对话图构建模块:将非结构化SOP转化为动态对话图,每个节点代表一个对话状态,边代表状态之间的转移。2) 用户代理(User Agent):模拟不同的用户行为和意图,与服务代理进行对话。3) 服务代理(Service Agent):待评估的LLM,负责根据用户输入和对话图进行回复。4) 裁判代理(Judge Agent)和规则引擎(Rule Engine):分析用户代理和服务代理之间的交互,生成确定性的ground truth,评估服务代理的性能。5) 对抗意图分类法和模块化扩展机制:用于生成对抗样本和扩展到新的领域。
关键创新:SAGE最重要的技术创新点在于将非结构化的SOP形式化为动态对话图。与现有方法相比,SAGE能够更精确地验证LLM在对话过程中的逻辑合规性和路径覆盖,从而更真实地模拟实际客服场景。此外,SAGE还引入了对抗意图分类法和模块化扩展机制,使得该基准能够更容易地应用于不同的领域和场景。
关键设计:SAGE的关键设计包括:1) 动态对话图的构建方法:如何将非结构化的SOP转化为动态对话图,包括节点和边的定义,以及状态转移的规则。2) 用户代理的行为模型:如何模拟不同的用户行为和意图,包括用户输入的生成方式和对话策略。3) 裁判代理和规则引擎的评估指标:如何定义评估指标,以衡量服务代理在逻辑合规性、路径覆盖和对话质量等方面的性能。4) 对抗意图分类法的实现:如何生成对抗样本,以测试服务代理的鲁棒性。
🖼️ 关键图片
📊 实验亮点
在6个工业场景中对27个LLM的广泛实验表明,LLM在客服场景中存在显著的“执行差距”,即模型准确地对意图进行分类,但未能得出正确的后续行动。此外,还观察到“共情弹性”现象,即模型在高对抗强度下保持礼貌的对话外表,尽管存在潜在的逻辑失败。这些发现表明,现有LLM在客服场景中的性能仍有很大的提升空间。
🎯 应用场景
SAGE可应用于评估和优化各种基于LLM的客服系统,例如智能客服机器人、虚拟助手等。通过SAGE的评估,可以发现LLM在客服场景中的不足,并针对性地进行改进,从而提高客服系统的效率和用户满意度。此外,SAGE还可以用于训练和微调LLM,使其更好地适应客服场景。
📄 摘要(原文)
The development of Large Language Models (LLMs) has catalyzed automation in customer service, yet benchmarking their performance remains challenging. Existing benchmarks predominantly rely on static paradigms and single-dimensional metrics, failing to account for diverse user behaviors or the strict adherence to structured Standard Operating Procedures (SOPs) required in real-world deployments. To bridge this gap, we propose SAGE (Service Agent Graph-guided Evaluation), a universal multi-agent benchmark for automated, dual-axis assessment. SAGE formalizes unstructured SOPs into Dynamic Dialogue Graphs, enabling precise verification of logical compliance and comprehensive path coverage. We introduce an Adversarial Intent Taxonomy and a modular Extension Mechanism, enabling low-cost deployment across domains and facilitating automated dialogue data synthesis. Evaluation is conducted via a framework where Judge Agents and a Rule Engine analyze interactions between User and Service Agents to generate deterministic ground truth. Extensive experiments on 27 LLMs across 6 industrial scenarios reveal a significant
Execution Gap'' where models accurately classify intents but fail to derive correct subsequent actions. We also observeEmpathy Resilience'', a phenomenon where models maintain polite conversational facades despite underlying logical failures under high adversarial intensity. Code and resources are available at https://anonymous.4open.science/r/SAGE-Bench-4CD3/.