Beyond IVR: Benchmarking Customer Support LLM Agents for Business-Adherence
作者: Sumanth Balaji, Piyush Mishra, Aashraya Sachdeva, Suraj Agrawal
分类: cs.CL
发布日期: 2026-01-02
备注: 17 pages, 3 figures, preprint
💡 一句话要点
JourneyBench:面向业务合规性的客户支持LLM智能体评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 客户支持 LLM智能体 策略遵守 评测基准 用户旅程覆盖率 动态提示 业务合规性
📋 核心要点
- 现有客户支持系统缺乏灵活性,难以处理复杂的策略驱动任务,而评估LLM智能体在业务规则遵循方面的能力仍是挑战。
- 论文提出JourneyBench基准,利用图表示生成真实支持场景,并设计用户旅程覆盖率得分来衡量策略遵守情况。
- 实验表明,动态提示智能体(DPA)能显著提升策略遵守情况,甚至使小型模型超越大型模型,验证了结构化编排的重要性。
📝 摘要(中文)
传统的客户支持系统,如交互式语音应答(IVR),依赖于僵化的脚本,缺乏处理复杂、策略驱动型任务所需的灵活性。大型语言模型(LLM)智能体提供了一个有希望的替代方案,但评估它们在符合业务规则和真实世界支持工作流程方面的能力仍然是一个开放的挑战。现有的基准主要关注工具使用或任务完成,忽略了智能体遵守多步骤策略、处理任务依赖关系以及对不可预测的用户或环境行为保持鲁棒性的能力。本文提出了JourneyBench,一个旨在评估客户支持中策略感知智能体的基准。JourneyBench利用图表示来生成多样化、现实的支持场景,并提出了用户旅程覆盖率得分,一种衡量策略遵守情况的新指标。我们使用两种智能体设计评估了多个最先进的LLM:静态提示智能体(SPA)和动态提示智能体(DPA),后者显式地模拟了策略控制。在三个领域的703次对话中,我们表明DPA显著提高了策略遵守情况,甚至允许像GPT-4o-mini这样的小型模型胜过像GPT-4o这样更强大的模型。我们的研究结果表明了结构化编排的重要性,并将JourneyBench确立为推动人工智能驱动的客户支持超越IVR时代局限的关键资源。
🔬 方法详解
问题定义:现有客户支持系统(如IVR)依赖固定脚本,无法灵活应对复杂、策略驱动的任务。评估LLM智能体在客户支持场景中遵循业务规则和工作流程的能力是一个关键问题,而现有基准测试主要关注工具使用和任务完成,忽略了策略遵守、任务依赖和鲁棒性等重要方面。
核心思路:论文的核心思路是构建一个更贴近真实客户支持场景的评测基准,并设计一种能够显式建模策略控制的智能体架构。通过图表示生成多样化的支持场景,并使用用户旅程覆盖率得分来量化策略遵守情况,从而更全面地评估LLM智能体在客户支持中的表现。
技术框架:JourneyBench基准的核心是使用图表示来模拟客户支持场景。图中节点代表不同的状态或步骤,边代表状态之间的转换。基于此图,可以生成多样化的对话场景。同时,论文提出了两种智能体架构:静态提示智能体(SPA)和动态提示智能体(DPA)。DPA通过显式地建模策略控制,能够更好地遵循业务规则。
关键创新:论文的关键创新在于JourneyBench基准本身,它更全面地考虑了客户支持场景中的策略遵守、任务依赖和鲁棒性等因素。此外,DPA架构通过显式地建模策略控制,能够显著提高策略遵守情况,这与传统的基于静态提示的智能体有本质区别。
关键设计:JourneyBench使用图结构来表示客户支持流程,图中的节点代表不同的状态,边代表状态之间的转移。用户旅程覆盖率得分(User Journey Coverage Score)是衡量策略遵守情况的关键指标,它反映了智能体在对话过程中覆盖到的策略路径的完整程度。DPA的关键设计在于其动态提示机制,它根据当前状态和策略规则动态生成提示,从而引导智能体更好地遵循业务规则。
🖼️ 关键图片
📊 实验亮点
实验结果表明,动态提示智能体(DPA)在策略遵守方面显著优于静态提示智能体(SPA)。在三个领域的703次对话中,DPA不仅提高了策略遵守率,还使得较小的模型(如GPT-4o-mini)能够超越更大的模型(如GPT-4o)。这表明结构化编排对于提升LLM智能体在复杂任务中的性能至关重要。
🎯 应用场景
该研究成果可应用于构建更智能、更高效的客户支持系统。通过JourneyBench基准,可以更好地评估和优化LLM智能体在客户服务领域的应用,提升客户满意度,降低运营成本。未来,该研究可以扩展到其他需要策略驱动的对话场景,如金融咨询、医疗问诊等。
📄 摘要(原文)
Traditional customer support systems, such as Interactive Voice Response (IVR), rely on rigid scripts and lack the flexibility required for handling complex, policy-driven tasks. While large language model (LLM) agents offer a promising alternative, evaluating their ability to act in accordance with business rules and real-world support workflows remains an open challenge. Existing benchmarks primarily focus on tool usage or task completion, overlooking an agent's capacity to adhere to multi-step policies, navigate task dependencies, and remain robust to unpredictable user or environment behavior. In this work, we introduce JourneyBench, a benchmark designed to assess policy-aware agents in customer support. JourneyBench leverages graph representations to generate diverse, realistic support scenarios and proposes the User Journey Coverage Score, a novel metric to measure policy adherence. We evaluate multiple state-of-the-art LLMs using two agent designs: a Static-Prompt Agent (SPA) and a Dynamic-Prompt Agent (DPA) that explicitly models policy control. Across 703 conversations in three domains, we show that DPA significantly boosts policy adherence, even allowing smaller models like GPT-4o-mini to outperform more capable ones like GPT-4o. Our findings demonstrate the importance of structured orchestration and establish JourneyBench as a critical resource to advance AI-driven customer support beyond IVR-era limitations.