CXMArena: Unified Dataset to benchmark performance in realistic CXM Scenarios

📄 arXiv: 2505.09436v2 📥 PDF

作者: Raghav Garg, Kapil Sharma, Karan Gupta

分类: cs.LG, cs.AI, cs.CL, cs.IR

发布日期: 2025-05-14 (更新: 2025-05-19)


💡 一句话要点

CXMArena:统一数据集,用于评估LLM在真实客户体验管理场景中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 客户体验管理 大型语言模型 基准数据集 知识库 合成数据

📋 核心要点

  1. 现有CXM基准测试缺乏真实性,未能充分整合知识库、噪声和关键运营任务,限制了LLM在实际场景中的评估。
  2. CXMArena通过可扩展的LLM pipeline模拟真实的CXM实体,并注入受控噪声,构建大规模合成数据集,用于评估AI在运营CXM中的应用。
  3. 实验表明,即使是先进模型在CXMArena上也面临挑战,例如文章搜索准确率仅为68%,知识库优化F1得分仅为0.3,需要更复杂的解决方案。

📝 摘要(中文)

大型语言模型(LLMs)在客户体验管理(CXM)领域,尤其是在联络中心运营中,具有巨大的潜力。然而,由于数据稀缺(隐私问题)和现有基准的局限性,评估它们在复杂运营环境中的实际效用受到阻碍。现有基准通常缺乏真实性,未能整合深度知识库(KB)、真实世界的噪声或超出对话流畅性的关键运营任务。为了弥合这一差距,我们推出了CXMArena,这是一个新颖的大规模合成基准数据集,专门用于评估AI在运营CXM环境中的应用。鉴于联络中心功能的多样性,我们开发了一个可扩展的LLM驱动的pipeline,用于模拟品牌的CXM实体,这些实体构成了我们数据集的基础,例如包括产品规格、问题分类和联络中心对话的知识文章。由于受控的噪声注入(由领域专家提供)和严格的自动化验证,这些实体紧密地代表了真实世界的分布。在此基础上,我们发布了CXMArena,它提供了专门的基准,针对五个重要的运营任务:知识库优化、意图预测、座席质量合规性、文章搜索以及具有集成工具的多轮RAG。我们的基线实验强调了基准的难度:即使是最先进的嵌入和生成模型在文章搜索方面也只能达到68%的准确率,而标准嵌入方法在知识库优化方面的F1得分仅为0.3,这突出了当前模型面临的重大挑战,需要复杂的pipeline和解决方案来替代传统技术。

🔬 方法详解

问题定义:现有客户体验管理(CXM)基准测试数据集在评估大型语言模型(LLMs)的实际应用能力方面存在不足。它们通常缺乏真实性,未能充分整合深度知识库、真实世界的噪声以及超出基本对话流畅性的关键运营任务。这使得难以准确评估LLMs在复杂运营环境中的性能,阻碍了其在CXM领域的实际应用。

核心思路:CXMArena的核心思路是构建一个大规模、合成的基准数据集,该数据集能够更真实地模拟实际的CXM运营环境。通过使用LLM驱动的pipeline来生成各种CXM实体,例如知识文章、问题分类和联络中心对话,并注入受控的噪声,使得生成的数据集能够更准确地反映真实世界的数据分布。

技术框架:CXMArena的构建包含以下主要阶段:1) 使用LLM驱动的pipeline模拟品牌的CXM实体,包括知识文章、问题分类和联络中心对话。2) 注入受控噪声,模拟真实世界数据中的不确定性和错误。3) 进行严格的自动化验证,确保生成的数据集的质量和一致性。4) 基于生成的数据集,构建针对五个重要运营任务的基准测试:知识库优化、意图预测、座席质量合规性、文章搜索以及具有集成工具的多轮RAG。

关键创新:CXMArena的关键创新在于其能够以可扩展的方式生成大规模、高质量的合成CXM数据集,该数据集能够更真实地模拟实际的运营环境。与现有的基准测试数据集相比,CXMArena更加注重知识库的整合、噪声的模拟以及对关键运营任务的覆盖。

关键设计:CXMArena pipeline的关键设计包括:1) 使用LLM生成CXM实体时,采用prompt工程来控制生成内容的质量和多样性。2) 噪声注入策略由领域专家指导,以确保噪声的真实性和合理性。3) 自动化验证流程包括多个阶段,例如语法检查、语义一致性检查和领域知识验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CXMArena的基线实验表明,即使是先进的嵌入和生成模型在文章搜索任务中也只能达到68%的准确率,而标准嵌入方法在知识库优化任务中的F1得分仅为0.3。这些结果表明,当前的模型在处理复杂的CXM任务时仍然面临着巨大的挑战,需要更复杂的pipeline和解决方案。

🎯 应用场景

CXMArena可用于评估和改进LLM在客户体验管理领域的应用,例如智能客服、知识库管理、座席辅助等。该数据集能够帮助研究人员和开发者更好地了解LLM在实际CXM场景中的性能瓶颈,并开发更有效的解决方案。此外,CXMArena还可以用于训练和微调LLM,以提高其在CXM任务中的性能。

📄 摘要(原文)

Large Language Models (LLMs) hold immense potential for revolutionizing Customer Experience Management (CXM), particularly in contact center operations. However, evaluating their practical utility in complex operational environments is hindered by data scarcity (due to privacy concerns) and the limitations of current benchmarks. Existing benchmarks often lack realism, failing to incorporate deep knowledge base (KB) integration, real-world noise, or critical operational tasks beyond conversational fluency. To bridge this gap, we introduce CXMArena, a novel, large-scale synthetic benchmark dataset specifically designed for evaluating AI in operational CXM contexts. Given the diversity in possible contact center features, we have developed a scalable LLM-powered pipeline that simulates the brand's CXM entities that form the foundation of our datasets-such as knowledge articles including product specifications, issue taxonomies, and contact center conversations. The entities closely represent real-world distribution because of controlled noise injection (informed by domain experts) and rigorous automated validation. Building on this, we release CXMArena, which provides dedicated benchmarks targeting five important operational tasks: Knowledge Base Refinement, Intent Prediction, Agent Quality Adherence, Article Search, and Multi-turn RAG with Integrated Tools. Our baseline experiments underscore the benchmark's difficulty: even state of the art embedding and generation models achieve only 68% accuracy on article search, while standard embedding methods yield a low F1 score of 0.3 for knowledge base refinement, highlighting significant challenges for current models necessitating complex pipelines and solutions over conventional techniques.