Beyond IVR Touch-Tones: Customer Intent Routing using LLMs

📄 arXiv: 2510.21715v1 📥 PDF

作者: Sergio Rojas-Galeano

分类: cs.HC, cs.AI, cs.CL, eess.AS

发布日期: 2025-09-14

备注: Accepted for publication in the Proceedings of the Workshop on Engineering Applications 2025 (WEA 2025)


💡 一句话要点

提出基于LLM的IVR客户意图路由方法,解决数据稀缺问题并提升用户体验。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交互式语音应答 大型语言模型 意图路由 数据合成 用户体验

📋 核心要点

  1. 现有IVR系统依赖按键操作,用户体验差,而语音交互的关键在于将用户意图准确路由到IVR菜单路径。
  2. 利用LLM强大的语言理解能力,合成IVR结构和用户意图数据,解决真实数据稀缺的问题。
  3. 实验表明,扁平化路径表示的提示设计优于分层菜单,在基础数据集上准确率达到89.13%。

📝 摘要(中文)

针对传统交互式语音应答(IVR)系统用户体验差的问题,本文提出了一种基于大型语言模型(LLM)的客户意图路由方法。由于真实IVR结构和交互数据通常是专有的,数据稀缺限制了相关研究。为此,我们利用三个不同的LLM合成了包含23个节点的IVR结构,并生成了920个用户意图(230个基础意图和690个增强意图),用于路由任务。我们评估了两种提示设计:描述性分层菜单和扁平化路径表示,并分别在基础数据集和增强数据集上进行了测试。结果表明,扁平化路径表示始终能获得更高的准确率,在基础数据集上达到89.13%,而描述性格式的准确率为81.30%。数据增强引入了语言噪声,略微降低了性能。混淆矩阵分析表明,低性能的路由可能反映了菜单设计中的冗余。总而言之,我们的研究证明了LLM可以通过更流畅、更无缝的用户体验实现IVR路由,从而使客户服务比按键菜单更进一步。

🔬 方法详解

问题定义:传统IVR系统依赖于用户通过按键选择菜单选项,这种方式效率低、用户体验差。语音交互是未来的发展方向,但如何将用户的自然语言意图准确地映射到IVR系统的菜单路径上是一个关键问题。现有方法缺乏足够的数据进行训练和评估,因为真实的IVR结构和用户交互数据通常是专有的,难以获取。

核心思路:本文的核心思路是利用LLM强大的生成能力,合成高质量的IVR结构和用户意图数据,从而解决数据稀缺的问题。通过在合成数据上训练和评估LLM,验证其在IVR意图路由任务中的可行性。此外,探索不同的提示设计,以优化LLM的性能。

技术框架:整体框架包括三个主要阶段:1) IVR结构合成:使用LLM生成一个包含多个节点的IVR菜单结构。2) 用户意图生成:基于合成的IVR结构,使用LLM生成用户可能表达的各种意图。3) 意图路由:将用户意图输入到LLM中,LLM根据提示将意图路由到相应的IVR菜单路径。

关键创新:该研究的关键创新在于利用LLM合成IVR结构和用户意图数据,从而克服了数据稀缺的瓶颈。这使得研究人员能够在没有真实数据的情况下,探索LLM在IVR意图路由任务中的应用。此外,比较了两种不同的提示设计(描述性分层菜单和扁平化路径表示),并分析了它们对LLM性能的影响。

关键设计:使用了三种不同的LLM来完成不同的任务:一个用于生成IVR结构,一个用于生成用户意图,一个用于执行意图路由。针对意图路由任务,设计了两种不同的提示方式:描述性分层菜单和扁平化路径表示。描述性分层菜单以分层的方式描述IVR菜单结构,而扁平化路径表示则将每个菜单路径表示为一个独立的字符串。实验中,对比了这两种提示方式在不同数据集上的性能。

📊 实验亮点

实验结果表明,基于LLM的IVR意图路由方法具有良好的性能。在基础数据集上,使用扁平化路径表示的提示设计,LLM的准确率达到了89.13%,显著高于使用描述性分层菜单的81.30%。数据增强虽然引入了语言噪声,略微降低了性能,但仍然具有一定的效果。混淆矩阵分析表明,低性能的路由可能反映了菜单设计中的冗余,为IVR系统优化提供了新的思路。

🎯 应用场景

该研究成果可应用于智能客服、语音助手等领域,通过更自然、更智能的语音交互,提升用户体验。例如,用户可以通过语音直接表达需求,而无需通过繁琐的按键操作。未来,该技术有望应用于各种自助服务场景,例如银行、电信、航空等,实现更高效、更便捷的客户服务。

📄 摘要(原文)

Widespread frustration with rigid touch-tone Interactive Voice Response (IVR) systems for customer service underscores the need for more direct and intuitive language interaction. While speech technologies are necessary, the key challenge lies in routing intents from user phrasings to IVR menu paths, a task where Large Language Models (LLMs) show strong potential. Progress, however, is limited by data scarcity, as real IVR structures and interactions are often proprietary. We present a novel LLM-based methodology to address this gap. Using three distinct models, we synthesized a realistic 23-node IVR structure, generated 920 user intents (230 base and 690 augmented), and performed the routing task. We evaluate two prompt designs: descriptive hierarchical menus and flattened path representations, across both base and augmented datasets. Results show that flattened paths consistently yield higher accuracy, reaching 89.13% on the base dataset compared to 81.30% with the descriptive format, while augmentation introduces linguistic noise that slightly reduces performance. Confusion matrix analysis further suggests that low-performing routes may reflect not only model limitations but also redundancies in menu design. Overall, our findings demonstrate proof-of-concept that LLMs can enable IVR routing through a smoother, more seamless user experience -- moving customer service one step ahead of touch-tone menus.