DuIVRS-2: An LLM-based Interactive Voice Response System for Large-scale POI Attribute Acquisition
作者: Le Zhang, Shengming Zhang, Rui Zha, Yunpeng Wu, Jingbo Zhou, Jizhou Huang
分类: cs.AI
发布日期: 2026-05-18
备注: Accepted to ACL 2026 Industry Track. 14 pages, including appendix
💡 一句话要点
DuIVRS-2:基于LLM的大规模POI属性获取交互式语音应答系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 交互式语音应答系统 大型语言模型 兴趣点属性获取 数据增强 思维链 协同迭代学习 对话管理
📋 核心要点
- 传统交互式语音应答系统(IVR)在兴趣点(POI)属性获取中面临误差累积和高维护成本的挑战。
- DuIVRS-2利用LLM构建端到端系统,通过FSM引导的数据增强、选择性生成和CoT机制,提升系统稳定性和准确性。
- DuIVRS-2在实际生产环境中部署,任务成功率提升4%,达到83.9%,并保持130ms的低延迟,验证了其有效性。
📝 摘要(中文)
本文提出DuIVRS-2,一个基于大型语言模型(LLM)的端到端框架,用于百度地图大规模兴趣点(POI)属性获取。针对真实交互中的长尾分布问题,该方法首先采用有限状态机(FSM)引导的数据增强策略,合成平衡且多样化的训练数据集。然后,通过选择性生成方案结合思维链(CoT)机制来简化对话管理,确保输出稳定性并有效消除工业环境中的幻觉问题。为了以最小的人工干预促进持续的策略改进,设计了一个利用双评估器投票系统的协同迭代学习框架。在生产环境中部署两个月后,DuIVRS-2每天处理40万次呼叫,任务成功率(TSR)达到83.9%,比之前的系统提高了4个百分点,同时保持了130毫秒的低反应时间。这项工作为开发用于大规模工业对话应用的稳健、经济高效的LLM代理提供了一个经过生产验证的参考。
🔬 方法详解
问题定义:传统模块化IVR系统在POI属性获取中存在误差累积,且维护成本高昂。真实世界交互数据呈现长尾分布,导致模型训练不充分,难以泛化到所有场景。此外,LLM在工业应用中容易产生幻觉,影响输出的可靠性。
核心思路:利用LLM的强大生成能力构建端到端的IVR系统,避免模块间的误差传递。通过数据增强缓解长尾分布问题,保证模型在各种场景下的性能。引入选择性生成和CoT机制,提高输出的稳定性和可解释性,减少幻觉。采用协同迭代学习框架,实现策略的持续优化。
技术框架:DuIVRS-2包含数据增强模块、对话管理模块和策略优化模块。数据增强模块使用FSM生成多样化的训练数据。对话管理模块采用选择性生成和CoT机制,控制LLM的输出。策略优化模块使用双评估器投票系统,自动评估和改进对话策略。整体流程是从数据增强开始,训练LLM,然后通过协同迭代学习不断优化策略。
关键创新:主要创新在于将LLM应用于大规模POI属性获取,并针对工业应用场景进行了优化。FSM引导的数据增强策略有效解决了长尾分布问题。选择性生成和CoT机制显著提高了输出的稳定性和可靠性。协同迭代学习框架实现了策略的自动化优化,降低了人工干预成本。
关键设计:数据增强模块中的FSM根据POI属性的结构进行设计,生成包含各种对话路径的数据。选择性生成模块通过控制LLM的生成范围,避免产生不相关的输出。CoT机制引导LLM逐步推理,提高输出的可解释性。双评估器投票系统使用两个独立的评估器,通过投票机制选择更优的策略。
🖼️ 关键图片
📊 实验亮点
DuIVRS-2在百度地图的实际生产环境中部署了两个月,每天处理40万次呼叫,任务成功率达到83.9%,比之前的系统提高了4个百分点,同时保持了130毫秒的低反应时间。这些数据表明DuIVRS-2在性能和效率方面都优于传统系统,验证了其有效性和实用性。
🎯 应用场景
DuIVRS-2可广泛应用于基于位置的服务,例如地图导航、外卖订餐、酒店预订等,能够自动获取和更新POI的属性信息,提高服务质量和用户体验。该研究为构建大规模工业对话系统提供了一种可行的解决方案,具有重要的实际应用价值和推广前景。
📄 摘要(原文)
Accurate Point of Interest (POI) attribute acquisition is essential for location-based services, yet traditional modular Interactive Voice Response (IVR) systems suffer from error accumulation and high maintenance overhead. We present DuIVRS-2, a large language model (LLM)-based end-to-end framework designed for large-scale POI attribute acquisition at Baidu Maps. To address the long-tail distribution of real-world interactions, our methodology first employs a finite state machine (FSM)-guided data augmentation strategy to synthesize a balanced and diverse training dataset. We then streamline dialogue management via a selective generation scheme combined with a Chain-of-Thought (CoT) mechanism, which ensures output stability and effectively eliminates hallucinations in industrial settings. To facilitate continuous policy refinement with minimal manual effort, we design a cooperative iterative learning framework that leverages a dual-evaluator voting system. Deployed in production for two months, DuIVRS-2 processed 0.4 million calls daily and achieved a 83.9\% Task Success Rate (TSR), outperforming its predecessor by 4 percentage points while maintaining a low reaction time of 130ms. This work provides a production-proven reference for developing robust, cost-effective LLM agents for large-scale industrial dialogue applications.