DuIVRS-2: An LLM-based Interactive Voice Response System for Large-scale POI Attribute Acquisition

作者: Le Zhang, Shengming Zhang, Rui Zha, Yunpeng Wu, Jingbo Zhou, Jizhou Huang

分类: cs.AI

发布日期: 2026-05-18

备注: Accepted to ACL 2026 Industry Track. 14 pages, including appendix

💡 一句话要点

DuIVRS-2：基于LLM的大规模POI属性获取交互式语音应答系统

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 交互式语音应答系统 大型语言模型 兴趣点属性获取 数据增强 思维链 协同迭代学习 对话管理

📋 核心要点

传统交互式语音应答系统（IVR）在兴趣点（POI）属性获取中面临误差累积和高维护成本的挑战。
DuIVRS-2利用LLM构建端到端系统，通过FSM引导的数据增强、选择性生成和CoT机制，提升系统稳定性和准确性。
DuIVRS-2在实际生产环境中部署，任务成功率提升4%，达到83.9%，并保持130ms的低延迟，验证了其有效性。

📝 摘要（中文）

本文提出DuIVRS-2，一个基于大型语言模型（LLM）的端到端框架，用于百度地图大规模兴趣点（POI）属性获取。针对真实交互中的长尾分布问题，该方法首先采用有限状态机（FSM）引导的数据增强策略，合成平衡且多样化的训练数据集。然后，通过选择性生成方案结合思维链（CoT）机制来简化对话管理，确保输出稳定性并有效消除工业环境中的幻觉问题。为了以最小的人工干预促进持续的策略改进，设计了一个利用双评估器投票系统的协同迭代学习框架。在生产环境中部署两个月后，DuIVRS-2每天处理40万次呼叫，任务成功率（TSR）达到83.9％，比之前的系统提高了4个百分点，同时保持了130毫秒的低反应时间。这项工作为开发用于大规模工业对话应用的稳健、经济高效的LLM代理提供了一个经过生产验证的参考。

🔬 方法详解

问题定义：传统模块化IVR系统在POI属性获取中存在误差累积，且维护成本高昂。真实世界交互数据呈现长尾分布，导致模型训练不充分，难以泛化到所有场景。此外，LLM在工业应用中容易产生幻觉，影响输出的可靠性。

核心思路：利用LLM的强大生成能力构建端到端的IVR系统，避免模块间的误差传递。通过数据增强缓解长尾分布问题，保证模型在各种场景下的性能。引入选择性生成和CoT机制，提高输出的稳定性和可解释性，减少幻觉。采用协同迭代学习框架，实现策略的持续优化。

技术框架：DuIVRS-2包含数据增强模块、对话管理模块和策略优化模块。数据增强模块使用FSM生成多样化的训练数据。对话管理模块采用选择性生成和CoT机制，控制LLM的输出。策略优化模块使用双评估器投票系统，自动评估和改进对话策略。整体流程是从数据增强开始，训练LLM，然后通过协同迭代学习不断优化策略。

关键创新：主要创新在于将LLM应用于大规模POI属性获取，并针对工业应用场景进行了优化。FSM引导的数据增强策略有效解决了长尾分布问题。选择性生成和CoT机制显著提高了输出的稳定性和可靠性。协同迭代学习框架实现了策略的自动化优化，降低了人工干预成本。

关键设计：数据增强模块中的FSM根据POI属性的结构进行设计，生成包含各种对话路径的数据。选择性生成模块通过控制LLM的生成范围，避免产生不相关的输出。CoT机制引导LLM逐步推理，提高输出的可解释性。双评估器投票系统使用两个独立的评估器，通过投票机制选择更优的策略。

🖼️ 关键图片

📊 实验亮点

DuIVRS-2在百度地图的实际生产环境中部署了两个月，每天处理40万次呼叫，任务成功率达到83.9%，比之前的系统提高了4个百分点，同时保持了130毫秒的低反应时间。这些数据表明DuIVRS-2在性能和效率方面都优于传统系统，验证了其有效性和实用性。

🎯 应用场景

DuIVRS-2可广泛应用于基于位置的服务，例如地图导航、外卖订餐、酒店预订等，能够自动获取和更新POI的属性信息，提高服务质量和用户体验。该研究为构建大规模工业对话系统提供了一种可行的解决方案，具有重要的实际应用价值和推广前景。

📄 摘要（原文）

Accurate Point of Interest (POI) attribute acquisition is essential for location-based services, yet traditional modular Interactive Voice Response (IVR) systems suffer from error accumulation and high maintenance overhead. We present DuIVRS-2, a large language model (LLM)-based end-to-end framework designed for large-scale POI attribute acquisition at Baidu Maps. To address the long-tail distribution of real-world interactions, our methodology first employs a finite state machine (FSM)-guided data augmentation strategy to synthesize a balanced and diverse training dataset. We then streamline dialogue management via a selective generation scheme combined with a Chain-of-Thought (CoT) mechanism, which ensures output stability and effectively eliminates hallucinations in industrial settings. To facilitate continuous policy refinement with minimal manual effort, we design a cooperative iterative learning framework that leverages a dual-evaluator voting system. Deployed in production for two months, DuIVRS-2 processed 0.4 million calls daily and achieved a 83.9\% Task Success Rate (TSR), outperforming its predecessor by 4 percentage points while maintaining a low reaction time of 130ms. This work provides a production-proven reference for developing robust, cost-effective LLM agents for large-scale industrial dialogue applications.

DuIVRS-2: An LLM-based Interactive Voice Response System for Large-scale POI Attribute Acquisition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理