Spoken Conversational Agents with Large Language Models

作者: Chao-Han Huck Yang, Andreas Stolcke, Larry Heck

分类: cs.CL, cs.MA, cs.NE, cs.SD, eess.AS

发布日期: 2025-12-02

备注: Accepted to EMNLP 2025 Tutorial

💡 一句话要点

语音对话Agent正向语音原生LLM演进，本教程提供系统级路线图。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音对话Agent 大型语言模型 端到端系统 语音原生LLM 跨模态对齐 语音-文本联合训练 自动语音识别 自然语言理解

📋 核心要点

传统语音对话系统依赖级联的ASR和NLU模块，存在误差传递和优化困难等问题。
本教程探讨了如何将大型语言模型（LLM）适配到语音领域，实现端到端的语音对话Agent。
内容涵盖跨模态对齐、语音-文本联合训练、数据集、评估指标以及系统设计选择等关键方面。

📝 摘要（中文）

语音对话Agent正朝着语音原生的LLM方向发展。本教程提炼了从级联ASR/NLU到端到端、检索和视觉接地的系统的路径。我们构建了文本LLM到音频的适配、跨模态对齐以及语音-文本联合训练；回顾了数据集、指标以及跨口音的鲁棒性，并比较了设计选择（级联 vs. E2E、ASR后校正、流式传输）。我们将工业助手与当前的开放域和面向任务的Agent联系起来，强调可复现的基线，并概述了隐私、安全和评估方面的开放问题。参与者将获得实用的方法和清晰的系统级路线图。

🔬 方法详解

问题定义：现有语音对话系统通常采用级联的ASR（自动语音识别）和NLU（自然语言理解）模块。这种方法的痛点在于误差会从ASR传递到NLU，导致性能下降。此外，各个模块独立优化，难以实现全局最优。

核心思路：本教程的核心思路是将大型语言模型（LLM）直接应用于语音对话任务，构建端到端的系统。通过将语音信号转化为LLM可以理解的文本表示，并利用LLM强大的生成能力，实现更自然、更准确的对话。

技术框架：本教程涵盖了多种技术框架，包括：1) 将文本LLM适配到音频领域的方法，例如使用语音编码器将音频转换为文本嵌入；2) 跨模态对齐技术，用于将语音和文本信息对齐；3) 语音-文本联合训练方法，用于同时优化语音和文本处理能力；4) 端到端（E2E）系统设计，直接将语音输入映射到对话输出；5) 检索增强的LLM，通过检索相关信息来提高对话质量；6) 视觉接地的LLM，利用视觉信息来增强对话理解。

关键创新：本教程的关键创新在于强调了语音原生LLM的潜力，并提供了一套将文本LLM适配到语音领域的实用方法。与传统的级联系统相比，端到端的语音原生LLM具有更高的效率和更好的性能。此外，本教程还关注了跨模态对齐和语音-文本联合训练等关键技术，这些技术可以进一步提高语音对话系统的性能。

关键设计：本教程讨论了多种关键设计选择，包括：1) 级联系统 vs. 端到端系统；2) ASR后校正技术，用于纠正ASR的错误；3) 流式传输技术，用于实时处理语音输入；4) 数据集选择，包括开放域和面向任务的数据集；5) 评估指标，包括准确率、BLEU等；6) 鲁棒性，包括对不同口音的适应能力；7) 隐私和安全问题。

🖼️ 关键图片

📊 实验亮点

本教程强调了可复现的基线，并概述了隐私、安全和评估方面的开放问题。通过提供实用的方法和清晰的系统级路线图，帮助研究人员和工程师快速构建高性能的语音对话Agent。此外，教程还关注了跨口音的鲁棒性，这对于实际应用至关重要。

🎯 应用场景

该研究成果可广泛应用于智能助手、客服机器人、语音搜索、语音控制等领域。通过构建更自然、更智能的语音对话Agent，可以提升用户体验，提高工作效率，并为人们的生活带来更多便利。未来，随着语音原生LLM的不断发展，语音对话Agent将在更多领域发挥重要作用。

📄 摘要（原文）

Spoken conversational agents are converging toward voice-native LLMs. This tutorial distills the path from cascaded ASR/NLU to end-to-end, retrieval-and vision-grounded systems. We frame adaptation of text LLMs to audio, cross-modal alignment, and joint speech-text training; review datasets, metrics, and robustness across accents and compare design choices (cascaded vs. E2E, post-ASR correction, streaming). We link industrial assistants to current open-domain and task-oriented agents, highlight reproducible baselines, and outline open problems in privacy, safety, and evaluation. Attendees leave with practical recipes and a clear systems-level roadmap.

Spoken Conversational Agents with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理