Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

📄 arXiv: 2505.02707v1 📥 PDF

作者: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu

分类: cs.AI, cs.CL, cs.SD

发布日期: 2025-05-05

备注: 18 pages, 7 figures, Website: https://voila.maitrix.org


💡 一句话要点

Voila:用于实时自主交互和语音角色扮演的语音-语言基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音-语言模型 实时交互 语音角色扮演 端到端学习 Transformer 声学建模 大型语言模型 语音合成

📋 核心要点

  1. 现有语音AI系统通常采用流水线架构,延迟较高,难以实现自然流畅的实时交互,且情感表达能力有限。
  2. Voila提出一种端到端语音-语言基础模型,通过分层多尺度Transformer架构,融合LLM推理能力和声学建模,实现低延迟、情感丰富的语音交互。
  3. Voila实现了195毫秒的响应延迟,支持百万级预构建声音和快速声音定制,并在ASR、TTS和语音翻译等任务上展现了统一建模能力。

📝 摘要(中文)

本文介绍Voila,一系列大型语音-语言基础模型,旨在构建能够无缝融入日常生活的语音AI代理。该代理能够以自主、实时和情感丰富的方式与人类互动,持续倾听、推理并主动响应,从而促进流畅、动态且情感共鸣的交互。Voila采用了一种新的端到端架构,超越了传统的流水线系统,实现了全双工、低延迟的对话,同时保留了丰富的语音细节,如音调、节奏和情感。其响应延迟仅为195毫秒,超过了平均人类响应时间。Voila的分层多尺度Transformer集成了大型语言模型(LLM)的推理能力和强大的声学建模能力,实现了自然的、具有角色感知的语音生成,用户只需编写文本指令即可定义说话者的身份、音调和其他特征。此外,Voila支持超过一百万个预构建的声音,并能从短至10秒的音频样本中高效定制新的声音。除了口语对话,Voila还被设计为一个统一的模型,用于广泛的语音应用,包括自动语音识别(ASR)、文本到语音(TTS),以及通过最小的调整实现多语言语音翻译。Voila完全开源,以支持开放研究并加速下一代人机交互的发展。

🔬 方法详解

问题定义:现有语音AI系统通常采用pipeline架构,各个模块独立优化,导致整体延迟较高,难以满足实时交互的需求。此外,传统方法在语音情感表达和个性化定制方面也存在局限性,难以模拟真实人类对话的丰富性和多样性。

核心思路:Voila的核心思路是采用端到端的语音-语言模型,将语音识别、语义理解、语音合成等环节整合到一个统一的框架中。通过共享底层表示和联合优化,降低延迟,并提升模型的情感表达和个性化能力。同时,利用大型语言模型的强大推理能力,增强对话的上下文理解和生成能力。

技术框架:Voila采用分层多尺度Transformer架构。该架构包含多个Transformer层,每一层处理不同尺度的语音特征。底层Transformer层负责声学建模,提取语音的音调、节奏等细节特征;高层Transformer层则负责语义理解和对话生成,利用大型语言模型的知识和推理能力。整个框架采用端到端的方式进行训练,直接优化对话的质量和延迟。

关键创新:Voila的关键创新在于其端到端架构和分层多尺度Transformer设计。端到端架构避免了传统pipeline架构的模块间延迟,实现了低延迟的实时交互。分层多尺度Transformer能够同时处理语音的细节特征和语义信息,提升了模型的情感表达和个性化能力。此外,Voila还支持快速声音定制,用户可以通过少量音频样本创建个性化的语音模型。

关键设计:Voila的关键设计包括:1) 使用Conformer作为底层声学编码器,提取鲁棒的语音特征;2) 采用多头注意力机制,增强模型对不同尺度特征的关注能力;3) 使用对比学习损失函数,提升语音情感表达的准确性;4) 设计了高效的声音定制模块,利用少量音频样本快速生成个性化语音模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Voila实现了195毫秒的响应延迟,显著优于传统语音AI系统,甚至超过了人类的平均响应时间。在语音角色扮演任务中,Voila能够生成具有丰富情感和个性化特征的语音,与人类进行自然流畅的对话。此外,Voila支持超过一百万个预构建的声音,并能从短至10秒的音频样本中高效定制新的声音,极大地提升了语音合成的灵活性和个性化程度。

🎯 应用场景

Voila具有广泛的应用前景,包括智能助手、语音客服、游戏角色扮演、虚拟社交等领域。它可以用于构建更自然、更具情感的语音交互系统,提升用户体验。此外,Voila的快速声音定制能力可以应用于语音合成、语音克隆等领域,为个性化语音服务提供技术支持。未来,Voila有望成为下一代人机交互的重要组成部分。

📄 摘要(原文)

A voice AI agent that blends seamlessly into daily life would interact with humans in an autonomous, real-time, and emotionally expressive manner. Rather than merely reacting to commands, it would continuously listen, reason, and respond proactively, fostering fluid, dynamic, and emotionally resonant interactions. We introduce Voila, a family of large voice-language foundation models that make a step towards this vision. Voila moves beyond traditional pipeline systems by adopting a new end-to-end architecture that enables full-duplex, low-latency conversations while preserving rich vocal nuances such as tone, rhythm, and emotion. It achieves a response latency of just 195 milliseconds, surpassing the average human response time. Its hierarchical multi-scale Transformer integrates the reasoning capabilities of large language models (LLMs) with powerful acoustic modeling, enabling natural, persona-aware voice generation -- where users can simply write text instructions to define the speaker's identity, tone, and other characteristics. Moreover, Voila supports over one million pre-built voices and efficient customization of new ones from brief audio samples as short as 10 seconds. Beyond spoken dialogue, Voila is designed as a unified model for a wide range of voice-based applications, including automatic speech recognition (ASR), Text-to-Speech (TTS), and, with minimal adaptation, multilingual speech translation. Voila is fully open-sourced to support open research and accelerate progress toward next-generation human-machine interactions.