Borderless Long Speech Synthesis
作者: Xingchen Song, Di Wu, Dinghao Zhou, Pengyu Cheng, Hongwu Ding, Yunchao He, Jie Wang, Shengfan Shen, Sixiang Lv, Lichun Fan, Hang Su, Yifeng Wang, Shuai Wang, Meng Meng, Jian Luan
分类: cs.SD, cs.CL, eess.AS
发布日期: 2026-03-20
💡 一句话要点
提出Borderless长语音合成框架,实现Agent驱动的无边界语音生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长语音合成 多说话人合成 指令式TTS Agent驱动 分层标注 Chain-of-Thought Dimension Dropout
📋 核心要点
- 现有TTS系统缺乏全局上下文理解和副语言线索,难以捕捉真实世界的多说话人交互和情感变化。
- 提出Borderless长语音合成框架,通过统一的能力集和分层标注模式实现Agent驱动的语音生成。
- 引入CoT推理和Dimension Dropout,显著提升了复杂指令下的语音合成效果,并构建了分层控制协议栈。
📝 摘要(中文)
本文提出了一种用于Agent中心、无边界长音频合成的Borderless长语音合成框架。该系统并非针对单一任务,而是被设计为一套统一的能力集,涵盖VoiceDesigner、多说话人合成、Instruct TTS和长文本合成。在数据方面,我们提出了一种“标注胜于过滤/清洗”的策略,并设计了一种自顶向下的多层次标注模式,称为Global-Sentence-Token。在模型方面,我们采用了一个带有连续分词器的骨干网络,并添加了Chain-of-Thought (CoT) 推理以及Dimension Dropout,这两者都显著提高了复杂条件下的指令遵循能力。我们进一步表明,该系统在设计上是原生Agentic的:分层注释兼作LLM Agent和合成引擎之间的结构化语义接口,创建了一个从场景语义到语音细节的分层控制协议栈。文本因此成为一个信息完整、宽带的控制通道,使前端LLM能够将任何模态的输入转换为结构化的生成命令,从而将范式从Text2Speech扩展到无边界长语音合成。
🔬 方法详解
问题定义:现有文本到语音(TTS)系统主要存在两个问题。一是逐句合成语音然后拼接,缺乏全局上下文信息;二是仅从纯文本对话驱动合成,忽略了副语言线索。这导致模型难以理解多说话人交互(如打断、重叠语音)、情感变化以及不同的声学环境等真实世界现象。因此,需要一种能够理解全局上下文并生成更自然、更具表现力的长语音的系统。
核心思路:本文的核心思路是构建一个Agent中心、无边界的长语音合成框架。通过统一VoiceDesigner、多说话人合成、Instruct TTS和长文本合成等能力,使系统能够处理各种复杂的语音合成任务。此外,采用分层标注模式和结构化语义接口,使得LLM Agent能够更好地控制语音合成过程。
技术框架:该框架包含数据标注和模型构建两个主要部分。数据标注方面,采用“标注胜于过滤/清洗”的策略,并设计了Global-Sentence-Token分层标注模式。模型方面,采用带有连续分词器的骨干网络,并引入Chain-of-Thought (CoT) 推理和Dimension Dropout。整体流程是,首先通过LLM Agent将输入转换为结构化的生成命令,然后通过分层控制协议栈控制语音合成引擎生成语音。
关键创新:该论文的关键创新在于以下几点:1) 提出了Borderless长语音合成框架,能够处理各种复杂的语音合成任务;2) 提出了Global-Sentence-Token分层标注模式,能够提供更丰富的上下文信息;3) 引入了CoT推理和Dimension Dropout,显著提高了复杂指令下的语音合成效果;4) 构建了分层控制协议栈,使得LLM Agent能够更好地控制语音合成过程。与现有方法的本质区别在于,该框架能够实现Agent驱动的、无边界的长语音合成。
关键设计:在模型方面,采用了带有连续分词器的骨干网络,具体结构未知。CoT推理的具体实现方式未知,Dimension Dropout的具体参数设置也未知。损失函数和网络结构等技术细节未在摘要中详细描述。
📊 实验亮点
摘要中提到,引入Chain-of-Thought (CoT) 推理和Dimension Dropout后,显著提高了复杂条件下的指令遵循能力。但具体的性能数据、对比基线和提升幅度等信息未在摘要中给出,需要参考论文全文才能了解。
🎯 应用场景
该研究成果可应用于智能助手、游戏、电影制作等领域。例如,可以用于创建更逼真的虚拟角色对话,或者为长篇小说生成有声读物。通过结合LLM Agent,可以实现更智能、更自然的语音交互体验,并为各种应用场景提供更强大的语音合成能力。未来,该技术有望进一步推动人机交互的发展。
📄 摘要(原文)
Most existing text-to-speech (TTS) systems either synthesize speech sentence by sentence and stitch the results together, or drive synthesis from plain-text dialogues alone. Both approaches leave models with little understanding of global context or paralinguistic cues, making it hard to capture real-world phenomena such as multi-speaker interactions (interruptions, overlapping speech), evolving emotional arcs, and varied acoustic environments. We introduce the Borderless Long Speech Synthesis framework for agent-centric, borderless long audio synthesis. Rather than targeting a single narrow task, the system is designed as a unified capability set spanning VoiceDesigner, multi-speaker synthesis, Instruct TTS, and long-form text synthesis. On the data side, we propose a "Labeling over filtering/cleaning" strategy and design a top-down, multi-level annotation schema we call Global-Sentence-Token. On the model side, we adopt a backbone with a continuous tokenizer and add Chain-of-Thought (CoT) reasoning together with Dimension Dropout, both of which markedly improve instruction following under complex conditions. We further show that the system is Native Agentic by design: the hierarchical annotation doubles as a Structured Semantic Interface between the LLM Agent and the synthesis engine, creating a layered control protocol stack that spans from scene semantics down to phonetic detail. Text thereby becomes an information-complete, wide-band control channel, enabling a front-end LLM to convert inputs of any modality into structured generation commands, extending the paradigm from Text2Speech to borderless long speech synthesis.