Borderless Long Speech Synthesis
作者: Xingchen Song, Di Wu, Dinghao Zhou, Pengyu Cheng, Hongwu Ding, Yunchao He, Jie Wang, Shengfan Shen, Sixiang Lv, Lichun Fan, Hang Su, Yifeng Wang, Shuai Wang, Meng Meng, Jian Luan
分类: cs.SD, cs.CL, eess.AS
发布日期: 2026-04-06
💡 一句话要点
提出Borderless长语音合成框架,实现Agent驱动的、无边界的语音生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长语音合成 多说话人合成 指令TTS Agentic设计 Chain-of-Thought Dimension Dropout Global-Sentence-Token 结构化语义接口
📋 核心要点
- 现有TTS系统缺乏对全局上下文和超语言线索的理解,难以捕捉真实世界的多说话人交互和情感变化。
- 该框架采用统一的能力集合,结合Global-Sentence-Token标注策略和CoT推理,提升指令遵循能力。
- 分层标注作为LLM Agent和合成引擎的结构化语义接口,实现从场景语义到语音细节的分层控制。
📝 摘要(中文)
本文提出了一种用于Agent中心、无边界长语音合成的Borderless长语音合成框架。该系统并非针对单一任务,而是被设计为一个统一的能力集合,涵盖VoiceDesigner、多说话人合成、Instruct TTS和长文本合成。在数据方面,我们提出了一种“标注胜于过滤/清洗”的策略,并设计了一种自顶向下的多层次标注模式,称为Global-Sentence-Token。在模型方面,我们采用了一个带有连续tokenizer的backbone,并添加了Chain-of-Thought (CoT) 推理以及Dimension Dropout,这两者都显著提高了复杂条件下的指令遵循能力。我们进一步表明,该系统在设计上是Native Agentic的:分层注释兼作LLM Agent和合成引擎之间的结构化语义接口,创建了一个从场景语义到语音细节的分层控制协议栈。文本因此成为一个信息完整、宽带的控制通道,使前端LLM能够将任何模态的输入转换为结构化的生成命令,从而将范式从Text2Speech扩展到无边界的长语音合成。
🔬 方法详解
问题定义:现有文本到语音(TTS)系统通常逐句合成语音然后拼接,或者仅从纯文本对话驱动合成。这两种方法都使得模型对全局上下文或超语言线索的理解不足,难以捕捉真实世界中的现象,例如多说话人交互(中断、重叠语音)、情感演变以及不同的声学环境。因此,需要一种能够理解全局上下文并生成更自然、更具表现力的长语音的系统。
核心思路:本文的核心思路是构建一个Agent驱动的、无边界的长语音合成框架,该框架能够理解全局上下文,并能够处理各种输入模态,生成具有丰富情感和自然交互的长语音。通过分层标注和结构化语义接口,将LLM Agent与合成引擎连接起来,实现从场景语义到语音细节的精细控制。
技术框架:该框架包含以下主要模块:1) VoiceDesigner:用于设计和定制语音;2) 多说话人合成:支持多个说话人的语音合成;3) Instruct TTS:根据指令进行语音合成;4) 长文本合成:支持长文本的语音合成。此外,该框架还采用了带有连续tokenizer的backbone,并添加了Chain-of-Thought (CoT) 推理以及Dimension Dropout。
关键创新:该框架的关键创新点在于:1) 提出了“标注胜于过滤/清洗”的数据策略,并设计了Global-Sentence-Token多层次标注模式;2) 采用了Chain-of-Thought (CoT) 推理和Dimension Dropout,显著提高了复杂条件下的指令遵循能力;3) 通过分层标注构建了LLM Agent和合成引擎之间的结构化语义接口,实现了Native Agentic的设计。
关键设计:Global-Sentence-Token标注模式是一种自顶向下的多层次标注模式,包括全局、句子和token三个层次。Chain-of-Thought (CoT) 推理是一种逐步推理的方法,可以帮助模型更好地理解指令并生成更准确的语音。Dimension Dropout是一种正则化方法,可以防止模型过拟合。具体参数设置和网络结构等技术细节未在摘要中详细说明,需要参考论文全文。
📊 实验亮点
摘要中提到,Chain-of-Thought (CoT) 推理以及Dimension Dropout显著提高了复杂条件下的指令遵循能力。但具体的性能数据、对比基线、提升幅度等信息未在摘要中给出,需要在论文全文中查找。
🎯 应用场景
该研究成果可应用于智能助手、游戏、电影、教育等领域。例如,可以用于创建更具表现力和交互性的虚拟角色,或者用于生成更自然和引人入胜的语音故事。未来,该技术有望推动人机交互方式的变革,实现更自然、更智能的语音交流。
📄 摘要(原文)
Most existing text-to-speech (TTS) systems either synthesize speech sentence by sentence and stitch the results together, or drive synthesis from plain-text dialogues alone. Both approaches leave models with little understanding of global context or paralinguistic cues, making it hard to capture real-world phenomena such as multi-speaker interactions (interruptions, overlapping speech), evolving emotional arcs, and varied acoustic environments. We introduce the Borderless Long Speech Synthesis framework for agent-centric, borderless long audio synthesis. Rather than targeting a single narrow task, the system is designed as a unified capability set spanning VoiceDesigner, multi-speaker synthesis, Instruct TTS, and long-form text synthesis. On the data side, we propose a "Labeling over filtering/cleaning" strategy and design a top-down, multi-level annotation schema we call Global-Sentence-Token. On the model side, we adopt a backbone with a continuous tokenizer and add Chain-of-Thought (CoT) reasoning together with Dimension Dropout, both of which markedly improve instruction following under complex conditions. We further show that the system is Native Agentic by design: the hierarchical annotation doubles as a Structured Semantic Interface between the LLM Agent and the synthesis engine, creating a layered control protocol stack that spans from scene semantics down to phonetic detail. Text thereby becomes an information-complete, wide-band control channel, enabling a front-end LLM to convert inputs of any modality into structured generation commands, extending the paradigm from Text2Speech to borderless long speech synthesis.