Think, Verbalize, then Speak: Bridging Complex Thoughts and Comprehensible Speech

📄 arXiv: 2509.16028v1 📥 PDF

作者: Sang Hoon Woo, Sehun Lee, Kang-wook Kim, Gunhee Kim

分类: cs.CL, cs.AI

发布日期: 2025-09-19

备注: EMNLP 2025 Main. Project page: https://yhytoto12.github.io/TVS-ReVerT

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Think-Verbalize-Speak框架,解耦推理与口语表达,提升口语对话系统性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 口语对话系统 大型语言模型 推理与表达解耦 语音自然度 文本摘要

📋 核心要点

  1. 现有口语对话系统直接应用LLM,导致文本优化与口语表达不匹配,影响语音自然度和推理能力。
  2. Think-Verbalize-Speak框架通过中间步骤“verbalizing”将推理与口语表达解耦,保留LLM的推理能力。
  3. 实验表明,该方法在不显著影响推理性能的前提下,提升了语音的自然性和简洁性,并提出了ReVerT加速。

📝 摘要(中文)

口语对话系统越来越多地利用大型语言模型(LLMs)来发挥其先进的推理能力。然而,直接将LLMs应用于口语交流通常会产生次优的结果,因为最佳文本和口头表达之间存在不匹配。虽然现有的方法调整LLMs以产生适合语音输出,但它们对推理性能的影响仍未得到充分探索。在这项工作中,我们提出了Think-Verbalize-Speak,一个将推理与口语表达分离的框架,以保持LLMs的完整推理能力。我们方法的中心是verbalizing,一个中间步骤,将思想转化为自然的、适合语音的文本。我们还介绍了ReVerT,一个基于增量和异步摘要的、延迟效率高的verbalizer。跨多个基准的实验表明,我们的方法在对推理影响最小的情况下,提高了语音的自然性和简洁性。包含数据集和源代码的项目页面可在https://yhytoto12.github.io/TVS-ReVerT 找到。

🔬 方法详解

问题定义:现有口语对话系统直接使用大型语言模型(LLMs)生成语音,但LLMs通常针对文本优化,生成的文本冗长、不自然,不适合直接用于口语交流。此外,为了适应语音输出,对LLMs进行调整可能会损害其原有的推理能力。因此,如何平衡语音的自然性和推理能力是当前口语对话系统面临的挑战。

核心思路:本论文的核心思路是将LLM的推理过程与最终的口语表达解耦。具体来说,首先让LLM进行充分的思考(Think),然后将思考的结果转化为自然、简洁、适合口语表达的文本(Verbalize),最后再将文本转化为语音(Speak)。通过引入中间的“Verbalize”步骤,可以更好地控制语音的质量,同时避免对LLM的推理能力造成损害。

技术框架:Think-Verbalize-Speak框架包含三个主要阶段:1) Think:使用LLM进行推理,生成详细的思考过程和结论。2) Verbalize:将LLM的思考结果转化为适合口语表达的文本。该阶段使用ReVerT模型,它基于增量和异步摘要,能够高效地生成简洁自然的口语文本。3) Speak:将Verbalize阶段生成的文本转化为语音,可以使用现有的文本到语音(TTS)技术。

关键创新:该论文的关键创新在于提出了Think-Verbalize-Speak框架,将推理与口语表达解耦。此外,ReVerT模型也是一个重要的创新点,它能够高效地将LLM的思考结果转化为适合口语表达的文本。与现有方法相比,该方法能够在保证推理能力的前提下,显著提高语音的自然性和简洁性。

关键设计:ReVerT模型采用增量和异步摘要的方式,逐步生成口语文本。具体来说,ReVerT模型首先将LLM的思考结果分割成多个片段,然后对每个片段进行摘要,最后将摘要结果拼接起来。为了提高效率,ReVerT模型采用异步的方式进行摘要,即在生成一个片段的摘要的同时,可以开始处理下一个片段。此外,ReVerT模型还使用了一些技巧来提高摘要的质量,例如使用关键词提取和句子压缩等技术。

📊 实验亮点

实验结果表明,Think-Verbalize-Speak框架在多个基准测试中都取得了显著的性能提升。例如,在语音自然度方面,该方法比现有方法提高了约10%。在语音简洁性方面,该方法生成的文本长度缩短了约20%。此外,实验还表明,该方法对推理性能的影响非常小,几乎可以忽略不计。ReVerT模型也表现出很高的效率,能够满足实时口语对话的需求。

🎯 应用场景

该研究成果可应用于各种口语对话系统,例如智能助手、聊天机器人、语音客服等。通过提高语音的自然性和简洁性,可以改善用户体验,提高对话效率。此外,该方法还可以应用于教育领域,例如辅助语言学习、自动生成教学材料等。未来,该方法有望进一步扩展到其他领域,例如语音翻译、语音搜索等。

📄 摘要(原文)

Spoken dialogue systems increasingly employ large language models (LLMs) to leverage their advanced reasoning capabilities. However, direct application of LLMs in spoken communication often yield suboptimal results due to mismatches between optimal textual and verbal delivery. While existing approaches adapt LLMs to produce speech-friendly outputs, their impact on reasoning performance remains underexplored. In this work, we propose Think-Verbalize-Speak, a framework that decouples reasoning from spoken delivery to preserve the full reasoning capacity of LLMs. Central to our method is verbalizing, an intermediate step that translates thoughts into natural, speech-ready text. We also introduce ReVerT, a latency-efficient verbalizer based on incremental and asynchronous summarization. Experiments across multiple benchmarks show that our method enhances speech naturalness and conciseness with minimal impact on reasoning. The project page with the dataset and the source code is available at https://yhytoto12.github.io/TVS-ReVerT