Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

📄 arXiv: 2509.14627v1 📥 PDF

作者: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim

分类: cs.HC, cs.AI, cs.CL

发布日期: 2025-09-18

备注: Published in Interspeech 2025

DOI: 10.21437/Interspeech.2025-1075

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于多模态LLM的对话Agent,通过生成更具表现力的语音提升人机交互体验。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态对话 语音生成 人机交互 情感计算 副语言信息

📋 核心要点

  1. 现有对话Agent主要关注文本生成,忽略了语音中蕴含的情感和风格信息,导致人机交互不够自然。
  2. 论文提出一种多模态LLM框架,结合视觉和听觉信息,生成包含副语言信息的语音,从而提升Agent的表达能力。
  3. 实验结果表明,该方法能够有效利用视觉和音频模态,生成更具吸引力的语音,改善人机交互体验。

📝 摘要(中文)

人类对话涉及语言、语音和视觉线索,每种媒介提供互补信息。例如,语音传达了一种仅靠文本无法完全捕捉到的氛围或语调。虽然多模态LLM专注于从各种输入中生成文本响应,但对生成自然且引人入胜的语音的关注较少。我们提出了一种类人Agent,它基于对话情绪和响应风格信息生成语音响应。为了实现这一目标,我们构建了一个新颖的MultiSensory Conversation数据集,专注于语音,以使Agent能够生成自然语音。然后,我们提出了一种基于多模态LLM的模型,用于生成文本响应和语音描述,这些描述用于生成包含副语言信息的语音。实验结果表明,在对话中利用视觉和音频模态来生成引人入胜的语音是有效的。源代码可在https://github.com/kimtaesu24/MSenC 获取。

🔬 方法详解

问题定义:现有对话Agent在生成回复时,主要关注文本内容的准确性和流畅性,忽略了语音本身所携带的情感、语调等副语言信息。这导致生成的语音缺乏人情味,使得人机交互体验不够自然和真实。因此,如何让Agent生成更具表现力的语音,是本文要解决的核心问题。

核心思路:本文的核心思路是利用多模态信息(包括视觉和听觉信息)来指导语音生成。通过分析对话的上下文,提取对话的情绪和响应风格,并将这些信息融入到语音生成过程中,从而使生成的语音更符合人类的表达习惯,更具吸引力。

技术框架:整体框架包含以下几个主要模块:1) MultiSensory Conversation数据集:用于训练模型,包含语音、文本和视觉信息。2) 多模态LLM:用于生成文本响应和语音描述,输入包括对话历史、视觉信息等。3) 语音合成模块:根据文本响应和语音描述生成最终的语音。整个流程是,首先利用多模态LLM分析对话上下文,生成文本回复和语音描述(包含情感、语调等信息),然后利用语音合成模块将文本和语音描述合成为最终的语音输出。

关键创新:该论文的关键创新在于将多模态信息融入到语音生成过程中。以往的语音生成方法主要依赖于文本信息,而忽略了视觉和听觉信息。本文通过利用视觉信息(例如面部表情)和听觉信息(例如语音语调),可以更准确地捕捉对话的情绪和风格,从而生成更具表现力的语音。

关键设计:论文构建了一个新的MultiSensory Conversation数据集,该数据集包含语音、文本和视觉信息,为模型的训练提供了数据基础。此外,论文还设计了一个多模态LLM,该模型能够有效地融合不同模态的信息,并生成高质量的文本响应和语音描述。具体的损失函数和网络结构等技术细节在论文中进行了详细描述。

📊 实验亮点

实验结果表明,该方法能够有效利用视觉和音频模态,生成更具吸引力的语音。相较于传统的文本到语音(TTS)方法,该方法生成的语音在自然度和情感表达方面有显著提升。具体的性能数据和对比基线在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于智能客服、虚拟助手、游戏角色等领域,提升人机交互的自然性和趣味性。通过生成更具表现力的语音,可以增强用户的情感连接,提高用户满意度,并为未来的情感计算和人机协作提供新的思路。

📄 摘要(原文)

Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a novel MultiSensory Conversation dataset focused on speech to enable agents to generate natural speech. We then propose a multimodal LLM-based model for generating text responses and voice descriptions, which are used to generate speech covering paralinguistic information. Experimental results demonstrate the effectiveness of utilizing both visual and audio modalities in conversation to generate engaging speech. The source code is available in https://github.com/kimtaesu24/MSenC