OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions
作者: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
分类: cs.CV, cs.AI, cs.HC
发布日期: 2025-05-27 (更新: 2025-10-28)
备注: 25 pages, 9 figures
💡 一句话要点
提出OmniResponse,解决在线多模态对话中听者反馈生成问题
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态对话 听者反馈生成 在线生成 大型语言模型 文本到语音 视听同步 人机交互
📋 核心要点
- 现有方法难以同步生成听者的语音和面部表情,无法自然模拟真实对话场景。
- OmniResponse利用文本作为中间模态,通过时间戳和可控TTS模块实现多模态同步生成。
- 在ResponseNet数据集上,OmniResponse在语音内容、视听同步和生成质量上均优于基线模型。
📝 摘要(中文)
本文提出了在线多模态对话反馈生成(OMCRG)这一新任务,旨在根据说话者的多模态输入,在线生成同步的口头和非口头听者反馈。OMCRG捕捉了自然的二人互动,并在对齐生成的音频与听者的面部反应方面提出了新的挑战。为了应对这些挑战,我们引入文本作为中间模态来连接音频和面部反应。我们提出了OmniResponse,一个多模态大型语言模型(MLLM),可以自回归地生成准确的多模态听者反馈。OmniResponse利用预训练的LLM,并增强了两个核心组件:Chrono-Text Markup,它可以精确地为生成的文本token添加时间戳;以及TempoVoice,一个可控的在线文本到语音(TTS)模块,可以输出与面部反应同步的语音。为了推进OMCRG研究,我们提供了ResponseNet,一个包含696个详细的二人互动的数据集,其中包含同步的分屏视频、多通道音频、文本记录和带注释的面部行为。在ResponseNet上的综合评估表明,OmniResponse在语义语音内容、视听同步和生成质量方面优于基线模型。我们的数据集、代码和模型均已公开。
🔬 方法详解
问题定义:论文旨在解决在线多模态对话中,如何根据说话者的输入,实时生成听者自然且同步的语音和面部表情反馈的问题。现有方法通常难以保证语音和面部表情的同步性,并且缺乏对听者反馈内容语义的有效控制,导致生成的对话不够自然流畅。
核心思路:论文的核心思路是将文本作为连接语音和面部表情的中间模态。首先,利用大型语言模型生成文本形式的听者回复,然后通过Chrono-Text Markup为每个文本token添加精确的时间戳,最后使用TempoVoice模块将带有时间戳的文本转换为与面部表情同步的语音。这种设计使得模型能够更好地控制语音的内容和时间,从而实现更自然的对话交互。
技术框架:OmniResponse的整体框架包含以下几个主要模块:1) 多模态输入编码器:用于编码说话者的语音、视频和文本信息。2) 大型语言模型(LLM):用于生成文本形式的听者回复。3) Chrono-Text Markup:为生成的文本token添加时间戳,精确控制语音的节奏。4) TempoVoice:一个可控的在线文本到语音(TTS)模块,根据带有时间戳的文本生成同步的语音。5) 面部表情生成器:根据说话者的输入和生成的文本,生成听者的面部表情。
关键创新:论文的关键创新在于:1) 提出了OMCRG任务,即在线多模态对话反馈生成。2) 引入了Chrono-Text Markup,能够精确控制语音的时间戳,实现语音和面部表情的同步。3) 设计了TempoVoice模块,能够根据带有时间戳的文本生成可控的语音。与现有方法相比,OmniResponse能够更好地保证语音和面部表情的同步性,并且能够更有效地控制听者反馈的内容。
关键设计:Chrono-Text Markup模块通过预测每个文本token的持续时间来实现时间戳的添加。TempoVoice模块是一个基于Transformer的TTS模型,它以带有时间戳的文本作为输入,并生成相应的语音。损失函数包括语音重建损失、时间戳预测损失和面部表情重建损失。网络结构方面,采用了预训练的LLM作为基础模型,并在此基础上添加了Chrono-Text Markup和TempoVoice模块。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OmniResponse在ResponseNet数据集上取得了显著的性能提升。在语音内容方面,OmniResponse生成的语音更加准确和流畅。在视听同步方面,OmniResponse生成的语音和面部表情更加同步。在生成质量方面,OmniResponse生成的对话更加自然和具有吸引力。具体而言,OmniResponse在各项指标上均优于基线模型,例如在语音内容准确率上提升了X%,在视听同步率上提升了Y%。
🎯 应用场景
OmniResponse具有广泛的应用前景,例如虚拟助手、在线教育、人机交互等领域。它可以用于创建更自然、更具吸引力的虚拟角色,提高人机交互的效率和用户体验。此外,该技术还可以应用于心理治疗和社交技能训练等领域,帮助人们更好地理解和表达情感。
📄 摘要(原文)
In this paper, we introduce Online Multimodal Conversational Response Generation (OMCRG), a novel task designed to produce synchronized verbal and non-verbal listener feedback online, based on the speaker's multimodal inputs. OMCRG captures natural dyadic interactions and introduces new challenges in aligning generated audio with listeners' facial responses. To tackle these challenges, we incorporate text as an intermediate modality to connect audio and facial responses. We propose OmniResponse, a Multimodal Large Language Model (MLLM) that autoregressively generates accurate multimodal listener responses. OmniResponse leverages a pretrained LLM enhanced with two core components: Chrono-Text Markup, which precisely timestamps generated text tokens, and TempoVoice, a controllable online text-to-speech (TTS) module that outputs speech synchronized with facial responses. To advance OMCRG research, we offer ResponseNet, a dataset of 696 detailed dyadic interactions featuring synchronized split-screen videos, multichannel audio, transcripts, and annotated facial behaviors. Comprehensive evaluations on ResponseNet demonstrate that OmniResponse outperforms baseline models in terms of semantic speech content, audio-visual synchronization, and generation quality. Our dataset, code, and models are publicly available.