Qwen2.5-Omni Technical Report
作者: Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin
分类: cs.CL, cs.CV, cs.SD, eess.AS
发布日期: 2025-03-26
💡 一句话要点
Qwen2.5-Omni:提出Thinker-Talker架构,实现端到端多模态流式生成文本与语音
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 流式生成 语音合成 音视频对齐 Thinker-Talker架构
📋 核心要点
- 现有端到端多模态模型难以兼顾多种模态输入、文本语音同步生成以及流式处理的需求,存在延迟高、模态间干扰等问题。
- Qwen2.5-Omni提出Thinker-Talker架构,解耦文本和语音生成,并采用TMRoPE对齐音视频时间戳,实现多模态信息的流式处理。
- 实验表明,Qwen2.5-Omni在多模态基准测试中达到SOTA,语音指令跟随能力与文本输入相当,流式语音生成在鲁棒性和自然度上优于现有方法。
📝 摘要(中文)
本报告介绍了Qwen2.5-Omni,一个端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。为了实现多模态信息的流式输入,音频和视觉编码器都采用了分块处理方法。为了同步视频输入的时间戳与音频,我们将音频和视频以交错的方式顺序组织,并提出了一种新的位置嵌入方法,名为TMRoPE(时间对齐的多模态RoPE)。为了在并发生成文本和语音的同时避免两种模态之间的干扰,我们提出了Thinker-Talker架构。在该框架中,Thinker作为一个大型语言模型,负责文本生成,而Talker是一个双轨自回归模型,直接利用来自Thinker的隐藏表示来生成音频token作为输出。Thinker和Talker模型都被设计为以端到端的方式进行训练和推理。为了以流式方式解码音频token,我们引入了一个限制感受野的滑动窗口DiT,旨在减少初始包延迟。Qwen2.5-Omni与同等规模的Qwen2.5-VL相当,并且优于Qwen2-Audio。此外,Qwen2.5-Omni在Omni-Bench等多模态基准测试中取得了最先进的性能。值得注意的是,Qwen2.5-Omni在端到端语音指令跟随方面的性能与其文本输入的能力相当,这可以通过MMLU和GSM8K等基准测试来证明。在语音生成方面,Qwen2.5-Omni的流式Talker在鲁棒性和自然度方面优于大多数现有的流式和非流式替代方案。
🔬 方法详解
问题定义:Qwen2.5-Omni旨在构建一个能够同时处理文本、图像、音频和视频等多模态输入,并以流式方式生成文本和语音的端到端模型。现有方法在处理多模态输入时,往往难以实现各模态间的有效对齐和同步,并且在文本和语音的并发生成过程中容易产生相互干扰,导致生成质量下降。此外,传统的非流式语音生成方法存在延迟较高的问题,难以满足实时交互的需求。
核心思路:该论文的核心思路是通过解耦文本和语音生成过程,并采用专门设计的模块来处理多模态信息的对齐和同步,从而实现高质量的流式多模态生成。具体来说,论文提出了Thinker-Talker架构,其中Thinker负责文本生成,Talker负责语音生成,两者通过共享隐藏表示进行信息传递,从而避免了直接的模态间干扰。同时,论文还提出了TMRoPE位置编码方法,用于对齐音视频的时间戳,确保多模态信息的同步。
技术框架:Qwen2.5-Omni的整体架构包括以下几个主要模块:1) 多模态编码器:用于将文本、图像、音频和视频等多种模态的输入转换为统一的特征表示。音频和视频编码器采用分块处理方法,以支持流式输入。2) TMRoPE:用于对齐音视频的时间戳,确保多模态信息的同步。3) Thinker:一个大型语言模型,负责文本生成。4) Talker:一个双轨自回归模型,利用Thinker的隐藏表示生成音频token。5) 滑动窗口DiT:用于以流式方式解码音频token,减少初始包延迟。
关键创新:该论文最重要的技术创新点在于Thinker-Talker架构和TMRoPE位置编码方法。Thinker-Talker架构通过解耦文本和语音生成过程,有效避免了模态间的干扰,提高了生成质量。TMRoPE位置编码方法则解决了音视频时间戳对齐的问题,确保了多模态信息的同步。此外,滑动窗口DiT的引入也降低了流式语音生成的延迟。
关键设计:TMRoPE的具体实现方式未知,但其核心思想是将音频和视频以交错的方式顺序组织,并在此基础上进行位置编码,从而实现时间戳的对齐。Thinker采用标准的Transformer架构,Talker则是一个双轨自回归模型,其具体结构和训练方式未知。滑动窗口DiT通过限制感受野来减少计算量和延迟,其窗口大小等参数设置未知。损失函数方面,Thinker和Talker可能分别采用交叉熵损失函数进行训练,具体的损失函数权重和优化策略未知。
🖼️ 关键图片
📊 实验亮点
Qwen2.5-Omni在多模态基准测试Omni-Bench上取得了SOTA性能,表明其在多模态理解和生成方面具有强大的能力。在语音指令跟随任务中,Qwen2.5-Omni的性能与文本输入相当,证明了其在语音理解方面的潜力。此外,Qwen2.5-Omni的流式Talker在鲁棒性和自然度方面优于大多数现有的流式和非流式语音生成方法,表明其在流式语音生成方面具有显著优势。
🎯 应用场景
Qwen2.5-Omni具有广泛的应用前景,例如智能助手、多模态对话系统、实时翻译、音视频内容创作等。该模型能够理解用户的多模态输入,并生成自然流畅的文本和语音回复,从而实现更自然、更智能的人机交互。此外,该模型还可以应用于音视频内容的自动生成和编辑,提高内容创作的效率和质量。
📄 摘要(原文)
In this report, we present Qwen2.5-Omni, an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. To enable the streaming of multimodal information inputs, both audio and visual encoders utilize a block-wise processing approach. To synchronize the timestamps of video inputs with audio, we organize the audio and video sequentially in an interleaved manner and propose a novel position embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently generate text and speech while avoiding interference between the two modalities, we propose \textbf{Thinker-Talker} architecture. In this framework, Thinker functions as a large language model tasked with text generation, while Talker is a dual-track autoregressive model that directly utilizes the hidden representations from the Thinker to produce audio tokens as output. Both the Thinker and Talker models are designed to be trained and inferred in an end-to-end manner. For decoding audio tokens in a streaming manner, we introduce a sliding-window DiT that restricts the receptive field, aiming to reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench. Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following is comparable to its capabilities with text inputs, as evidenced by benchmarks such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming Talker outperforms most existing streaming and non-streaming alternatives in robustness and naturalness.