Qwen3.5-Omni Technical Report
作者: Qwen Team
分类: cs.CL, eess.AS
发布日期: 2026-04-17
💡 一句话要点
Qwen3.5-Omni:基于混合专家注意力机制实现卓越的多模态理解与生成能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 混合专家模型 长序列建模 语音合成 视听理解 跨语言生成 视听氛围编码
📋 核心要点
- 现有流式语音合成存在不稳定和不自然的问题,源于文本和语音 tokenizer 编码效率的差异。
- Qwen3.5-Omni 采用混合专家注意力机制,并引入 ARIA 动态对齐文本和语音单元,提升语音合成的稳定性和韵律。
- Qwen3.5-Omni 在 215 个音频和视听任务上取得 SOTA 结果,并在关键音频任务中超越 Gemini-3.1 Pro。
📝 摘要(中文)
本文介绍了Qwen3.5-Omni,Qwen-Omni模型系列的最新进展。相较于前代模型,Qwen3.5-Omni扩展到数千亿参数,并支持256k上下文长度。通过利用包含异构文本-视觉对和超过1亿小时视听内容的大规模数据集,该模型展示了强大的全模态能力。Qwen3.5-Omni-plus在215个音频和视听理解、推理和交互子任务及基准测试中取得了SOTA结果,在关键音频任务中超越了Gemini-3.1 Pro,并在全面的视听理解方面与之匹敌。在架构上,Qwen3.5-Omni为Thinker和Talker采用了混合注意力混合专家(MoE)框架,从而实现了高效的长序列推理。该模型支持复杂的交互,支持超过10小时的音频理解和400秒的720P视频(1 FPS)。为了解决流式语音合成中固有的不稳定性和不自然性问题,我们引入了ARIA。ARIA动态对齐文本和语音单元,显著提高了对话语音的稳定性和韵律,且延迟影响最小。此外,Qwen3.5-Omni扩展了语言边界,支持10种语言的多语言理解和语音生成,并具有类人的情感细微差别。最后,Qwen3.5-Omni表现出卓越的视听 grounding 能力,生成具有精确时间同步和自动场景分割的脚本级结构化字幕。值得注意的是,我们观察到全模态模型中出现了一种新能力:直接基于视听指令执行编码,我们称之为视听氛围编码。
🔬 方法详解
问题定义:现有的大型多模态模型在处理长序列音频和视频时,面临计算效率和信息利用率的挑战。特别是在流式语音合成中,文本和语音 tokenizer 的编码效率差异会导致合成语音的不稳定和不自然。此外,如何有效利用大规模异构视听数据,提升模型在复杂视听任务中的理解和推理能力也是一个关键问题。
核心思路:Qwen3.5-Omni 的核心思路是利用混合专家注意力机制(MoE)来提升模型处理长序列数据的能力,并引入 ARIA 机制来动态对齐文本和语音单元,从而解决流式语音合成中的稳定性和自然性问题。通过大规模异构视听数据的训练,提升模型在各种视听任务上的性能。
技术框架:Qwen3.5-Omni 采用了 Hybrid Attention Mixture-of-Experts (MoE) 框架,分别应用于 Thinker 和 Talker 模块。Thinker 负责理解输入的多模态信息,Talker 负责生成相应的输出。ARIA 模块则负责动态对齐文本和语音单元,优化语音合成效果。整体流程包括:多模态数据输入 -> Thinker 模块进行信息编码 -> Talker 模块生成输出 -> ARIA 模块优化语音合成(如果涉及)。
关键创新:Qwen3.5-Omni 的关键创新点包括:1) 采用混合专家注意力机制,提升长序列处理能力;2) 引入 ARIA 机制,解决流式语音合成中的稳定性和自然性问题;3) 观察到全模态模型中出现了一种新能力:直接基于视听指令执行编码,即视听氛围编码。与现有方法的本质区别在于,Qwen3.5-Omni 更注重于提升长序列数据的处理效率和语音合成的质量,并探索了新的视听编码能力。
关键设计:在混合专家注意力机制中,专家数量和路由策略是关键参数。ARIA 模块的关键设计在于如何有效地对齐文本和语音单元,以及如何平衡稳定性和延迟。损失函数的设计需要考虑多模态信息的融合和语音合成的质量。具体的网络结构细节和参数设置在论文中可能没有详细公开,属于商业机密。
🖼️ 关键图片
📊 实验亮点
Qwen3.5-Omni-plus 在 215 个音频和视听理解、推理和交互子任务及基准测试中取得了 SOTA 结果,在关键音频任务中超越了 Gemini-3.1 Pro,并在全面的视听理解方面与之匹敌。模型支持超过 10 小时的音频理解和 400 秒的 720P 视频(1 FPS)。
🎯 应用场景
Qwen3.5-Omni 在智能客服、语音助手、视频内容理解、自动化视频编辑、多语言交流等领域具有广泛的应用前景。它可以用于生成高质量的语音合成,理解复杂的视听内容,并根据视听指令进行编码。未来的发展方向包括提升模型的泛化能力、降低计算成本、以及探索更多新的多模态应用。
📄 摘要(原文)
In this work, we present Qwen3.5-Omni, the latest advancement in the Qwen-Omni model family. Representing a significant evolution over its predecessor, Qwen3.5-Omni scales to hundreds of billions of parameters and supports a 256k context length. By leveraging a massive dataset comprising heterogeneous text-vision pairs and over 100 million hours of audio-visual content, the model demonstrates robust omni-modality capabilities. Qwen3.5-Omni-plus achieves SOTA results across 215 audio and audio-visual understanding, reasoning, and interaction subtasks and benchmarks, surpassing Gemini-3.1 Pro in key audio tasks and matching it in comprehensive audio-visual understanding. Architecturally, Qwen3.5-Omni employs a Hybrid Attention Mixture-of-Experts (MoE) framework for both Thinker and Talker, enabling efficient long-sequence inference. The model facilitates sophisticated interaction, supporting over 10 hours of audio understanding and 400 seconds of 720P video (at 1 FPS). To address the inherent instability and unnaturalness in streaming speech synthesis, often caused by encoding efficiency discrepancies between text and speech tokenizers, we introduce ARIA. ARIA dynamically aligns text and speech units, significantly enhancing the stability and prosody of conversational speech with minimal latency impact. Furthermore, Qwen3.5-Omni expands linguistic boundaries, supporting multilingual understanding and speech generation across 10 languages with human-like emotional nuance. Finally, Qwen3.5-Omni exhibits superior audio-visual grounding capabilities, generating script-level structured captions with precise temporal synchronization and automated scene segmentation. Remarkably, we observed the emergence of a new capability in omnimodal models: directly performing coding based on audio-visual instructions, which we call Audio-Visual Vibe Coding.