MOSS-Audio Technical Report

📄 arXiv: 2606.01802v1 📥 PDF

作者: Chen Yang, Chufan Yu, Hanfu Chen, Jie Zhu, Jingqi Chen, Ke Chen, Wenxuan Wang, Yang Wang, Yaozhou Jiang, Yi Jiang, Zhengyuan Lin, Ziqi Chen, Zhaoye Fei, Chenghao Liu, Jun Zhan, Kang Yu, Kexin Huang, Mingshu Chen, Qinyuan Cheng, Ruixiao Li, Shimin Li, Songlin Wang, Yang Gao, Yiyang Zhang, Xipeng Qiu

分类: cs.SD, cs.AI

发布日期: 2026-06-01


💡 一句话要点

MOSS-Audio:面向语音、环境声和音乐理解的统一音视频语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频语言模型 音频理解 时间感知 跨层特征注入 时间标记 语音识别 音频描述

📋 核心要点

  1. 现有音频理解模型在处理多种音频类型和时间感知任务方面存在局限性,难以实现统一建模。
  2. MOSS-Audio通过DeepStack跨层特征注入和时间标记,增强了模型对音频内容和时间信息的理解能力。
  3. MOSS-Audio在通用音频理解、语音描述、ASR和带时间戳的ASR等任务上表现出色,证明了其有效性。

📝 摘要(中文)

MOSS-Audio是一个统一的音视频语言模型,旨在理解语音、环境声音和音乐。它支持音频描述、时间感知问答、带时间戳的转录和音频相关的推理。MOSS-Audio将一个专用的音频编码器与一个模态适配器和一个大型语言模型相结合:编码器产生12.5 Hz的时间表示,适配器将它们投影到解码器空间,解码器生成自回归文本输出。该系统的两个核心设计是:DeepStack跨层特征注入,它使解码器能够访问来自多个编码器深度的声学信息;以及时间标记,它通过将时间戳标记插入到音频token流中来提供显式的时间线索。在数据层面,我们设计了一个事件保留的音频标注流程,该流程在连贯的事件边界处分割原始音频,将特定分支的标注应用于语音、音乐和通用音频,并将结果合并为用于预训练的统一描述。中间的特定分支描述被进一步保留,以支持面向任务的SFT数据的构建。该模型在大型音视频语言数据上进行预训练,其中包含时间感知目标以支持时间定位,然后进行多阶段后训练以增强指令跟随和音频相关的推理。我们发布了Instruct和Thinking配置的4B和8B变体。MOSS-Audio在通用音频理解、语音描述、ASR和带时间戳的ASR方面取得了强大的性能,使其成为未来语音代理的有希望的理解基础。

🔬 方法详解

问题定义:现有音频理解模型通常针对特定类型的音频(如语音或音乐)进行优化,缺乏通用性。此外,许多模型在处理需要时间感知的任务(如时间戳转录和音频定位)时表现不佳。这些局限性阻碍了构建能够全面理解音频内容并进行复杂推理的智能语音代理。

核心思路:MOSS-Audio的核心思路是构建一个统一的音视频语言模型,能够处理多种音频类型(语音、环境声、音乐)并支持时间感知任务。通过将音频编码器、模态适配器和大型语言模型相结合,并引入DeepStack跨层特征注入和时间标记等技术,模型能够更好地理解音频内容和时间信息,从而实现更强大的音频理解和推理能力。

技术框架:MOSS-Audio的整体架构包括三个主要模块:1) 音频编码器:负责将原始音频转换为12.5 Hz的时间表示。2) 模态适配器:将音频编码器的输出投影到大型语言模型的解码器空间。3) 大型语言模型:基于音频表示生成自回归文本输出,完成各种音频理解任务。此外,数据层面采用事件保留的音频标注流程,对语音、音乐和通用音频进行特定分支的标注,并合并为统一描述。

关键创新:MOSS-Audio的关键创新在于以下两点:1) DeepStack跨层特征注入:通过将来自多个编码器深度的声学信息暴露给解码器,增强了模型对音频内容的理解能力。2) 时间标记:通过在音频token流中插入时间戳标记,为模型提供显式的时间线索,从而支持时间感知任务。

关键设计:在数据层面,设计了事件保留的音频标注流程,确保标注的准确性和一致性。在模型训练方面,采用了时间感知目标,以支持时间定位。此外,模型还经过多阶段后训练,以增强指令跟随和音频相关的推理能力。模型发布了4B和8B两种变体,以及Instruct和Thinking两种配置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MOSS-Audio在通用音频理解、语音描述、ASR和带时间戳的ASR等任务上取得了显著的性能提升。具体数据未在摘要中给出,但强调了其在多个任务上的强大性能,表明其在音频理解方面的有效性。

🎯 应用场景

MOSS-Audio具有广泛的应用前景,可用于构建智能语音助手、自动语音转录系统、音乐信息检索系统等。它还可以应用于音频内容分析、音频事件检测、音频取证等领域。该研究的成果将推动音频理解技术的发展,为未来的语音交互应用奠定基础。

📄 摘要(原文)

MOSS-Audio is a unified audio-language model for speech, environmental sound, and music understanding, supporting audio captioning, time-aware question answering, timestamped transcription, and audio-grounded reasoning. MOSS-Audio couples a dedicated audio encoder with a modality adapter and a large language model: the encoder produces 12.5 Hz temporal representations, the adapter projects them into the decoder space, and the decoder generates autoregressive text outputs. Two design choices are central to the system: \textbf{DeepStack cross-layer feature injection}, which exposes the decoder to acoustic information from multiple encoder depths, and \textbf{time markers}, which provide explicit temporal cues by inserting timestamp markers into the audio-token stream. At the data level, we design an event-preserving audio annotation pipeline that segments raw audio at coherent event boundaries, applies branch-specific annotation to speech, music, and general audio, and merges the results into unified captions for pretraining. The intermediate branch-specific captions are further retained to support the construction of task-oriented SFT data. The model is pretrained on large-scale audio-language data, with time-aware objectives incorporated to support temporal grounding, and then undergoes multi-stage post-training to enhance instruction following and audio-grounded reasoning. We release 4B and 8B variants in both Instruct and Thinking configurations. MOSS-Audio achieves strong performance across general audio understanding, speech captioning, ASR, and timestamped ASR, positioning it as a promising understanding foundation for future voice agents.