Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders

📄 arXiv: 2510.23802v1 📥 PDF

作者: Nathan Paek, Yongyi Zang, Qihui Yang, Randal Leistikow

分类: cs.LG, cs.SD

发布日期: 2025-10-27

备注: Accepted to NeurIPS 2025 Mechanistic Interpretability Workshop


💡 一句话要点

提出基于稀疏自编码器的音频隐空间可解释特征学习框架,用于分析和控制AI音乐生成。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 音频生成 可解释性 稀疏自编码器 隐空间 声学属性 音乐分析 AI音乐

📋 核心要点

  1. 音频生成的密集特性导致压缩损失语义信息,现有方法难以提取可解释的音频特征。
  2. 通过在音频自编码器隐空间训练稀疏自编码器,并学习SAE特征到声学属性的映射,实现可解释性。
  3. 在多种音频隐空间验证了该方法,并分析了文本到音乐模型DiffRhythm的声学属性演变过程。

📝 摘要(中文)

本文提出了一种用于解释音频生成模型的新框架,该框架通过将模型的隐表示映射到人类可理解的声学概念来实现。该方法首先在音频自编码器的隐空间上训练稀疏自编码器(SAE),然后学习从SAE特征到离散化声学属性(音高、幅度和音色)的线性映射。这使得能够对AI音乐生成过程进行可控的操作和分析,揭示声学属性在合成过程中如何产生。该方法在连续(DiffRhythm-VAE)和离散(EnCodec, WavTokenizer)音频隐空间上进行了验证,并分析了最先进的文本到音乐模型DiffRhythm,以展示音高、音色和响度如何在生成过程中演变。虽然目前只在音频模态上进行了研究,但该框架可以扩展到视觉隐空间生成模型的可解释性分析。

🔬 方法详解

问题定义:现有方法在音频生成领域,难以从隐空间中提取出具有语义意义且可解释的特征。音频数据的高维度和连续性使得直接应用稀疏自编码器面临挑战,压缩过程容易丢失重要的声学信息,导致特征难以与人类感知的声学属性关联。因此,如何有效地将音频隐空间映射到人类可理解的声学概念是亟待解决的问题。

核心思路:本文的核心思路是利用稀疏自编码器(SAE)从音频自编码器的隐空间中提取稀疏特征,并通过学习线性映射将这些稀疏特征与离散化的声学属性(音高、幅度、音色)关联起来。通过这种方式,可以将复杂的音频隐空间分解为更易于理解和控制的声学属性,从而实现对音频生成过程的可解释性分析和控制。

技术框架:该框架主要包含以下几个阶段:1) 使用音频自编码器(如VAE、EnCodec、WavTokenizer)将原始音频数据编码到隐空间;2) 在自编码器的隐空间上训练稀疏自编码器(SAE),提取稀疏特征;3) 学习从SAE特征到离散化声学属性(音高、幅度、音色)的线性映射;4) 利用学习到的映射关系,分析和控制音频生成过程中的声学属性演变。

关键创新:该方法最重要的创新点在于将稀疏自编码器与线性映射相结合,实现了音频隐空间到人类可理解的声学属性的桥梁。与直接在原始音频数据上训练SAE相比,该方法利用了预训练的音频自编码器,降低了SAE的学习难度,并更好地保留了音频的语义信息。此外,通过学习线性映射,可以将SAE提取的抽象特征与具体的声学属性关联起来,从而实现可解释性。

关键设计:在SAE的训练过程中,使用了L1正则化来鼓励稀疏性。线性映射的学习可以通过最小化均方误差等损失函数来实现。声学属性的离散化方式会影响最终的解释效果,需要根据具体的应用场景进行选择。例如,可以使用k-means聚类等方法将连续的音高值离散化为若干个音高类别。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在DiffRhythm-VAE、EnCodec和WavTokenizer等多种音频隐空间上进行了验证,证明了其有效性。通过分析DiffRhythm模型,揭示了音高、音色和响度等声学属性在文本到音乐生成过程中的演变规律。实验结果表明,该方法能够有效地提取音频隐空间中的可解释特征,并实现对音频生成过程的控制。

🎯 应用场景

该研究成果可应用于AI音乐生成、音频编辑、音乐分析等领域。通过理解和控制音频生成模型中的声学属性,可以实现更具创意和个性化的音乐创作。此外,该方法还可以用于分析现有音乐作品的声学特征,为音乐教育和研究提供新的工具。未来,该框架有望扩展到其他模态,如视觉,以实现更广泛的可解释性分析。

📄 摘要(原文)

While sparse autoencoders (SAEs) successfully extract interpretable features from language models, applying them to audio generation faces unique challenges: audio's dense nature requires compression that obscures semantic meaning, and automatic feature characterization remains limited. We propose a framework for interpreting audio generative models by mapping their latent representations to human-interpretable acoustic concepts. We train SAEs on audio autoencoder latents, then learn linear mappings from SAE features to discretized acoustic properties (pitch, amplitude, and timbre). This enables both controllable manipulation and analysis of the AI music generation process, revealing how acoustic properties emerge during synthesis. We validate our approach on continuous (DiffRhythm-VAE) and discrete (EnCodec, WavTokenizer) audio latent spaces, and analyze DiffRhythm, a state-of-the-art text-to-music model, to demonstrate how pitch, timbre, and loudness evolve throughout generation. While our work is only done on audio modality, our framework can be extended to interpretable analysis of visual latent space generation models.