A Cold Diffusion Approach for Percussive Dereverberation
作者: Dimos Makris, András Barják, Maximos Kaliakatsos-Papakostas
分类: cs.SD, cs.AI
发布日期: 2026-05-11
备注: Accepted for the 2026 IEEE World Congress on Computational Intelligence, IJCNN Track, 21-26 June 2026, Maastricht, the Netherlands
💡 一句话要点
提出基于冷扩散(Cold Diffusion)的打击乐去混响框架,有效处理瞬态信号的复杂混响问题。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 音频去混响 冷扩散 打击乐处理 扩散Transformer 信号处理 音乐信息检索
📋 核心要点
- 现有去混响研究主要针对语音,忽略了打击乐信号中尖锐瞬态和密集时域结构带来的独特挑战。
- 提出冷扩散框架,将混响建模为确定性退化过程,通过反向过程参数化实现从混响到干声的映射。
- 实验证明该方法在打击乐去混响任务中优于主流扩散模型,在信号质量与感知指标上均取得显著提升。
📝 摘要(中文)
当前音频去混响研究多集中于语音领域,而打击乐信号因其尖锐的瞬态特征和密集的时域结构,在音乐制作中的去混响研究仍处于空白。本文提出了一种用于立体声鼓组音轨去混响的冷扩散(Cold Diffusion)框架,将混响建模为一个确定性的退化过程,即逐步将干声信号转化为混响信号。研究探讨了两种反向过程参数化方法:直接预测(Direct)和增量归一化残差预测(Delta-normalized residual),并分别基于UNet和扩散Transformer架构进行了实现。模型在包含声学和电子鼓录音的精选数据集上进行了训练与评估,混响模拟结合了合成与真实房间脉冲响应。实验结果表明,该方法在域内及域外测试集上,均优于现有的基于分数(Score-based)和条件扩散的基线模型,并在针对打击乐音频定制的信号与感知指标上表现出色。
🔬 方法详解
问题定义:打击乐信号具有极高的瞬态密度和复杂的时域包络,传统的语音去混响模型在处理此类信号时,往往会导致瞬态模糊或音色失真,难以在保持打击感的同时有效去除混响。
核心思路:论文引入冷扩散(Cold Diffusion)框架,放弃了传统扩散模型中基于高斯噪声的随机退化假设,转而采用确定性的退化过程,直接对混响过程进行建模,从而更精准地捕捉音频信号的物理退化特性。
技术框架:整体架构包含前向退化过程和反向恢复过程。前向过程通过确定性算子将干声逐步转化为混响信号;反向过程则利用深度神经网络学习从混响状态恢复至干声的映射,支持UNet和扩散Transformer两种骨干网络。
关键创新:引入了两种反向过程参数化策略:一是直接预测下一状态(Direct),二是预测增量归一化的残差(Delta-normalized residual,即速度风格预测),这种设计能更好地适应打击乐信号的动态范围变化。
关键设计:模型在训练中结合了合成与真实房间脉冲响应(RIR),确保了模型对不同声学环境的鲁棒性。通过对比UNet与Transformer架构,验证了不同网络结构在处理长时序打击乐依赖关系时的性能差异。
🖼️ 关键图片
📊 实验亮点
实验结果显示,该方法在打击乐去混响任务中全面超越了现有的基于分数(Score-based)和条件扩散的基线模型。通过使用针对打击乐定制的信号指标(如瞬态保持度)和感知评估指标,验证了模型在处理域内及完全域外(Out-of-domain)数据时,均能保持极高的去混响精度与音质还原度,证明了冷扩散框架在处理非平稳音频信号时的优越性。
🎯 应用场景
该技术主要应用于音乐制作与后期处理领域,可用于修复录音环境不佳的鼓组音轨,提升混音质量。此外,该方法在音频源分离、虚拟乐器采样库制作以及沉浸式音频处理中具有广泛的应用前景,能够显著降低专业音频工程师在处理复杂混响环境下的手动修复工作量。
📄 摘要(原文)
Most recent advances in audio dereverberation focus almost exclusively on speech, leaving percussive and drum signals largely unexplored despite their importance in music production. Percussive dereverberation poses distinct challenges due to sharp transients and dense temporal structure. In this work, we propose a cold diffusion framework for dereverberating stereo drum stems (downmixes), modeling reverberation as a deterministic degradation process that progressively transforms anechoic signals into reverberant ones. We investigate two reverse-process parameterizations, Direct (next-state) and a Delta-normalized residual (velocity-style) prediction, and implement the framework using both a UNet and a diffusion Transformer backbone. The models are trained and evaluated on curated datasets comprising both acoustic and electronic drum recordings, with reverberation generated using a combination of synthetic and real room impulse responses. Extensive experiments on in-domain and fully out-of-domain test sets demonstrate that the proposed method consistently outperforms strong score-based and conditional diffusion baselines, evaluated using signal-based and perceptual metrics tailored to percussive audio.