Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis
作者: Robin Doerfler, Lonce Wyse
分类: cs.SD, cs.AI, eess.AS
发布日期: 2026-03-10
备注: Preprint. 5 pages, 2 figures. Audio examples, code, and model weights available online
💡 一句话要点
提出基于物理信息的神经引擎声音建模方法,实现可微分的脉冲序列合成。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 引擎声音建模 物理信息神经网络 可微分信号处理 脉冲序列合成 Karplus-Strong谐振器
📋 核心要点
- 传统神经音频合成方法难以捕捉引擎声音的物理特性,导致合成效果不佳且缺乏可解释性。
- 提出脉冲序列-谐振器(PTR)模型,直接建模引擎排气脉冲和排气系统的声学特性。
- 实验表明,PTR模型在谐波重建和总损失方面优于传统方法,并提供可解释的物理参数。
📝 摘要(中文)
引擎声音源于连续的排气压力脉冲,而非持续的谐波振荡。传统的神经合成方法通常旨在近似最终的频谱特征,而本文提出直接建模潜在的脉冲形状和时间结构。我们提出了脉冲序列-谐振器(PTR)模型,这是一种可微分的合成架构,它将引擎音频生成为参数化的脉冲序列,这些脉冲序列与引擎点火模式对齐,并通过递归的Karplus-Strong谐振器传播,模拟排气声学。该架构集成了物理信息归纳偏置,包括谐波衰减、热力学音高调制、气门动力学包络、排气系统共振以及推导出的引擎运行模式,例如油门操作和减速断油(DCFO)。在三种不同的引擎类型(总计7.5小时的音频)上验证,PTR在谐波重建方面实现了21%的改进,总损失降低了5.7%,同时提供了对应于物理现象的可解释参数。完整的代码、模型权重和音频示例已公开。
🔬 方法详解
问题定义:传统引擎声音的神经建模方法通常侧重于近似频谱特征,忽略了引擎声音产生的物理机制,即由一系列排气压力脉冲而非持续谐波振荡产生。这导致合成的声音缺乏真实感,并且难以控制和解释。
核心思路:本文的核心思路是直接建模引擎声音的物理产生过程,即建模排气脉冲的形状和时间结构,并模拟排气系统的声学特性。通过将物理知识融入到神经网络架构中,可以提高合成声音的真实感和可控性。
技术框架:PTR模型包含两个主要模块:脉冲序列生成器和谐振器。脉冲序列生成器根据引擎的点火模式生成参数化的脉冲序列,这些参数包括脉冲形状、幅度和时间。谐振器模块使用递归的Karplus-Strong结构模拟排气系统的声学特性,将脉冲序列传播通过谐振器,生成最终的引擎声音。
关键创新:PTR模型的关键创新在于将物理信息融入到神经网络架构中。具体来说,模型集成了谐波衰减、热力学音高调制、气门动力学包络、排气系统共振等物理参数,这些参数可以直接控制合成声音的物理特性。此外,模型还考虑了引擎的运行模式,例如油门操作和减速断油,以提高合成声音的真实感。
关键设计:PTR模型使用可微分的Karplus-Strong结构,使得整个模型可以进行端到端的训练。损失函数包括谐波重建损失和总损失,用于优化模型的参数。模型的参数包括脉冲形状、幅度和时间,以及谐振器的参数,这些参数都可以通过训练进行优化。
🖼️ 关键图片
📊 实验亮点
在三种不同的引擎类型(总计7.5小时的音频)上验证,PTR模型在谐波重建方面实现了21%的改进,总损失降低了5.7%,优于谐波加噪声的基线模型。实验结果表明,PTR模型能够更真实地模拟引擎声音,并提供可解释的物理参数。
🎯 应用场景
该研究成果可应用于汽车音效设计、虚拟现实、游戏开发等领域。通过PTR模型,可以更真实地模拟各种引擎声音,提升用户体验。此外,该模型还可以用于引擎故障诊断和性能优化,通过分析引擎声音的物理参数,可以检测引擎的异常情况并进行相应的调整。
📄 摘要(原文)
Engine sounds originate from sequential exhaust pressure pulses rather than sustained harmonic oscillations. While neural synthesis methods typically aim to approximate the resulting spectral characteristics, we propose directly modeling the underlying pulse shapes and temporal structure. We present the Pulse-Train-Resonator (PTR) model, a differentiable synthesis architecture that generates engine audio as parameterized pulse trains aligned to engine firing patterns and propagates them through recursive Karplus-Strong resonators simulating exhaust acoustics. The architecture integrates physics-informed inductive biases including harmonic decay, thermodynamic pitch modulation, valve-dynamics envelopes, exhaust system resonances and derived engine operating modes such as throttle operation and deceleration fuel cutoff (DCFO). Validated on three diverse engine types totaling 7.5 hours of audio, PTR achieves a 21% improvement in harmonic reconstruction and a 5.7% reduction in total loss over a harmonic-plus-noise baseline model, while providing interpretable parameters corresponding to physical phenomena. Complete code, model weights, and audio examples are openly available.