Dependence on Early and Late Reverberation of Single-Channel Speaker Distance Estimation

📄 arXiv: 2605.07694v1 📥 PDF

作者: Michael Neri, Archontis Politis, Tuomas Virtanen

分类: eess.AS, cs.AI, cs.SD, eess.SP

发布日期: 2026-05-08

备注: Submitted to IWAENC 2026


💡 一句话要点

揭示单通道说话人距离估计中早期反射与后期混响的依赖机制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 单通道距离估计 房间脉冲响应 早期反射 后期混响 声学场景分析 语音信号处理

📋 核心要点

  1. 现有单通道距离估计模型虽精度高,但其对房间脉冲响应中不同成分(直达声、早期反射、后期混响)的依赖机制尚不透明。
  2. 本文通过分解RIR并设置四种校准场景,系统性地量化了不同声学成分对距离估计任务的贡献度与鲁棒性。
  3. 实验表明,时间校准是实现厘米级精度的关键,而在未校准条件下,模型主要依赖早期反射线索进行距离推断。

📝 摘要(中文)

单通道说话人距离估计在模拟环境中已达到厘米级精度,但模型具体利用房间脉冲响应(RIR)的哪些成分以及性能如何受录音条件影响尚不明确。本文通过基于回声密度函数估计的混合时间,将模拟RIR分解为全响应、仅直达声、无后期混响和无早期反射四种变体。研究定义了从完全校准(同步捕获、已知源电平)到完全未校准(任意起始、未知电平)的四种场景。结果表明,在缺乏时间校准时,平均绝对误差(MAE)升至1.29米,模型主要依赖混响线索,其中早期反射信息贡献最大。针对直接混响比(DRR)、C50和T60的分析证实,早期能量越强精度越高,高混响环境则导致性能下降。若具备时间校准,模型仅通过提取传播延迟即可实现0.14米的MAE,且不受RIR具体内容影响。

🔬 方法详解

问题定义:单通道说话人距离估计在复杂声学环境下表现出不确定性。研究旨在探究模型在不同录音条件下(如是否已知传播延迟、源电平)究竟利用了RIR的哪部分特征,以及混响成分对估计精度的具体影响。

核心思路:通过将RIR分解为早期反射和后期混响,并结合四种不同程度的校准场景,系统地解构模型在不同信息约束下的决策逻辑,从而明确声学特征与距离估计性能之间的因果关系。

技术框架:研究采用基于回声密度函数估计的“混合时间”作为分界点,将RIR划分为早期反射和后期混响。实验设计了从完全校准(已知传播延迟和源电平)到完全未校准(仅有音频信号)的四种场景,并在匹配的数据集上进行对比评估。

关键创新:首次通过显式的RIR成分分解,量化了早期反射在缺乏时间同步信息时作为距离估计主要线索的作用,并揭示了传播延迟信息在距离估计中的决定性地位。

关键设计:利用回声密度函数确定混合时间以划分RIR;通过对比DRR(直接混响比)、C50(清晰度)和T60(混响时间)等声学指标,验证了模型性能与物理声学参数的相关性,明确了高混响环境对模型性能的负面影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,在完全校准场景下,模型通过提取传播延迟实现了0.14米的极高精度;而在未校准场景下,MAE增加至1.29米,此时模型主要依赖早期反射信息。研究明确了早期反射是提升距离估计鲁棒性的核心特征,而高混响环境则会显著降低模型性能。

🎯 应用场景

该研究为智能音箱、语音增强系统及室内定位技术提供了理论支撑。通过理解模型对混响的依赖,开发者可优化远场语音交互系统在复杂室内环境下的鲁棒性,并为无需多麦克风阵列的低成本单通道定位方案提供设计指导。

📄 摘要(原文)

Single-channel speaker distance estimation has recently achieved centimeter-level accuracy in simulated environments, yet it remains unclear which components of the room impulse response (RIR) the model exploits and how performance depends on the recording conditions. In this work, we decompose simulated RIRs into four variants (full, direct-only, no-late, and no-early) using the mixing time estimated from the echo density function as the boundary between early reflections and late reverberation. We define four calibration scenarios, from fully calibrated (synchronised capture, known source level) to fully uncalibrated (arbitrary onset, unknown level), and evaluate all combinations on a matched dataset. Results show that without time calibration, mean absolute error (MAE) increases to $1.29$ m and the model extracts reverberation-based cues, with early reflections emerging as the most informative component. Further analysis against DRR, $C_{50}$, and $T_{60}$ confirms that estimation accuracy improves with stronger early energy and degrades in highly reverberant environments. When time calibration is available, the model achieves a MAE of $0.14$ m by extracting the propagation delay alone, regardless of the RIR content.