APG-MOS: Auditory Perception Guided-MOS Predictor for Synthetic Speech

📄 arXiv: 2504.20447v1 📥 PDF

作者: Zhicheng Lian, Lizhi Wang, Hua Huang

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-04-29


💡 一句话要点

APG-MOS:提出听觉感知引导的MOS预测器,提升合成语音质量评估与人类判断一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音质量评估 MOS预测 听觉感知建模 语义失真建模 多模态融合

📋 核心要点

  1. 现有语音质量评估模型忽略了人类听觉感知机制,导致与主观评估结果存在偏差。
  2. APG-MOS模型模拟耳蜗功能,提取生物对齐的电化学表示,并结合语义失真建模,更贴近人类感知。
  3. 实验结果表明,APG-MOS在语音质量评估任务上表现优异,与人类判断的一致性更高。

📝 摘要(中文)

本文提出了一种听觉感知引导的平均意见得分(MOS)预测模型(APG-MOS),旨在通过计算模型量化语音的主观人类感知,从而减少耗时的人工评估。现有基于深度学习的模型在预测MOS以评估合成语音方面取得了进展,但忽略了基本的听觉感知机制,限制了与人类判断的一致性。APG-MOS将听觉建模与语义分析相结合,以增强与人类判断的一致性。具体来说,首先设计了一个基于生物听觉机制的感知模块来模拟耳蜗功能,将声学信号编码为生物对齐的电化学表示。其次,提出了一种基于残差向量量化(RVQ)的语义失真建模方法,以量化语义层面的语音质量下降。最后,设计了一种残差交叉注意力架构,结合渐进式学习策略,实现编码的电化学信号和语义表示的多模态融合。实验表明,APG-MOS在两个主要基准测试中取得了优异的性能。代码和检查点将在发表后公开。

🔬 方法详解

问题定义:论文旨在解决合成语音质量评估中,现有模型与人类主观感知一致性不高的问题。现有基于深度学习的MOS预测模型,虽然取得了一定进展,但忽略了人类听觉系统的基本感知机制,导致评估结果与人类的实际感受存在偏差。

核心思路:论文的核心思路是模拟人类听觉感知过程,将语音信号转化为更符合生物学原理的表示,并结合语义层面的分析,从而更准确地预测语音质量。通过引入听觉感知模块和语义失真建模,使模型能够更好地捕捉影响人类主观感受的关键因素。

技术框架:APG-MOS模型主要包含三个模块:1) 感知模块:模拟耳蜗功能,将声学信号编码为生物对齐的电化学表示;2) 语义失真建模模块:基于残差向量量化(RVQ)量化语义层面的语音质量下降;3) 多模态融合模块:使用残差交叉注意力架构,结合渐进式学习策略,融合电化学信号和语义表示。

关键创新:论文的关键创新在于将听觉感知建模引入到语音质量评估任务中。通过模拟耳蜗的生物学功能,提取更具生物学意义的语音特征,弥补了传统方法对人类听觉感知机制的忽略。此外,RVQ-based语义失真建模方法能够有效捕捉语音在语义层面的质量退化。

关键设计:感知模块的设计基于生物听觉机制,具体实现细节未知。RVQ-based语义失真建模方法的具体量化策略和码本设计未知。残差交叉注意力架构的具体结构和参数设置未知。渐进式学习策略的具体实现方式未知。损失函数的设计细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

APG-MOS在两个主流的合成语音质量评估基准测试中取得了优异的性能,表明其能够更准确地预测人类对合成语音质量的感知。具体的性能数据和对比基线未在摘要中给出,但强调了APG-MOS相比现有方法具有显著的优势。

🎯 应用场景

APG-MOS模型可应用于语音合成系统的质量评估、语音增强算法的性能评价、以及语音编码技术的优化等方面。该模型能够提供更准确、更符合人类感知的语音质量评估结果,有助于提升语音技术的用户体验,并推动语音技术的发展。

📄 摘要(原文)

Automatic speech quality assessment aims to quantify subjective human perception of speech through computational models to reduce the need for labor-consuming manual evaluations. While models based on deep learning have achieved progress in predicting mean opinion scores (MOS) to assess synthetic speech, the neglect of fundamental auditory perception mechanisms limits consistency with human judgments. To address this issue, we propose an auditory perception guided-MOS prediction model (APG-MOS) that synergistically integrates auditory modeling with semantic analysis to enhance consistency with human judgments. Specifically, we first design a perceptual module, grounded in biological auditory mechanisms, to simulate cochlear functions, which encodes acoustic signals into biologically aligned electrochemical representations. Secondly, we propose a residual vector quantization (RVQ)-based semantic distortion modeling method to quantify the degradation of speech quality at the semantic level. Finally, we design a residual cross-attention architecture, coupled with a progressive learning strategy, to enable multimodal fusion of encoded electrochemical signals and semantic representations. Experiments demonstrate that APG-MOS achieves superior performance on two primary benchmarks. Our code and checkpoint will be available on a public repository upon publication.