Investigation for Relative Voice Impression Estimation
作者: Kenichi Fujita, Yusuke Ijima
分类: cs.SD, cs.CL, cs.LG
发布日期: 2026-02-15 (更新: 2026-02-18)
备注: 5 pages,3 figures, Accepted to Speech Prosody 2026
💡 一句话要点
提出相对语音印象估计框架,利用自监督语音表征捕捉细微感知差异。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 相对语音印象估计 自监督学习 语音表征 语音情感识别 多模态学习
📋 核心要点
- 现有语音印象研究主要集中于绝对评分,忽略了语音间的细微相对差异。
- 论文提出相对语音印象估计框架,通过预测语音对的感知差异来捕捉细微变化。
- 实验表明,自监督语音表征模型在捕捉复杂印象方面优于传统声学特征。
📝 摘要(中文)
语音的超语言和非语言特征会显著影响听者的印象。本研究着重于相对语音印象估计(RIE),旨在预测同一说话人两次发声之间的感知差异,而非绝对印象评分。估计目标是一个低维向量,该向量源于主观评估,量化了第二次发声相对于第一次发声在对立轴(例如,“暗淡-明亮”)上的感知变化。为了隔离表达和韵律的变化,我们使用了专业说话人以各种风格朗读文本的录音。我们比较了三种建模方法:用于语音情感识别的经典声学特征、自监督语音表征和多模态大型语言模型(MLLM)。结果表明,使用自监督表征的模型优于使用经典声学特征的方法,尤其是在捕捉复杂和动态的印象(例如,“冷淡-热情”)时,经典特征在这方面表现不佳。相比之下,目前的多模态大型语言模型对于这种细粒度的成对任务来说并不可靠。本研究首次对相对语音印象估计进行了系统研究,并证明了自监督语音模型在捕捉细微感知变化方面的优势。
🔬 方法详解
问题定义:论文旨在解决相对语音印象估计(RIE)问题,即预测同一说话人两次发声之间的感知差异。现有方法主要关注绝对语音印象的评分,忽略了语音间的细微相对变化,并且传统声学特征在捕捉复杂和动态的印象方面存在局限性。
核心思路:论文的核心思路是利用自监督学习得到的语音表征来捕捉语音中细微的表达和韵律变化,从而更准确地估计语音间的相对感知差异。这种方法能够更好地捕捉语音的上下文信息和高层次特征,克服了传统声学特征的不足。
技术框架:整体框架包括以下几个主要步骤:1) 数据收集:专业说话人以不同风格朗读文本,形成语音数据集;2) 特征提取:分别提取经典声学特征、自监督语音表征以及使用多模态大语言模型提取的特征;3) 模型训练:使用提取的特征训练模型,预测语音对在对立轴上的感知差异;4) 模型评估:评估不同模型在RIE任务上的性能。
关键创新:论文的关键创新在于首次提出了相对语音印象估计(RIE)框架,并验证了自监督语音表征在捕捉细微感知变化方面的有效性。与以往研究关注绝对语音印象评分不同,该研究关注语音间的相对差异,更符合实际应用场景。
关键设计:论文使用了多种自监督语音表征模型,例如 Wav2Vec 2.0 和 HuBERT。损失函数采用均方误差(MSE)来衡量预测的感知差异与主观评估之间的差距。实验中,对不同模型的参数进行了调整,并采用了交叉验证等方法来保证结果的可靠性。
📊 实验亮点
实验结果表明,使用自监督语音表征的模型在相对语音印象估计任务中表现优于使用经典声学特征的模型,尤其是在捕捉复杂和动态的印象(例如,“冷淡-热情”)时,性能提升显著。而多模态大型语言模型在此任务中表现不佳,表明其在细粒度语音感知任务中仍存在局限性。
🎯 应用场景
该研究成果可应用于语音合成、情感识别、人机交互等领域。例如,可以用于控制语音合成系统的风格,使其更符合用户的需求;也可以用于提高情感识别的准确率,从而更好地理解人类的情感状态。此外,该研究还有助于开发更自然、更人性化的人机交互系统。
📄 摘要(原文)
Paralinguistic and non-linguistic aspects of speech strongly influence listener impressions. While most research focuses on absolute impression scoring, this study investigates relative voice impression estimation (RIE), a framework for predicting the perceptual difference between two utterances from the same speaker. The estimation target is a low-dimensional vector derived from subjective evaluations, quantifying the perceptual shift of the second utterance relative to the first along an antonymic axis (e.g.,
Dark--Bright''). To isolate expressive and prosodic variation, we used recordings of a professional speaker reading a text in various styles. We compare three modeling approaches: classical acoustic features commonly used for speech emotion recognition, self-supervised speech representations, and multimodal large language models (MLLMs). Our results demonstrate that models using self-supervised representations outperform methods with classical acoustic features, particularly in capturing complex and dynamic impressions (e.g.,Cold--Warm'') where classical features fail. In contrast, current MLLMs prove unreliable for this fine-grained pairwise task. This study provides the first systematic investigation of RIE and demonstrates the strength of self-supervised speech models in capturing subtle perceptual variations.