Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

📄 arXiv: 2603.10827v1 📥 PDF

作者: Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim Dehak

分类: cs.SD, cs.AI

发布日期: 2026-03-11

备注: 3 Tables, 1 Figure, Under review


💡 一句话要点

提出一种基于语音感知LLM的说话人验证方法,并进行评估和增强。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 说话人验证 大型语言模型 语音感知 ECAPA-TDNN LoRA 模型增强 迁移学习

📋 核心要点

  1. 现有语音感知LLM的训练目标主要关注语言内容,忽略了说话人身份信息的编码。
  2. 通过注入冻结的ECAPA-TDNN说话人嵌入并训练LoRA适配器,增强LLM的说话人验证能力。
  3. 实验表明,增强后的ECAPA-LLM在说话人验证任务上取得了显著的性能提升,接近专用系统。

📝 摘要(中文)

本文研究了语音感知大型语言模型(LLM)在说话人验证中的应用。尽管这些模型可以接受语音输入,但其训练目标主要侧重于语言内容或特定领域(如情感或说话人性别),因此尚不清楚它们是否编码了说话人身份。首先,我们提出了一种模型无关的评分协议,该协议使用置信度分数或来自Yes/No token概率的对数似然比,为API和开源模型生成连续的验证分数。使用此协议,我们对最新的语音感知LLM进行了基准测试,并观察到较弱的说话人区分能力(在VoxCeleb1上的EER高于20%)。其次,我们引入了一种轻量级增强方法,通过学习到的投影注入冻结的ECAPA-TDNN说话人嵌入,并仅训练LoRA适配器,从而使LLM具备ASV能力。在TinyLLaMA-1.1B上,由此产生的ECAPA-LLM在VoxCeleb1-E上实现了1.03%的EER,接近专用说话人验证系统的性能,同时保留了自然语言接口。

🔬 方法详解

问题定义:论文旨在解决语音感知LLM在说话人验证任务中表现不佳的问题。现有的语音感知LLM虽然能够处理语音输入,但其训练目标主要集中在语言内容,例如文本转录、情感识别等,而忽略了说话人身份信息的有效编码。因此,直接使用这些LLM进行说话人验证时,性能往往很差。

核心思路:论文的核心思路是通过将预训练的说话人嵌入信息注入到LLM中,从而增强LLM对说话人身份的感知能力。具体来说,利用一个预训练的说话人验证模型(ECAPA-TDNN)提取说话人嵌入,然后通过一个可学习的投影层将这些嵌入信息融入到LLM中。

技术框架:整体框架包括三个主要步骤:1) 使用ECAPA-TDNN模型提取语音的说话人嵌入;2) 通过一个可学习的线性投影层将说话人嵌入映射到LLM的隐藏层维度;3) 将映射后的说话人嵌入注入到LLM的每一层中。为了减少训练参数,只训练LoRA适配器,保持LLM主体参数冻结。

关键创新:关键创新在于提出了一种轻量级的增强方法,通过注入预训练的说话人嵌入,有效地提升了LLM在说话人验证任务中的性能,同时保留了LLM的自然语言处理能力。此外,使用LoRA适配器进行训练,大大减少了训练参数,使得该方法可以应用于较大的LLM模型。

关键设计:ECAPA-TDNN模型用于提取说话人嵌入,该模型在说话人验证任务上表现出色。线性投影层用于将说话人嵌入映射到LLM的隐藏层维度,其参数通过训练进行优化。LoRA适配器被添加到LLM的每一层,用于调整LLM的输出,以更好地利用注入的说话人嵌入信息。损失函数采用交叉熵损失,用于优化LoRA适配器的参数。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,通过注入ECAPA-TDNN说话人嵌入并训练LoRA适配器,TinyLLaMA-1.1B模型在VoxCeleb1-E数据集上实现了1.03%的EER,显著优于未增强的LLM,并且接近专用说话人验证系统的性能。这表明该方法能够有效地提升LLM在说话人验证任务中的性能。

🎯 应用场景

该研究成果可应用于各种需要说话人身份验证的场景,例如语音助手、智能家居、金融安全等。通过将说话人验证能力集成到LLM中,可以实现更加自然和便捷的人机交互,提高系统的安全性和可靠性。未来,该方法还可以扩展到其他多模态任务中,例如语音情感识别、语音内容理解等。

📄 摘要(原文)

Speech-aware large language models (LLMs) can accept speech inputs, yet their training objectives largely emphasize linguistic content or specific fields such as emotions or the speaker's gender, leaving it unclear whether they encode speaker identity. First, we propose a model-agnostic scoring protocol that produces continuous verification scores for both API-only and open-weight models, using confidence scores or log-likelihood ratios from the Yes/No token probabilities. Using this protocol, we benchmark recent speech-aware LLMs and observe weak speaker discrimination (EERs above 20% on VoxCeleb1). Second, we introduce a lightweight augmentation that equips an LLM with ASV capability by injecting frozen ECAPA-TDNN speaker embeddings through a learned projection and training only LoRA adapters. On TinyLLaMA-1.1B, the resulting ECAPA-LLM achieves 1.03% EER on VoxCeleb1-E, approaching a dedicated speaker verification system while preserving a natural-language interface.