Safeguarding Privacy in Edge Speech Understanding with Tiny Foundation Models
作者: Afsara Benazir, Felix Xiaozhu Lin
分类: eess.AS, cs.LG, cs.SD
发布日期: 2025-01-29 (更新: 2025-11-30)
💡 一句话要点
提出SpeechShield,利用微型语音模型在边缘设备上实现隐私保护的语音理解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 边缘计算 语音识别 隐私保护 微型模型 语音理解
📋 核心要点
- 现有语音识别系统依赖云端推理,存在用户语音隐私泄露的风险,如何在不可信的环境中保护语音数据的敏感内容是核心问题。
- SpeechShield利用微型语音基础模型在边缘设备上进行敏感实体过滤,通过时间戳掩码策略隐藏语音中的敏感信息,同时尽量保持转录的准确性。
- 实验表明,SpeechShield在资源受限的设备上能够有效过滤敏感实体,并显著降低词错误率,同时在内存、速度和计算效率方面优于现有方案。
📝 摘要(中文)
为了解决语音识别系统依赖云服务提供商进行推理时存在的隐私泄露问题,本文提出了一种名为SpeechShield的边缘/云隐私保护语音推理引擎。该引擎利用微型语音基础模型(FMs)在资源受限的设备上过滤敏感实体,同时避免降低转录准确率。SpeechShield采用基于时间戳的设备端掩码方法,利用token到实体预测模型来过滤敏感实体。通过策略性地掩盖输入的部分内容,隐藏敏感数据。掩码后的输入被发送到可信的云服务或本地hub以生成掩码后的输出。该方案的有效性取决于实体时间段的掩码效果。恢复过程采用基于置信度评分的方法,选择云端和设备端模型之间的最佳预测。在Raspberry Pi 4B上的实验表明,该解决方案在保护隐私的同时实现了强大的语音识别能力。SpeechShield在小于100MB内存的情况下,实现了最先进的语音转录性能,同时直接在设备端过滤了约83%的私有实体。与之前的隐私保护语音框架相比,SpeechShield的内存占用减少了16倍,速度提高了3.3倍,计算效率提高了17倍,并且与现有的离线转录服务相比,词错误率(WER)相对降低了38.8-77.5%。
🔬 方法详解
问题定义:论文旨在解决在边缘设备上进行语音理解时,如何保护用户语音数据中的敏感信息,防止隐私泄露的问题。现有方法要么依赖云端处理,存在隐私风险,要么在本地进行粗糙的脱敏,影响语音识别的准确性。
核心思路:论文的核心思路是利用微型语音基础模型(FMs)在边缘设备上进行预处理,通过选择性地掩盖语音中的敏感实体,降低隐私泄露的风险,同时将处理后的语音发送到云端或本地hub进行进一步的识别。这种边缘-云协同的方式可以在保护隐私的同时,保证语音识别的准确性。
技术框架:SpeechShield的整体架构包含以下几个主要模块:1) 设备端敏感实体检测:利用微型语音模型预测语音中敏感实体的时间戳。2) 设备端掩码:根据预测的时间戳,对语音信号进行掩码处理,隐藏敏感信息。3) 云端/本地Hub语音识别:将掩码后的语音发送到可信的云服务或本地hub进行语音识别。4) 结果恢复:结合设备端和云端/本地hub的识别结果,利用置信度评分选择最佳的识别结果。
关键创新:论文的关键创新在于:1) 首次提出利用微型语音基础模型在边缘设备上进行隐私保护的语音理解。2) 提出了一种基于时间戳的掩码策略,能够更精确地隐藏语音中的敏感信息,同时尽量减少对语音识别准确性的影响。3) 提出了一种基于置信度评分的结果恢复方法,能够有效地融合设备端和云端/本地hub的识别结果,提高整体的识别准确性。
关键设计:论文的关键设计包括:1) 微型语音模型的选择,需要在模型大小、计算复杂度和识别准确性之间进行权衡。2) 掩码策略的设计,需要考虑如何有效地隐藏敏感信息,同时尽量减少对语音信号的干扰。3) 置信度评分的设计,需要能够准确地评估设备端和云端/本地hub的识别结果的可靠性。
🖼️ 关键图片
📊 实验亮点
SpeechShield在Raspberry Pi 4B上的实验结果表明,该方案能够在保护隐私的同时实现强大的语音识别能力。在小于100MB内存的情况下,SpeechShield实现了最先进的语音转录性能,同时直接在设备端过滤了约83%的私有实体。与之前的隐私保护语音框架相比,SpeechShield的内存占用减少了16倍,速度提高了3.3倍,计算效率提高了17倍,并且与现有的离线转录服务相比,词错误率(WER)相对降低了38.8-77.5%。
🎯 应用场景
SpeechShield具有广泛的应用前景,例如智能家居、可穿戴设备、车载语音助手等。它可以保护用户在使用语音交互设备时的隐私,防止敏感信息泄露。此外,该技术还可以应用于医疗、金融等对隐私保护要求较高的领域,实现安全可靠的语音数据处理。
📄 摘要(原文)
Robust speech recognition systems rely on cloud service providers for inference. It needs to ensure that an untrustworthy provider cannot deduce the sensitive content in speech. Sanitization can be done on speech content keeping in mind that it has to avoid compromising transcription accuracy. Realizing the under utilized capabilities of tiny speech foundation models (FMs), for the first time, we propose a novel use: enhancing speech privacy on resource-constrained devices. We introduce SpeechShield, an edge/cloud privacy preserving speech inference engine that can filter sensitive entities without compromising transcript accuracy. We utilize a timestamp based on-device masking approach that utilizes a token to entity prediction model to filter sensitive entities. Our choice of mask strategically conceals parts of the input and hides sensitive data. The masked input is sent to a trusted cloud service or to a local hub to generate the masked output. The effectiveness of SpeechShield hinges on how well the entity time segments are masked. Our recovery is a confidence score based approach that chooses the best prediction between cloud and on-device model. We implement SpeechShield on a 64 bit Raspberry Pi 4B. Experiments show that our solution leads to robust speech recognition without forsaking privacy. SpeechShield with < 100 MB memory, achieves state-of-the-art (SOTA) speech transcription performance while filtering about 83% of private entities directly on-device. SpeechShield is 16x smaller in memory, 3.3x faster and 17x more compute efficient than prior privacy preserving speech frameworks and has a relative reduction in word error rate (WER) by 38.8-77.5% when compared to existing offline transcription services.