AudioGuard: Toward Comprehensive Audio Safety Protection Across Diverse Threat Models

作者: Mintong Kang, Chen Fang, Bo Li

分类: cs.SD, cs.AI

发布日期: 2026-04-10

💡 一句话要点

AudioGuard：面向多样化威胁模型的全面音频安全防护方案

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频安全 语音安全 深度学习 红队测试 安全基准 威胁模型 语音助手

📋 核心要点

现有音频安全系统难以应对音频原生威胁、说话人属性风险和内容组合危害等复杂场景。
AudioGuard通过SoundGuard进行波形级检测，ContentGuard进行语义级保护，构建统一的音频安全护栏。
实验表明，AudioGuard在准确率上优于现有音频-LLM基线，并显著降低了延迟。

📝 摘要（中文）

音频已迅速成为基础模型的主要接口，为实时语音助手提供支持。确保音频系统的安全性本质上比仅仅是“大声说出的不安全文本”更为复杂：现实世界的风险可能取决于音频原生的有害声音事件、说话者属性（例如，儿童声音）、模仿/语音克隆滥用以及语音内容组合危害（例如，儿童声音加上性内容）。音频的性质使得开发全面的基准或护栏来应对这种独特的风险形势具有挑战性。为了弥合这一差距，我们对音频系统进行了大规模的红队测试，系统地发现了音频中的漏洞，并开发了一个全面的、基于策略的音频风险分类法和AudioSafetyBench，这是第一个跨多样化威胁模型的基于策略的音频安全基准。AudioSafetyBench支持多种语言、可疑声音（例如，名人/模仿和儿童声音）、有风险的语音内容组合以及非语音声音事件。为了防御这些威胁，我们提出了AudioGuard，一个统一的护栏，包括1)用于波形级别音频原生检测的SoundGuard和2)用于基于策略的语义保护的ContentGuard。在AudioSafetyBench和四个补充基准上的大量实验表明，AudioGuard始终优于基于强音频-LLM的基线，提高了护栏的准确性，同时显著降低了延迟。

🔬 方法详解

问题定义：现有音频安全系统主要关注文本转录后的内容安全，忽略了音频本身固有的安全风险，例如有害声音事件、说话人属性（如儿童声音的滥用）以及语音内容组合带来的潜在危害。此外，现有方法缺乏针对这些复杂场景的全面基准测试和评估。

核心思路：AudioGuard的核心思路是将音频安全问题分解为波形级别的音频原生检测和语义级别的策略性内容保护两个层面。通过SoundGuard检测音频中的有害声音事件，通过ContentGuard识别和过滤违反安全策略的语音内容，从而构建一个全面的音频安全防护体系。

技术框架：AudioGuard包含两个主要模块：SoundGuard和ContentGuard。SoundGuard负责处理原始音频波形，检测其中的有害声音事件。ContentGuard则处理转录后的文本内容，并结合预定义的安全策略进行语义分析，识别和过滤潜在的风险内容。这两个模块协同工作，共同保障音频安全。

关键创新：AudioGuard的关键创新在于其双层防护架构，能够同时处理音频原生风险和语义内容风险。SoundGuard直接在波形级别进行检测，避免了对语音识别系统的依赖，提高了检测效率和准确性。ContentGuard则通过结合安全策略进行语义分析，能够更准确地识别和过滤违反安全策略的内容。

关键设计：SoundGuard采用了深度学习模型，例如卷积神经网络（CNN）或循环神经网络（RNN），对音频波形进行特征提取和分类。ContentGuard则利用自然语言处理技术，例如文本分类和命名实体识别，对转录后的文本内容进行分析。具体的参数设置、损失函数和网络结构取决于具体的实现细节和数据集。

🖼️ 关键图片

📊 实验亮点

在AudioSafetyBench基准测试中，AudioGuard的性能显著优于现有的音频-LLM基线。具体而言，AudioGuard在准确率方面取得了显著提升，同时延迟也大幅降低。此外，在四个补充基准测试中，AudioGuard也表现出了优异的性能，证明了其在不同场景下的泛化能力和有效性。

🎯 应用场景

AudioGuard可广泛应用于语音助手、智能音箱、在线会议系统、社交媒体平台等各种音频应用场景。通过提供全面的音频安全防护，AudioGuard能够有效防止有害声音事件、语音克隆滥用、儿童语音内容风险等安全问题，保障用户安全和平台合规性，具有重要的实际应用价值和广阔的市场前景。

📄 摘要（原文）

Audio has rapidly become a primary interface for foundation models, powering real-time voice assistants. Ensuring safety in audio systems is inherently more complex than just "unsafe text spoken aloud": real-world risks can hinge on audio-native harmful sound events, speaker attributes (e.g., child voice), impersonation/voice-cloning misuse, and voice-content compositional harms, such as child voice plus sexual content. The nature of audio makes it challenging to develop comprehensive benchmarks or guardrails against this unique risk landscape. To close this gap, we conduct large-scale red teaming on audio systems, systematically uncover vulnerabilities in audio, and develop a comprehensive, policy-grounded audio risk taxonomy and AudioSafetyBench, the first policy-based audio safety benchmark across diverse threat models. AudioSafetyBench supports diverse languages, suspicious voices (e.g., celebrity/impersonation and child voice), risky voice-content combinations, and non-speech sound events. To defend against these threats, we propose AudioGuard, a unified guardrail consisting of 1) SoundGuard for waveform-level audio-native detection and 2) ContentGuard for policy-grounded semantic protection. Extensive experiments on AudioSafetyBench and four complementary benchmarks show that AudioGuard consistently improves guardrail accuracy over strong audio-LLM-based baselines with substantially lower latency.

AudioGuard: Toward Comprehensive Audio Safety Protection Across Diverse Threat Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理