Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

作者: Bo-Han Feng, Chien-Feng Liu, Yu-Hsuan Li Liang, Chih-Kai Yang, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee

分类: cs.SD, cs.AI, cs.CL, eess.AS

发布日期: 2025-10-19

备注: Submitted to ICASSP 2026

💡 一句话要点

揭示语音情感变化下大型语音语言模型（LALM）的安全漏洞

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音语言模型 安全性 情感识别 副语言信息 恶意指令 鲁棒性 安全对齐

📋 核心要点

现有大型语音语言模型在副语言变异下的安全性对齐不足，尤其缺乏对说话者情感影响的系统研究。
构建包含多种情感和强度的恶意语音指令数据集，评估LALM在不同情感表达下的安全性。
实验结果表明，LALM在不同情感和强度下表现出安全不一致性，中等强度情感表达风险最高。

📝 摘要（中文）

大型语音语言模型（LALM）通过扩展文本LLM的听觉理解能力，为多模态应用提供了新的机遇。虽然它们的感知、推理和任务性能已被广泛研究，但其在副语言变异下的安全对齐仍未被充分探索。本文系统地研究了说话者情感的作用。我们构建了一个包含跨多种情感和强度表达的恶意语音指令的数据集，并评估了几个最先进的LALM。结果表明，存在显著的安全不一致性：不同的情感会引发不同程度的不安全响应，并且强度的影响是非单调的，中等强度的表达通常构成最大的风险。这些发现突出了LALM中一个被忽视的漏洞，并呼吁采用专门设计的对齐策略，以确保在情感变化下的鲁棒性，这是在实际环境中可信部署的先决条件。

🔬 方法详解

问题定义：论文旨在研究大型语音语言模型（LALM）在面对不同情感表达的语音指令时，其安全性是否会受到影响。现有LALM的安全对齐研究主要集中在文本输入上，忽略了语音中情感等副语言信息的潜在影响。这使得LALM在实际应用中可能存在安全漏洞，例如，恶意用户可以通过改变说话的情感来绕过安全机制，诱导LALM执行不安全的操作。

核心思路：论文的核心思路是系统性地评估LALM在不同情感和强度下的安全性。通过构建一个包含多种情感和强度的恶意语音指令数据集，并测试LALM对这些指令的响应，来揭示LALM在情感变化下的安全漏洞。这种方法能够量化情感对LALM安全性的影响，并为后续的安全对齐策略提供指导。

技术框架：论文的技术框架主要包括以下几个步骤：1) 构建恶意语音指令数据集，该数据集包含多种情感（如愤怒、悲伤、快乐等）和强度（低、中、高）的语音指令；2) 选择多个最先进的LALM进行评估；3) 将数据集中的语音指令输入到LALM中，并记录LALM的响应；4) 分析LALM的响应，判断其是否安全，并统计不同情感和强度下的安全率；5) 对实验结果进行分析，揭示LALM在情感变化下的安全漏洞。

关键创新：论文的关键创新在于首次系统性地研究了情感对LALM安全性的影响。以往的研究主要集中在文本输入上，忽略了语音中情感等副语言信息的潜在影响。论文通过构建包含多种情感和强度的恶意语音指令数据集，并对LALM进行评估，揭示了LALM在情感变化下的安全漏洞。

关键设计：论文的关键设计包括：1) 恶意语音指令数据集的设计，该数据集需要包含多种情感和强度，并且指令的内容需要具有一定的恶意性；2) LALM的选择，需要选择具有代表性的、最先进的LALM进行评估；3) 安全性的评估标准，需要定义一个明确的安全性评估标准，用于判断LALM的响应是否安全。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同的情感会引发不同程度的不安全响应，并且情感强度的影响是非单调的，中等强度的表达通常构成最大的风险。例如，在某些情感下，LALM的安全率下降了10%-20%。这些结果表明，LALM在情感变化下的安全性存在显著的漏洞，需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于提升语音助手、智能客服等语音交互系统的安全性。通过了解情感变化对LALM安全性的影响，可以设计更鲁棒的安全对齐策略，防止恶意用户利用情感操控LALM执行不安全操作。这对于构建可信赖的语音交互系统至关重要，尤其是在金融、医疗等敏感领域。

📄 摘要（原文）

Large audio-language models (LALMs) extend text-based LLMs with auditory understanding, offering new opportunities for multimodal applications. While their perception, reasoning, and task performance have been widely studied, their safety alignment under paralinguistic variation remains underexplored. This work systematically investigates the role of speaker emotion. We construct a dataset of malicious speech instructions expressed across multiple emotions and intensities, and evaluate several state-of-the-art LALMs. Our results reveal substantial safety inconsistencies: different emotions elicit varying levels of unsafe responses, and the effect of intensity is non-monotonic, with medium expressions often posing the greatest risk. These findings highlight an overlooked vulnerability in LALMs and call for alignment strategies explicitly designed to ensure robustness under emotional variation, a prerequisite for trustworthy deployment in real-world settings.

Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理