Improving Acoustic Side-Channel Attacks on Keyboards Using Transformers and Large Language Models
作者: Jin Hyun Park, Seyyed Ali Ayati, Yichen Cai
分类: cs.LG, cs.AI, cs.CL, eess.AS
发布日期: 2025-02-13 (更新: 2025-02-18)
备注: We would like to withdraw our paper due to a significant error in the experimental methodology, which impacts the validity of our results. The error specifically affects the analysis presented in Section 4, where an incorrect dataset preprocessing step led to misleading conclusions
💡 一句话要点
利用Transformer和LLM提升键盘声学侧信道攻击性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 声学侧信道攻击 键盘安全 视觉Transformer 大型语言模型 错误纠正
📋 核心要点
- 现有声学侧信道攻击易受噪声干扰,且依赖大量数据,泛化能力不足,限制了其在真实场景中的应用。
- 利用视觉Transformer提取键盘敲击音频的特征,并结合大型语言模型进行上下文理解和错误纠正,提升攻击鲁棒性。
- 实验表明,CoAtNet模型在智能手机和Zoom录音场景下,击键识别准确率分别提升了5.0%和5.9%,显著优于现有方法。
📝 摘要(中文)
本研究探索了深度学习技术,特别是视觉Transformer(VT)和大型语言模型(LLM),以提高针对键盘的声学侧信道攻击(ASCA)的有效性和适用性。研究成果显著优于以往的研究,其中CoAtNet模型实现了最先进的性能。CoAtNet在通过智能手机(Phone)录制的击键中提高了5.0%,在通过Zoom录制的击键中提高了5.9%。此外,还评估了Transformer架构和语言模型,最佳VT模型与CoAtNet的性能相匹配。一个关键的进步是引入了一种针对真实场景的噪声缓解方法。通过使用LLM进行上下文理解,检测和纠正嘈杂环境中的错误击键,从而提高ASCA性能。此外,通过低秩适应(LoRA)微调的轻量级语言模型提供了与参数多67倍的重量级模型相当的性能。VT和LLM的结合提高了ASCA缓解的实际应用性,标志着首次使用这些技术来解决ASCA和真实场景中的错误纠正问题。
🔬 方法详解
问题定义:论文旨在解决声学侧信道攻击(ASCA)在真实场景中易受噪声干扰,准确率下降的问题。现有方法通常依赖于大量干净的数据进行训练,泛化能力较弱,难以应对实际应用中复杂的噪声环境。此外,缺乏对键盘输入上下文的理解,导致错误纠正能力不足。
核心思路:论文的核心思路是结合视觉Transformer(VT)提取音频特征,并利用大型语言模型(LLM)进行上下文建模和错误纠正。VT擅长提取图像特征,将其应用于音频频谱图可以有效捕捉击键的细微差异。LLM则可以根据已输入的文本预测下一个可能的按键,从而纠正识别错误。
技术框架:整体框架包含音频预处理、特征提取、击键识别和错误纠正四个主要阶段。首先,对键盘敲击音频进行预处理,包括降噪和分帧。然后,使用视觉Transformer(如CoAtNet)提取音频频谱图的特征。接着,利用分类器预测每个音频帧对应的按键。最后,使用大型语言模型(LLM)根据上下文信息对识别结果进行纠正。
关键创新:论文的关键创新在于将视觉Transformer和大型语言模型结合应用于声学侧信道攻击。这是首次尝试使用这些技术来解决ASCA问题,并针对真实场景中的噪声和错误进行优化。通过LLM进行上下文理解和错误纠正,显著提高了攻击的鲁棒性和准确性。
关键设计:在特征提取阶段,论文采用了CoAtNet模型,并针对音频数据进行了微调。在错误纠正阶段,使用了预训练的LLM,并通过低秩适应(LoRA)进行微调,以减少计算开销。损失函数方面,使用了交叉熵损失函数来训练分类器。此外,论文还探索了不同的Transformer架构和语言模型,并比较了它们的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoAtNet模型在智能手机录音和Zoom录音场景下,击键识别准确率分别提升了5.0%和5.9%,显著优于之前的基线方法。此外,通过低秩适应(LoRA)微调的轻量级语言模型,在参数量减少67倍的情况下,仍能达到与大型模型相当的性能,验证了该方法的有效性和实用性。
🎯 应用场景
该研究成果可应用于评估和提升键盘输入系统的安全性,尤其是在语音助手、在线会议等场景下。通过模拟攻击,可以发现系统潜在的安全漏洞,并开发相应的防御机制。此外,该技术也可用于开发更安全的身份验证方法,例如基于键盘敲击模式的生物特征识别。
📄 摘要(原文)
The increasing prevalence of microphones in everyday devices and the growing reliance on online services have amplified the risk of acoustic side-channel attacks (ASCAs) targeting keyboards. This study explores deep learning techniques, specifically vision transformers (VTs) and large language models (LLMs), to enhance the effectiveness and applicability of such attacks. We present substantial improvements over prior research, with the CoAtNet model achieving state-of-the-art performance. Our CoAtNet shows a 5.0% improvement for keystrokes recorded via smartphone (Phone) and 5.9% for those recorded via Zoom compared to previous benchmarks. We also evaluate transformer architectures and language models, with the best VT model matching CoAtNet's performance. A key advancement is the introduction of a noise mitigation method for real-world scenarios. By using LLMs for contextual understanding, we detect and correct erroneous keystrokes in noisy environments, enhancing ASCA performance. Additionally, fine-tuned lightweight language models with Low-Rank Adaptation (LoRA) deliver comparable performance to heavyweight models with 67X more parameters. This integration of VTs and LLMs improves the practical applicability of ASCA mitigation, marking the first use of these technologies to address ASCAs and error correction in real-world scenarios.