Spatial Audio Processing with Large Language Model on Wearable Devices
作者: Ayushi Mishra, Yang Bai, Priyadarshan Narayanasamy, Nakul Garg, Nirupam Roy
分类: cs.SD, cs.CL, eess.AS
发布日期: 2025-04-11 (更新: 2025-04-25)
💡 一句话要点
提出SING:在可穿戴设备上利用LLM进行空间音频处理,提升语音理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 空间音频处理 大型语言模型 可穿戴设备 语音识别 到达方向估计 多模态融合 轻量级微调
📋 核心要点
- 现有方法在可穿戴设备上进行空间语音理解时,缺乏对空间信息的有效利用,导致语音识别精度较低。
- 论文提出SING系统,通过微结构麦克风获取DoA信息,并与LLM融合,实现空间感知的语音理解。
- 实验表明,SING在空间感知ASR和声景分析方面均取得了显著提升,降低了DoA误差和WER。
📝 摘要(中文)
本文提出了一种新颖的系统架构,将空间语音理解融入大型语言模型(LLM),从而为可穿戴技术实现上下文感知和自适应应用。该方法利用基于微结构的单声道麦克风进行空间感知,提取精确的到达方向(DoA)信息。为了解决微结构辅助语音记录数据集的缺失问题,合成了名为OmniTalk的数据集,该数据集基于LibriSpeech。空间信息与OpenAI Whisper模型的语言嵌入融合,使每个模态学习互补的上下文表示。融合后的嵌入与LLaMA-3.2 3B模型的输入空间对齐,并使用轻量级适配技术LoRA进行微调,以优化设备端处理。SING支持空间感知自动语音识别(ASR),平均误差为25.72°,显著优于现有工作的88.52°中值误差,词错误率(WER)为5.3。SING还支持声景分析,例如推断说话人数及其方向,最多可达5人,DoA中值误差为16°。该系统在空间语音理解方面表现出卓越的性能,同时解决了功耗效率、隐私和硬件约束等挑战,为增强现实、可访问性和沉浸式体验等高级应用铺平了道路。
🔬 方法详解
问题定义:论文旨在解决可穿戴设备上空间音频处理中,如何有效利用空间信息提升语音理解能力的问题。现有方法通常忽略或无法精确捕捉语音的空间信息,导致在复杂声学环境中语音识别的准确率下降。此外,现有方法难以在资源受限的可穿戴设备上部署大型语言模型。
核心思路:论文的核心思路是将空间信息(DoA)与大型语言模型(LLM)相结合,使LLM能够感知语音的来源方向,从而提高语音识别的准确性和鲁棒性。通过融合空间信息和语言信息,模型可以更好地理解语音的上下文,并区分来自不同方向的语音。
技术框架:SING系统的整体架构包括以下几个主要模块:1) 基于微结构的单声道麦克风阵列,用于捕捉语音信号并提取DoA信息;2) OmniTalk数据集,用于训练空间语音理解模型;3) OpenAI Whisper模型,用于提取语音的语言嵌入;4) 空间信息融合模块,将DoA信息与语言嵌入融合;5) LLaMA-3.2 3B模型,作为基础LLM,通过LoRA进行微调。
关键创新:论文的关键创新在于:1) 提出了一种基于微结构的单声道麦克风阵列,能够精确地提取DoA信息;2) 合成了OmniTalk数据集,弥补了空间语音数据集的缺失;3) 提出了一种空间信息融合方法,将DoA信息有效地融入LLM;4) 使用LoRA技术对LLM进行轻量级微调,使其能够在资源受限的可穿戴设备上运行。
关键设计:在空间信息融合模块中,论文将DoA信息编码为嵌入向量,并将其与Whisper模型的语言嵌入进行拼接。为了对齐不同模态的嵌入空间,使用线性变换层进行映射。在LLaMA-3.2 3B模型的微调过程中,采用LoRA技术,只训练少量参数,从而降低了计算复杂度和内存占用。损失函数包括语音识别损失和DoA预测损失,通过联合优化,使模型能够同时学习语音内容和空间信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SING系统在空间感知ASR任务中,DoA平均误差为25.72°,显著优于现有方法的88.52°中值误差,词错误率(WER)为5.3。在声景分析任务中,对于最多5人的场景,DoA中值误差为16°。这些结果表明,SING系统能够有效地利用空间信息,提高语音理解的准确性和鲁棒性。
🎯 应用场景
该研究成果可广泛应用于增强现实、虚拟现实、可访问性辅助设备等领域。例如,在AR眼镜中,系统可以根据用户的语音指令和说话人的方向,提供个性化的信息和服务。对于听力障碍人士,系统可以增强特定方向的语音,提高语音的可懂度。此外,该技术还可用于智能家居、会议系统等场景,实现更自然、更智能的人机交互。
📄 摘要(原文)
Integrating spatial context into large language models (LLMs) has the potential to revolutionize human-computer interaction, particularly in wearable devices. In this work, we present a novel system architecture that incorporates spatial speech understanding into LLMs, enabling contextually aware and adaptive applications for wearable technologies. Our approach leverages microstructure-based spatial sensing to extract precise Direction of Arrival (DoA) information using a monaural microphone. To address the lack of existing dataset for microstructure-assisted speech recordings, we synthetically create a dataset called OmniTalk by using the LibriSpeech dataset. This spatial information is fused with linguistic embeddings from OpenAI's Whisper model, allowing each modality to learn complementary contextual representations. The fused embeddings are aligned with the input space of LLaMA-3.2 3B model and fine-tuned with lightweight adaptation technique LoRA to optimize for on-device processing. SING supports spatially-aware automatic speech recognition (ASR), achieving a mean error of $25.72^\circ$-a substantial improvement compared to the 88.52$^\circ$ median error in existing work-with a word error rate (WER) of 5.3. SING also supports soundscaping, for example, inference how many people were talking and their directions, with up to 5 people and a median DoA error of 16$^\circ$. Our system demonstrates superior performance in spatial speech understanding while addressing the challenges of power efficiency, privacy, and hardware constraints, paving the way for advanced applications in augmented reality, accessibility, and immersive experiences.