Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

📄 arXiv: 2412.09501v1 📥 PDF

作者: Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia

分类: cs.CV, cs.MM

发布日期: 2024-12-12

备注: Tech report


💡 一句话要点

Lyra:一种高效且以语音为中心的全知认知框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 语音理解 长语音处理 跨模态融合 大型语言模型 LoRA 全知认知

📋 核心要点

  1. 现有全知模型对语音模态的探索不足,未能充分整合语音与其他模态的信息。
  2. Lyra通过多模态LoRA、潜在多模态正则化器和高质量数据集,提升模型对语音的理解和跨模态交互能力。
  3. 实验表明,Lyra在多种基准测试中取得了领先性能,同时降低了计算资源和数据需求。

📝 摘要(中文)

随着多模态大型语言模型(MLLMs)的发展,扩展到单一领域能力之外对于满足更通用和高效AI的需求至关重要。然而,以往的全知模型对语音的探索不足,忽略了其与多模态的整合。我们推出了Lyra,一个高效的MLLM,它增强了多模态能力,包括高级长语音理解、声音理解、跨模态效率和无缝语音交互。为了实现效率和以语音为中心的能力,Lyra采用了三种策略:(1)利用现有的开源大型模型和提出的多模态LoRA来降低训练成本和数据需求;(2)使用潜在的多模态正则化器和提取器来加强语音和其他模态之间的关系,从而提高模型性能;(3)构建高质量、广泛的数据集,包括150万个多模态(语言、视觉、音频)数据样本和1.2万个长语音样本,使Lyra能够处理复杂的长语音输入并实现更强大的全知认知。与其他全知方法相比,Lyra在各种视觉-语言、视觉-语音和语音-语言基准测试中实现了最先进的性能,同时使用的计算资源和训练数据更少。

🔬 方法详解

问题定义:现有全知模型在处理语音模态时存在不足,尤其是在长语音理解和跨模态语音交互方面。这些模型通常忽略了语音与其他模态之间的紧密联系,导致性能受限。此外,训练这些模型通常需要大量的计算资源和数据。

核心思路:Lyra的核心思路是构建一个高效且以语音为中心的多模态大型语言模型。通过利用现有的开源大型模型,并引入多模态LoRA、潜在多模态正则化器和高质量数据集,Lyra旨在提升模型对语音的理解能力,加强语音与其他模态之间的关系,并降低训练成本。

技术框架:Lyra的技术框架主要包括以下几个部分:1)利用预训练的开源大型语言模型作为基础;2)引入多模态LoRA,用于高效地调整模型以适应多模态数据;3)设计潜在多模态正则化器和提取器,用于加强语音和其他模态之间的关系;4)构建包含150万个多模态数据样本和1.2万个长语音样本的高质量数据集。

关键创新:Lyra的关键创新在于其以语音为中心的设计理念和所采用的技术手段。具体来说,潜在多模态正则化器和提取器能够有效地加强语音与其他模态之间的联系,从而提升模型的性能。此外,多模态LoRA的使用降低了训练成本和数据需求。

关键设计:Lyra的关键设计包括:1)多模态LoRA的具体结构和训练方式,用于高效地调整模型参数;2)潜在多模态正则化器和提取器的设计细节,包括损失函数和网络结构;3)高质量数据集的构建方法,包括数据收集、清洗和标注等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Lyra在多个视觉-语言、视觉-语音和语音-语言基准测试中取得了最先进的性能。与现有方法相比,Lyra在性能提升的同时,显著降低了计算资源和训练数据需求。这表明Lyra在效率和性能之间取得了良好的平衡,具有很强的实用价值。

🎯 应用场景

Lyra具有广泛的应用前景,例如智能助手、语音搜索、多模态内容理解和生成等。它可以应用于需要理解和处理语音、图像和文本等多种模态信息的场景。通过提升语音理解和跨模态交互能力,Lyra可以为用户提供更智能、更便捷的服务,并推动多模态人工智能的发展。

📄 摘要(原文)

As Multi-modal Large Language Models (MLLMs) evolve, expanding beyond single-domain capabilities is essential to meet the demands for more versatile and efficient AI. However, previous omni-models have insufficiently explored speech, neglecting its integration with multi-modality. We introduce Lyra, an efficient MLLM that enhances multimodal abilities, including advanced long-speech comprehension, sound understanding, cross-modality efficiency, and seamless speech interaction. To achieve efficiency and speech-centric capabilities, Lyra employs three strategies: (1) leveraging existing open-source large models and a proposed multi-modality LoRA to reduce training costs and data requirements; (2) using a latent multi-modality regularizer and extractor to strengthen the relationship between speech and other modalities, thereby enhancing model performance; and (3) constructing a high-quality, extensive dataset that includes 1.5M multi-modal (language, vision, audio) data samples and 12K long speech samples, enabling Lyra to handle complex long speech inputs and achieve more robust omni-cognition. Compared to other omni-methods, Lyra achieves state-of-the-art performance on various vision-language, vision-speech, and speech-language benchmarks, while also using fewer computational resources and less training data.