Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

📄 arXiv: 2604.18360v1 📥 PDF

作者: HaeJun Yoo, Yongseop Shin, Insung Lee, Myoung-Wan Koo, Du-Seong Chang

分类: cs.SD, cs.CL

发布日期: 2026-04-20

备注: Accepted at ACL 2026 Main Conference. Camera-ready version


💡 一句话要点

提出Omni-Embed-Audio,利用多模态LLM提升音频-文本检索的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频检索 多模态学习 大型语言模型 用户意图理解 困难负样本挖掘

📋 核心要点

  1. 现有音频-文本检索基准测试依赖标题式查询,无法充分评估模型在真实搜索场景下的鲁棒性。
  2. OEA利用多模态LLM进行音频理解,并引入用户意图查询(UIQ)来模拟真实搜索行为。
  3. 实验表明,OEA在文本到文本检索和困难负样本区分方面优于现有方法,提升了检索鲁棒性。

📝 摘要(中文)

本文提出Omni-Embed-Audio (OEA),一种利用多模态LLM进行原生音频理解的检索导向编码器。现有基于对比语言-音频预训练(CLAP)的音频-文本检索系统在传统基准测试上表现出色,但这些基准测试依赖于标题式查询,与真实世界的搜索行为差异很大,限制了对实际检索鲁棒性的评估。为了系统地评估超出标题式查询的鲁棒性,我们引入了用户意图查询(UIQ),它反映了五种自然搜索行为:问题、命令、关键词标签、释义和基于排除的负查询。对于负查询,我们开发了一个困难负样本挖掘流程,并提出了区分度指标(HNSR, TFR),用于评估模型抑制声学相似干扰项的能力。在AudioCaps、Clotho和MECAT上的实验表明,OEA在文本到音频的检索性能上与最先进的M2D-CLAP相当,同时在两个关键领域表现出明显的优势:(1)在文本到文本检索方面占据主导地位(+22%的相对改进),(2)在困难负样本区分方面表现出显著的优越性(+4.3%p HNSR@10,+34.7%的相对TFR@10),这表明LLM骨干网络提供了对复杂查询的卓越语义理解。

🔬 方法详解

问题定义:现有音频-文本检索模型在传统基准测试上表现良好,但这些基准测试主要使用标题式查询,与用户在实际搜索中使用的查询方式存在较大差异。这导致模型在真实场景下的检索鲁棒性无法得到有效评估,尤其是在处理复杂、模糊或带有否定含义的查询时,性能会显著下降。

核心思路:本文的核心思路是利用多模态LLM强大的语义理解能力,构建一个更鲁棒的音频-文本检索模型。通过将音频信息直接输入LLM,并结合用户意图查询(UIQ)进行训练,使模型能够更好地理解用户真实搜索意图,从而提高检索的准确性和鲁棒性。

技术框架:OEA模型的整体框架包含以下几个主要模块:1) 音频编码器:将原始音频信号转换为音频嵌入向量。2) 文本编码器:将文本查询转换为文本嵌入向量。3) 多模态LLM:接收音频和文本嵌入向量,进行融合和语义理解。4) 检索模块:根据LLM的输出,计算音频和文本之间的相似度,并进行检索。此外,还包含一个困难负样本挖掘流程,用于生成更具挑战性的负样本,以提高模型的区分能力。

关键创新:OEA最重要的技术创新点在于利用多模态LLM进行音频理解。与传统的CLAP模型相比,OEA可以直接将音频信息输入LLM,从而利用LLM强大的语义理解能力,更好地理解音频内容和用户查询意图。此外,UIQ的引入也使得模型能够更好地适应真实世界的搜索场景。

关键设计:在关键设计方面,本文提出了用户意图查询(UIQ),包含问题、命令、关键词标签、释义和基于排除的负查询五种类型,更贴近真实用户搜索行为。对于负查询,设计了困难负样本挖掘流程,并提出了区分度指标HNSR和TFR,用于评估模型抑制声学相似干扰项的能力。具体的LLM选择和训练细节(如损失函数、学习率等)在论文中可能有所描述,但此处信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OEA在AudioCaps、Clotho和MECAT数据集上进行了评估。实验结果表明,OEA在文本到音频的检索性能上与最先进的M2D-CLAP相当,同时在文本到文本检索方面取得了+22%的相对改进。在困难负样本区分方面,OEA的HNSR@10提升了+4.3%p,TFR@10提升了+34.7%的相对值,表明其在处理复杂查询和抑制干扰项方面具有显著优势。

🎯 应用场景

OEA可应用于各种音频检索场景,例如音乐搜索、声音事件检测、语音助手等。通过提升模型对复杂查询的理解能力,可以显著改善用户搜索体验,提高检索准确率。未来,该技术还可扩展到其他多模态检索任务,例如视频-文本检索。

📄 摘要(原文)

Audio-text retrieval systems based on Contrastive Language-Audio Pretraining (CLAP) achieve strong performance on traditional benchmarks; however, these benchmarks rely on caption-style queries that differ substantially from real-world search behavior, limiting their assessment of practical retrieval robustness. We present Omni-Embed-Audio (OEA), a retrieval-oriented encoder leveraging multimodal LLMs with native audio understanding. To systematically evaluate robustness beyond caption-style queries, we introduce User-Intent Queries (UIQs) - five formulations reflecting natural search behaviors: questions, commands, keyword tags, paraphrases, and exclusion-based negative queries. For negative queries, we develop a hard negative mining pipeline and propose discrimination metrics (HNSR, TFR) assessing models' ability to suppress acoustically similar distractors. Experiments on AudioCaps, Clotho, and MECAT show that OEA achieves comparable text-to-audio retrieval performance to state-of-the-art M2D-CLAP, while demonstrating clear advantages in two critical areas: (1) dominant text-to-text retrieval (+22% relative improvement), and (2) substantially superior hard negative discrimination (+4.3%p HNSR@10, +34.7% relative TFR@10), revealing that LLM backbones provide superior semantic understanding of complex queries.