Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

作者: HaeJun Yoo, Yongseop Shin, Insung Lee, Myoung-Wan Koo, Du-Seong Chang

分类: cs.SD, cs.CL

发布日期: 2026-04-20

备注: Accepted at ACL 2026 Main Conference. Camera-ready version

💡 一句话要点

提出Omni-Embed-Audio，利用多模态LLM提升音频-文本检索的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频检索 多模态学习 大型语言模型 用户意图理解 困难负样本挖掘

📋 核心要点

现有音频-文本检索基准测试依赖标题式查询，无法充分评估模型在真实搜索场景下的鲁棒性。
OEA利用多模态LLM进行音频理解，并引入用户意图查询(UIQ)来模拟真实搜索行为。
实验表明，OEA在文本到文本检索和困难负样本区分方面优于现有方法，提升了检索鲁棒性。

📝 摘要（中文）

本文提出Omni-Embed-Audio (OEA)，一种利用多模态LLM进行原生音频理解的检索导向编码器。现有基于对比语言-音频预训练(CLAP)的音频-文本检索系统在传统基准测试上表现出色，但这些基准测试依赖于标题式查询，与真实世界的搜索行为差异很大，限制了对实际检索鲁棒性的评估。为了系统地评估超出标题式查询的鲁棒性，我们引入了用户意图查询(UIQ)，它反映了五种自然搜索行为：问题、命令、关键词标签、释义和基于排除的负查询。对于负查询，我们开发了一个困难负样本挖掘流程，并提出了区分度指标(HNSR, TFR)，用于评估模型抑制声学相似干扰项的能力。在AudioCaps、Clotho和MECAT上的实验表明，OEA在文本到音频的检索性能上与最先进的M2D-CLAP相当，同时在两个关键领域表现出明显的优势：(1)在文本到文本检索方面占据主导地位（+22%的相对改进），(2)在困难负样本区分方面表现出显著的优越性（+4.3%p HNSR@10，+34.7%的相对TFR@10），这表明LLM骨干网络提供了对复杂查询的卓越语义理解。

🔬 方法详解

问题定义：现有音频-文本检索模型在传统基准测试上表现良好，但这些基准测试主要使用标题式查询，与用户在实际搜索中使用的查询方式存在较大差异。这导致模型在真实场景下的检索鲁棒性无法得到有效评估，尤其是在处理复杂、模糊或带有否定含义的查询时，性能会显著下降。

核心思路：本文的核心思路是利用多模态LLM强大的语义理解能力，构建一个更鲁棒的音频-文本检索模型。通过将音频信息直接输入LLM，并结合用户意图查询(UIQ)进行训练，使模型能够更好地理解用户真实搜索意图，从而提高检索的准确性和鲁棒性。

技术框架：OEA模型的整体框架包含以下几个主要模块：1) 音频编码器：将原始音频信号转换为音频嵌入向量。2) 文本编码器：将文本查询转换为文本嵌入向量。3) 多模态LLM：接收音频和文本嵌入向量，进行融合和语义理解。4) 检索模块：根据LLM的输出，计算音频和文本之间的相似度，并进行检索。此外，还包含一个困难负样本挖掘流程，用于生成更具挑战性的负样本，以提高模型的区分能力。

关键创新：OEA最重要的技术创新点在于利用多模态LLM进行音频理解。与传统的CLAP模型相比，OEA可以直接将音频信息输入LLM，从而利用LLM强大的语义理解能力，更好地理解音频内容和用户查询意图。此外，UIQ的引入也使得模型能够更好地适应真实世界的搜索场景。

关键设计：在关键设计方面，本文提出了用户意图查询(UIQ)，包含问题、命令、关键词标签、释义和基于排除的负查询五种类型，更贴近真实用户搜索行为。对于负查询，设计了困难负样本挖掘流程，并提出了区分度指标HNSR和TFR，用于评估模型抑制声学相似干扰项的能力。具体的LLM选择和训练细节（如损失函数、学习率等）在论文中可能有所描述，但此处信息未知。

🖼️ 关键图片

📊 实验亮点

OEA在AudioCaps、Clotho和MECAT数据集上进行了评估。实验结果表明，OEA在文本到音频的检索性能上与最先进的M2D-CLAP相当，同时在文本到文本检索方面取得了+22%的相对改进。在困难负样本区分方面，OEA的HNSR@10提升了+4.3%p，TFR@10提升了+34.7%的相对值，表明其在处理复杂查询和抑制干扰项方面具有显著优势。

🎯 应用场景

OEA可应用于各种音频检索场景，例如音乐搜索、声音事件检测、语音助手等。通过提升模型对复杂查询的理解能力，可以显著改善用户搜索体验，提高检索准确率。未来，该技术还可扩展到其他多模态检索任务，例如视频-文本检索。

📄 摘要（原文）

Audio-text retrieval systems based on Contrastive Language-Audio Pretraining (CLAP) achieve strong performance on traditional benchmarks; however, these benchmarks rely on caption-style queries that differ substantially from real-world search behavior, limiting their assessment of practical retrieval robustness. We present Omni-Embed-Audio (OEA), a retrieval-oriented encoder leveraging multimodal LLMs with native audio understanding. To systematically evaluate robustness beyond caption-style queries, we introduce User-Intent Queries (UIQs) - five formulations reflecting natural search behaviors: questions, commands, keyword tags, paraphrases, and exclusion-based negative queries. For negative queries, we develop a hard negative mining pipeline and propose discrimination metrics (HNSR, TFR) assessing models' ability to suppress acoustically similar distractors. Experiments on AudioCaps, Clotho, and MECAT show that OEA achieves comparable text-to-audio retrieval performance to state-of-the-art M2D-CLAP, while demonstrating clear advantages in two critical areas: (1) dominant text-to-text retrieval (+22% relative improvement), and (2) substantially superior hard negative discrimination (+4.3%p HNSR@10, +34.7% relative TFR@10), revealing that LLM backbones provide superior semantic understanding of complex queries.

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理