ATIR: Towards Audio-Text Interleaved Contextual Retrieval

📄 arXiv: 2604.20267v1 📥 PDF

作者: Tong Zhao, Chenghao Zhang, Yutao Zhu, Zhicheng Dou

分类: cs.SD, cs.AI

发布日期: 2026-04-22


💡 一句话要点

提出ATIR任务与基准,解决音频-文本交错上下文检索难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频检索 文本检索 多模态学习 上下文检索 大型语言模型 信息检索 语音识别 token压缩

📋 核心要点

  1. 现有方法忽略了音频在多模态信息检索中的作用,尤其是在音频-文本交错的复杂场景下。
  2. 提出ATIR任务和基准,利用多模态大语言模型,并引入token压缩机制来处理音频token过多的问题。
  3. 实验表明,提出的ATIR模型在构建的基准测试上,相较于现有方法,性能得到了显著提升。

📝 摘要(中文)

本文提出了音频-文本交错上下文检索(ATIR)任务,旨在解决现有多模态信息检索研究中对音频模态的忽视问题,尤其是在交错音频-文本上下文检索场景下。音频相较于文本,蕴含更丰富的信息,如情感、说话人特征和环境上下文,且处理延迟更低。为此,作者整合了多个自动语音识别(ASR)、问答(QA)和检索数据集,构建了一个ATIR基准,统一了四种类型的上下文检索任务,有效弥补了现有音频检索数据集在语义检索方面的不足。为了研究该任务,作者评估了多个现成的检索器,并基于多模态大型语言模型(MLLM)训练了ATIR模型。此外,还提出了一种新颖的token压缩机制,以缓解基于MLLM的ATIR模型中音频token过多的问题。实验结果表明,ATIR模型在多个强基线上取得了显著的性能提升。

🔬 方法详解

问题定义:论文旨在解决音频-文本交错上下文检索的问题。现有方法主要集中在图像检索,忽略了音频模态的丰富信息,如情感、说话人特征和环境上下文。此外,现有音频检索数据集在语义检索方面存在不足,无法有效支持复杂的上下文推理。

核心思路:论文的核心思路是构建一个包含音频和文本交错的上下文检索基准(ATIR),并利用多模态大型语言模型(MLLM)来学习音频和文本之间的关联。通过将音频信息融入到语言模型中,可以更好地理解音频的语义信息,从而提高检索的准确性。

技术框架:ATIR模型基于MLLM构建,整体流程包括:1)输入音频和文本交错的查询序列;2)使用音频编码器(如预训练的音频模型)将音频转换为token序列;3)将音频token和文本token输入到MLLM中进行融合;4)使用MLLM生成检索结果。此外,论文还引入了一种token压缩机制,用于减少音频token的数量,从而降低计算成本。

关键创新:论文的关键创新在于:1)提出了ATIR任务和基准,填补了音频-文本交错上下文检索领域的空白;2)提出了一种新颖的token压缩机制,有效缓解了MLLM处理长音频序列时的计算压力。这种压缩机制与现有的压缩方法是正交的,可以结合使用。

关键设计:在模型训练方面,采用了对比学习损失函数,鼓励模型学习音频和文本之间的相似性。Token压缩机制的具体实现方式未知,但其目标是在不损失过多信息的前提下,减少音频token的数量。具体参数设置和网络结构细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的ATIR模型在构建的ATIR基准上,相较于多个强基线模型,取得了显著的性能提升。具体的性能数据和提升幅度在摘要中未明确给出,但强调了ATIR模型在音频-文本交错上下文检索任务上的有效性。

🎯 应用场景

该研究成果可应用于智能助手、语音搜索、多媒体内容理解等领域。例如,在智能助手中,可以根据用户的语音指令和上下文文本,快速检索相关信息。在语音搜索中,可以利用音频中的情感信息和环境上下文,提高搜索的准确性。未来,该技术有望推动音频信息检索和多模态理解的发展。

📄 摘要(原文)

Audio carries richer information than text, including emotion, speaker traits, and environmental context, while also enabling lower-latency processing compared to speech-to-text pipelines. However, recent multimodal information retrieval research has predominantly focused on images, largely overlooking audio, especially in the setting of interleaved audio-text contextual retrieval. In this work, we introduce the Audio-Text Interleaved contextual Retrieval (ATIR) task, where queries can alternate between audio and text modalities. We construct an ATIR benchmark by integrating several Automatic Speech Recognition (ASR), QA, and retrieval datasets, ultimately unifying four types of contextual retrieval tasks. This benchmark substantially addresses the limitations of existing audio retrieval datasets in semantic retrieval. To study this task, we evaluate several off-the-shelf retrievers and train our ATIR model based on a Multimodal Large Language Model (MLLM). We further introduce a novel token compression mechanism that is orthogonal to existing compression methods, thereby alleviating the issue of excessive audio tokens in MLLM-based ATIR models. Experimental results demonstrate that our ATIR model achieves substantial improvements over strong baselines.