GENIUS: A Generative Framework for Universal Multimodal Search

作者: Sungyeon Kim, Xinliang Zhu, Xiaofan Lin, Muhammet Bastan, Douglas Gray, Suha Kwak

分类: cs.IR, cs.AI, cs.CV, cs.LG

发布日期: 2025-03-25 (更新: 2025-06-05)

备注: Accepted to CVPR 2025

💡 一句话要点

提出GENIUS：一个通用的多模态搜索生成框架，提升检索效率与泛化能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 生成式检索 多模态搜索 语义量化 查询增强 信息检索 跨模态学习 Transformer M-BEIR

📋 核心要点

现有检索模型通常是任务特定的，且在性能上不如基于嵌入的检索方法，限制了其通用性和效率。
GENIUS通过模态解耦的语义量化，将多模态数据转化为离散ID，并结合查询增强，提升泛化能力。
实验表明，GENIUS在M-BEIR基准上超越了现有生成式方法，并在保持检索速度的同时，性能接近基于嵌入的方法。

📝 摘要（中文）

生成式检索是信息检索领域一种新兴方法，它基于查询生成目标数据的标识符（ID），为传统的基于嵌入的检索方法提供了一种高效的替代方案。然而，现有的模型是特定于任务的，并且在性能上不如基于嵌入的检索。本文提出了GENIUS，一个通用的生成式检索框架，支持跨多种模态和领域的各种任务。GENIUS的核心是模态解耦的语义量化，将多模态数据转换为离散的ID，编码模态和语义信息。此外，为了增强泛化能力，我们提出了一种查询增强方法，在查询及其目标之间进行插值，使GENIUS能够适应各种查询形式。在M-BEIR基准上的评估表明，它明显优于先前的生成式方法。与基于嵌入的检索不同，GENIUS在数据库大小上始终保持较高的检索速度，并在多个基准上具有竞争力的性能。通过额外的重排序，GENIUS通常可以获得接近基于嵌入的方法的结果，同时保持效率。

🔬 方法详解

问题定义：现有基于嵌入的检索方法虽然性能较好，但在大规模数据集上检索速度较慢。生成式检索方法虽然检索速度快，但通常是任务特定的，泛化能力不足，且性能与基于嵌入的方法相比仍有差距。因此，需要一种通用的、高效的、高性能的多模态检索方法。

核心思路：GENIUS的核心思路是将多模态数据通过模态解耦的语义量化转化为离散的ID，这样可以将检索问题转化为ID的生成问题，从而提高检索速度。同时，通过查询增强，提高模型的泛化能力，使其能够适应不同的查询形式。

技术框架：GENIUS框架主要包含以下几个模块：1) 多模态数据编码器：将不同模态的数据编码成统一的语义表示。2) 模态解耦的语义量化器：将语义表示量化为离散的ID，同时保留模态信息。3) 查询编码器：将查询编码成语义表示。4) ID生成器：基于查询的语义表示，生成目标数据的ID。5) 查询增强模块：通过在查询及其目标之间进行插值，生成新的查询，用于提高模型的泛化能力。

关键创新：GENIUS的关键创新在于模态解耦的语义量化和查询增强。模态解耦的语义量化可以将多模态数据转化为离散的ID，从而提高检索速度。查询增强可以提高模型的泛化能力，使其能够适应不同的查询形式。与现有方法的本质区别在于，GENIUS是一个通用的框架，可以支持多种模态和领域的检索任务。

关键设计：在模态解耦的语义量化中，使用了可学习的码本，通过最小化量化误差来训练码本。查询增强使用了插值方法，通过调整插值系数来控制增强的强度。损失函数包括生成损失和对比学习损失，用于提高ID生成器的准确性和区分度。网络结构使用了Transformer架构，用于编码多模态数据和生成ID。

🖼️ 关键图片

📊 实验亮点

GENIUS在M-BEIR基准测试中显著超越了现有的生成式检索方法。实验结果表明，GENIUS在保持高检索速度的同时，性能接近甚至超过了基于嵌入的检索方法。通过额外的重排序，GENIUS能够进一步提升性能，使其在多个基准测试中具有竞争力。

🎯 应用场景

GENIUS可应用于各种多模态信息检索场景，例如图像/视频搜索、跨模态推荐、问答系统等。其高效的检索速度和良好的泛化能力使其在大规模数据集上具有实际应用价值。未来，可以进一步探索GENIUS在更多模态和领域的应用，并研究如何进一步提高其性能。

📄 摘要（原文）

Generative retrieval is an emerging approach in information retrieval that generates identifiers (IDs) of target data based on a query, providing an efficient alternative to traditional embedding-based retrieval methods. However, existing models are task-specific and fall short of embedding-based retrieval in performance. This paper proposes GENIUS, a universal generative retrieval framework supporting diverse tasks across multiple modalities and domains. At its core, GENIUS introduces modality-decoupled semantic quantization, transforming multimodal data into discrete IDs encoding both modality and semantics. Moreover, to enhance generalization, we propose a query augmentation that interpolates between a query and its target, allowing GENIUS to adapt to varied query forms. Evaluated on the M-BEIR benchmark, it surpasses prior generative methods by a clear margin. Unlike embedding-based retrieval, GENIUS consistently maintains high retrieval speed across database size, with competitive performance across multiple benchmarks. With additional re-ranking, GENIUS often achieves results close to those of embedding-based methods while preserving efficiency.

GENIUS: A Generative Framework for Universal Multimodal Search

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理