Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

作者: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou

分类: cs.CL, cs.AI, cs.IR, cs.LG

发布日期: 2025-10-20

备注: This work is in progress

💡 一句话要点

提出Nyx，用于通用检索增强生成中的混合模态检索，提升视觉语言任务性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 混合模态检索 视觉语言模型 多模态学习 数据集构建

📋 核心要点

现有RAG系统主要处理单模态文本，无法有效处理包含文本和图像的混合模态查询和文档。
Nyx是一种统一的混合模态检索器，专为通用检索增强生成(URAG)设计，能够处理混合模态信息。
Nyx在标准文本RAG和URAG设置中均表现出色，显著提升了视觉语言任务的生成质量。

📝 摘要（中文）

检索增强生成(RAG)已成为一种强大的范式，通过从外部语料库检索相关文档来增强大型语言模型(LLM)。然而，现有的RAG系统主要关注单模态文本，在查询和文档可能包含混合模态(如文本和图像)的实际场景中表现不佳。本文解决了通用检索增强生成(URAG)的挑战，即检索和推理混合模态信息以改进视觉语言生成。为此，我们提出了Nyx，一种为URAG场景量身定制的统一混合模态到混合模态检索器。为了缓解真实混合模态数据的稀缺性，我们引入了一个四阶段的自动化生成和过滤流程，利用网络文档构建NyxQA，一个包含多样混合模态问答对的数据集，更好地反映了真实世界的信息需求。基于这个高质量数据集，我们为Nyx采用了一个两阶段的训练框架：首先在NyxQA以及各种开源检索数据集上进行预训练，然后使用来自下游视觉语言模型(VLM)的反馈进行监督微调，以使检索输出与生成偏好对齐。实验结果表明，Nyx不仅在标准文本RAG基准测试中表现出色，而且在更通用和真实的URAG设置中表现出色，显著提高了视觉语言任务的生成质量。

🔬 方法详解

问题定义：论文旨在解决通用检索增强生成(URAG)中，现有RAG系统无法有效处理混合模态信息的问题。现有方法主要针对单模态文本，无法充分利用图像等视觉信息，导致在视觉语言任务中表现不佳。

核心思路：论文的核心思路是构建一个能够处理混合模态输入和输出的检索器Nyx，并利用高质量的混合模态数据集进行训练，使其能够更好地理解和检索混合模态信息。通过两阶段训练框架，将检索器的输出与下游视觉语言模型的生成偏好对齐。

技术框架：Nyx的整体框架包含以下几个主要部分：1) 混合模态数据构建pipeline，用于生成高质量的NyxQA数据集；2) 混合模态检索器Nyx，负责根据混合模态查询检索相关的混合模态文档；3) 两阶段训练框架，包括预训练和监督微调，用于优化Nyx的检索性能。

关键创新：论文的关键创新在于：1) 提出了统一的混合模态检索器Nyx，能够处理混合模态的查询和文档；2) 构建了高质量的混合模态数据集NyxQA，用于训练和评估混合模态检索器；3) 提出了两阶段训练框架，利用下游视觉语言模型的反馈来优化检索器的性能，使其更好地服务于生成任务。

关键设计：NyxQA数据集的构建采用了四阶段的自动化pipeline，包括生成、过滤等步骤，以保证数据的质量和多样性。两阶段训练框架中，预训练阶段使用多种开源检索数据集和NyxQA数据集，监督微调阶段使用下游视觉语言模型的反馈作为监督信号。具体的损失函数和网络结构细节在论文中未明确给出，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Nyx在标准文本RAG基准测试中表现具有竞争力，并且在更通用和真实的URAG设置中表现出色，显著提高了视觉语言任务的生成质量。具体的性能提升数据和对比基线在论文中未明确给出，属于未知信息。

🎯 应用场景

该研究成果可应用于各种需要处理混合模态信息的场景，例如：视觉问答、图像描述生成、多模态对话系统等。通过检索相关的混合模态信息，可以显著提升这些应用的性能和用户体验。未来，该技术有望在智能客服、教育、医疗等领域发挥重要作用。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing large language models (LLMs) by retrieving relevant documents from an external corpus. However, existing RAG systems primarily focus on unimodal text documents, and often fall short in real-world scenarios where both queries and documents may contain mixed modalities (such as text and images). In this paper, we address the challenge of Universal Retrieval-Augmented Generation (URAG), which involves retrieving and reasoning over mixed-modal information to improve vision-language generation. To this end, we propose Nyx, a unified mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate the scarcity of realistic mixed-modal data, we introduce a four-stage automated pipeline for generation and filtering, leveraging web documents to construct NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that better reflect real-world information needs. Building on this high-quality dataset, we adopt a two-stage training framework for Nyx: we first perform pre-training on NyxQA along with a variety of open-source retrieval datasets, followed by supervised fine-tuning using feedback from downstream vision-language models (VLMs) to align retrieval outputs with generative preferences. Experimental results demonstrate that Nyx not only performs competitively on standard text-only RAG benchmarks, but also excels in the more general and realistic URAG setting, significantly improving generation quality in vision-language tasks.

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理