RAISE: RAG Design as an Architecture Search Problem

📄 arXiv: 2605.30029v1 📥 PDF

作者: Zhen Chen, Yibing Liu, Weihao Xie, Yu Liang, Peilin Chen, Shiqi Wang

分类: cs.AI

发布日期: 2026-05-28


💡 一句话要点

提出RAISE框架,将RAG设计转化为架构搜索问题,实现RAG超参数优化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG 架构搜索 超参数优化 基准测试

📋 核心要点

  1. 现有RAG系统设计依赖启发式方法,缺乏系统评估和可重复性,难以找到最优配置。
  2. RAISE框架将RAG设计视为架构搜索问题,通过优化算法自动搜索最佳RAG超参数组合。
  3. 实验表明,优化性能高度依赖任务,RAISE为RAG超参数优化提供了公平、可重复的实验平台。

📝 摘要(中文)

检索增强生成(RAG)系统涉及诸多设计选择,包括查询重写、分块、检索深度、重排序和上下文压缩等。这些选择在实践中通常通过启发式方法配置,阻碍了跨设置的系统评估和可重复性。本文认为,这一挑战最好被形式化为RAG架构搜索问题。为了支持对该问题的受控和可重复研究,我们引入了RAG智能搜索引擎(RAISE),这是一个全面的框架和基准,用于RAG超参数优化,它在标准化的搜索空间和预算下评估RAG流水线的优化方法。RAISE实现了13种搜索算法,并使用三个随机种子在七个公共文本和多模态数据集上对其进行评估。实验表明,优化性能高度依赖于任务:在某个数据集上表现良好的方法可能无法在其他数据集上保持一致,这告诫我们不要将聚合排名解释为普遍优越策略的证据。RAISE为公平、可重复和系统地研究RAG超参数优化提供了一个通用的实验基础。

🔬 方法详解

问题定义:现有的检索增强生成(RAG)系统在设计时面临诸多选择,例如查询重写策略、文本分块大小、检索深度、重排序算法以及上下文压缩方法等。这些参数通常依赖于人工经验或启发式方法进行调整,缺乏系统性的评估和优化,导致RAG系统在不同任务上的性能不稳定,且难以复现最佳结果。因此,如何自动地、系统性地优化RAG系统的超参数成为了一个重要的研究问题。

核心思路:本文的核心思路是将RAG系统的设计问题转化为一个架构搜索问题。具体来说,就是将不同的RAG组件(例如不同的查询重写模型、分块策略等)及其对应的参数视为架构中的不同选择,然后利用优化算法(例如进化算法、贝叶斯优化等)在这些选择中进行搜索,从而找到最优的RAG系统配置。这种方法可以避免人工调参的繁琐和主观性,并且能够更好地适应不同的任务和数据集。

技术框架:RAISE框架主要包含以下几个核心模块:1) RAG流水线构建模块:用于构建各种不同的RAG流水线,支持用户自定义RAG组件和参数。2) 搜索空间定义模块:定义了RAG超参数的搜索空间,包括各种RAG组件的选择范围和参数的取值范围。3) 优化算法模块:实现了多种优化算法,例如随机搜索、网格搜索、贝叶斯优化、进化算法等,用于在搜索空间中寻找最优的RAG配置。4) 评估模块:用于评估不同RAG配置的性能,通常使用一些常用的指标,例如准确率、召回率、F1值等。5) 基准数据集模块:提供了一系列公共文本和多模态数据集,用于评估不同优化算法的性能。

关键创新:RAISE的关键创新在于将RAG设计问题形式化为架构搜索问题,并提供了一个全面的框架和基准,用于RAG超参数优化。与传统的启发式方法相比,RAISE能够自动地、系统性地搜索最优的RAG配置,并且能够更好地适应不同的任务和数据集。此外,RAISE还提供了一个公平、可重复的实验平台,方便研究者比较不同优化算法的性能。

关键设计:RAISE的关键设计包括:1) 标准化的搜索空间:定义了一系列常用的RAG组件和参数,例如不同的查询重写模型、分块策略、检索算法等,并为每个组件定义了合理的取值范围。2) 多种优化算法:实现了多种优化算法,例如随机搜索、网格搜索、贝叶斯优化、进化算法等,方便研究者比较不同算法的性能。3) 公共基准数据集:提供了一系列公共文本和多模态数据集,用于评估不同RAG配置的性能。4) 可重复性:RAISE支持使用随机种子来保证实验的可重复性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同的优化算法在不同的数据集上的表现差异很大,这说明RAG超参数优化是一个高度依赖任务的问题。RAISE框架提供了一个公平、可重复的实验平台,方便研究者比较不同优化算法的性能,并为RAG超参数优化提供指导。

🎯 应用场景

RAISE框架可应用于各种需要检索增强生成的场景,例如问答系统、对话系统、信息检索等。通过自动优化RAG系统的超参数,可以显著提升这些系统的性能和用户体验。此外,RAISE还可以作为研究平台,促进RAG技术的发展和创新,例如探索新的RAG组件、优化算法和评估指标。

📄 摘要(原文)

Retrieval-augmented generation (RAG) systems expose numerous design choices spanning query rewriting, chunking, retrieval depth, reranking, and context compression. In practice, these choices are often configured through heuristics, hindering systematic evaluation and reproducibility across settings. We argue that this challenge is best formulated as RAG architecture search. To support controlled and reproducible study of this problem, we introduce the RAG Intelligence Search Engine (RAISE), a comprehensive framework and benchmark for RAG hyperparameter optimization, which evaluates optimization methods for RAG pipelines under standardized search spaces and budgets. RAISE implements 13 search algorithms and evaluates them across seven public text and multimodal datasets using three random seeds. Our experiments show that optimization performance is highly task-dependent: methods that perform strongly on one dataset may not generalize consistently across others, cautioning against interpreting aggregate rankings as evidence of universally superior strategies. RAISE provides a common experimental substrate for fair, reproducible, and systematic research on RAG hyperparameter optimization.