Agent-Orchestrated Adaptive RAG: A Comparative Study on Structured and Multi-Hop Retrieval

📄 arXiv: 2606.05658v1 📥 PDF

作者: Anuj Maharjan, Devinder Kaur, Richard Molyet

分类: cs.IR, cs.AI

发布日期: 2026-06-04


💡 一句话要点

提出Agent-Orchestrated Adaptive RAG以解决复杂查询的检索问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 动态查询分解 多跳推理 自反评估 复杂查询处理

📋 核心要点

  1. 现有的检索增强生成方法在处理复杂查询时表现不佳,主要依赖静态的单步检索。
  2. 本文提出的框架通过动态查询分解和迭代检索来提升复杂查询的处理能力,结合自反评估机制。
  3. 实验结果表明,查询分解在结构化领域提升了整体得分和平均倒排排名,但在多跳推理上表现不佳。

📝 摘要(中文)

检索增强生成(RAG)通过将大型语言模型(LLMs)的响应与外部知识结合来提升其性能,但传统的检索管道依赖静态的单步检索,限制了在复杂查询上的表现。本文提出了一种Agent-Orchestrated Adaptive RAG框架,引入动态查询分解、迭代检索和有界自反评估循环。通过在特定领域的DevOps知识库和多跳推理基准MuSiQue上进行评估,结果显示查询分解在结构化领域取得了一致的提升,但在多跳基准上则降低了排名精度,而反思机制在显著延迟成本下提高了引用准确性。这些对比结果表明,智能增强并非普遍有效,需根据查询和领域特征选择性应用。

🔬 方法详解

问题定义:本文旨在解决传统RAG方法在复杂查询处理中的局限性,特别是静态单步检索导致的性能瓶颈。

核心思路:通过引入动态查询分解和迭代检索,结合自反评估机制,提升对复杂查询的响应能力,确保生成内容的准确性和相关性。

技术框架:整体架构包括三个主要模块:动态查询分解模块、迭代检索模块和自反评估模块。动态查询分解将复杂查询拆分为多个子查询,迭代检索则在每个子查询上进行多轮检索,自反评估模块用于评估生成内容的质量。

关键创新:最重要的创新在于动态查询分解和自反评估机制的结合,这与现有方法的静态检索方式形成鲜明对比,能够更灵活地应对复杂查询。

关键设计:在设计中,设置了查询分解的策略和自反评估的标准,采用了多种评估指标如整体得分、引用准确性和平均倒排排名,以确保系统的适应性和性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,在DevOps知识库上,查询分解使整体得分提升0.04,平均倒排排名提升0.17。然而,在多跳推理基准MuSiQue上,排名精度有所下降,反映出不同领域对智能增强的需求差异。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、客户支持自动化和知识管理平台。通过提升对复杂查询的处理能力,能够显著提高用户体验和信息检索的效率,未来可能在各类信息密集型行业中发挥重要作用。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by grounding their responses in external knowledge, but conventional pipelines rely on static, single-step retrieval that limits performance on complex queries. This paper presents an Agent-Orchestrated Adaptive RAG framework that introduces dynamic query decomposition, iterative retrieval, and a bounded self-reflective evaluation loop. We evaluate the system across two complementary datasets: a domain-specific DevOps knowledge base and the multi-hop reasoning benchmark MuSiQue. Using metrics that include overall score, citation accuracy, mean reciprocal rank, and topic coverage, we find that query decomposition yields consistent gains in the structured domain (overall score $+0.04$, MRR $+0.17$ on DevOps) but degrades ranking precision on the multi-hop benchmark, while the reflection mechanism improves citation accuracy at a substantial latency cost. These contrasting results show that agentic enhancements are not universally beneficial and must be applied selectively according to query and domain characteristics. Our findings argue for adaptive, cost-aware orchestration rather than uniformly aggressive reasoning pipelines.