RAGShaper: Eliciting Sophisticated Agentic RAG Skills via Automated Data Synthesis

📄 arXiv: 2601.08699v1 📥 PDF

作者: Zhengwei Tao, Bo Li, Jialong Wu, Guochen Yan, Huanyao Zhang, Jiahao Xu, Haitao Mi, Wentao Zhang

分类: cs.CL

发布日期: 2026-01-13


💡 一句话要点

RAGShaper:通过自动数据合成提升Agentic RAG的复杂技能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic RAG 数据合成 噪声鲁棒性 信息检索 对抗性训练

📋 核心要点

  1. 现有Agentic RAG方法缺乏高质量训练数据,难以应对真实检索环境中的噪声和复杂性。
  2. RAGShaper通过自动合成数据,构建包含对抗性干扰项的信息树,并强制代理学习纠错和噪声抑制。
  3. 实验表明,基于RAGShaper合成数据训练的模型,在噪声环境和复杂检索任务中显著优于现有方法。

📝 摘要(中文)

Agentic检索增强生成(RAG)赋予大型语言模型自主规划和检索信息以解决复杂问题的能力。然而,由于缺乏高质量的训练数据,而这些数据需要反映真实检索环境中的噪声和复杂性,因此鲁棒代理的开发受到阻碍。传统的的手动标注是不可扩展的,并且常常无法捕捉处理检索失败所需的动态推理策略。为了弥合这一差距,我们引入了RAGShaper,这是一个新颖的数据合成框架,旨在自动化构建RAG任务和鲁棒的代理轨迹。RAGShaper包含一个InfoCurator来构建密集的信息树,该信息树富含感知和认知级别的对抗性干扰项。此外,我们提出了一种约束导航策略,迫使教师代理面对这些干扰项,从而引出明确展示纠错和噪声抑制的轨迹。综合实验证实,在我们合成的语料库上训练的模型明显优于现有的基线,在噪声密集和复杂的检索任务中表现出卓越的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决Agentic RAG在真实场景中面临的训练数据不足和数据质量不高的问题。现有方法依赖人工标注,成本高昂且难以覆盖各种噪声和复杂情况,导致模型在实际应用中鲁棒性较差。尤其是在面对检索失败或错误信息时,模型难以有效纠错和排除干扰。

核心思路:RAGShaper的核心思路是通过自动化的数据合成,生成包含各种噪声和干扰的训练数据,并设计一种约束导航策略,迫使模型学习在复杂环境中进行有效检索和推理。通过这种方式,可以显著提高模型在真实场景中的鲁棒性和泛化能力。

技术框架:RAGShaper主要包含两个核心模块:InfoCurator和Constrained Navigation。InfoCurator负责构建包含对抗性干扰项的密集信息树,这些干扰项涵盖感知和认知层面。Constrained Navigation则利用一种约束导航策略,迫使教师代理在信息树中进行探索,并面对各种干扰,从而生成包含纠错和噪声抑制的轨迹。最终,这些轨迹被用于训练Agentic RAG模型。

关键创新:RAGShaper的关键创新在于其自动化的数据合成流程和约束导航策略。与传统的人工标注方法相比,RAGShaper能够更高效地生成多样化的训练数据,并模拟真实场景中的各种噪声和干扰。约束导航策略则能够引导模型学习在复杂环境中进行有效检索和推理,从而提高模型的鲁棒性。

关键设计:InfoCurator通过引入对抗性干扰项来丰富信息树,这些干扰项包括感知层面的干扰(如拼写错误、语法错误)和认知层面的干扰(如语义相似但错误的陈述)。Constrained Navigation则通过设置约束条件,例如限制检索次数、引入惩罚机制等,迫使教师代理在面对干扰时进行有效的纠错和噪声抑制。具体的损失函数和网络结构细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在RAGShaper合成的数据上训练的模型,在噪声密集和复杂的检索任务中,性能显著优于现有基线模型。具体的性能提升数据和对比基线在摘要中未明确给出,属于未知信息。但整体而言,RAGShaper有效地提高了Agentic RAG模型的鲁棒性。

🎯 应用场景

RAGShaper可应用于各种需要Agentic RAG的场景,例如智能客服、知识问答、自动报告生成等。通过提高模型在噪声环境下的鲁棒性,可以显著提升这些应用的用户体验和可靠性。该研究还有助于推动Agentic RAG技术在实际场景中的广泛应用。

📄 摘要(原文)

Agentic Retrieval-Augmented Generation (RAG) empowers large language models to autonomously plan and retrieve information for complex problem-solving. However, the development of robust agents is hindered by the scarcity of high-quality training data that reflects the noise and complexity of real-world retrieval environments. Conventional manual annotation is unscalable and often fails to capture the dynamic reasoning strategies required to handle retrieval failures. To bridge this gap, we introduce RAGShaper, a novel data synthesis framework designed to automate the construction of RAG tasks and robust agent trajectories. RAGShaper incorporates an InfoCurator to build dense information trees enriched with adversarial distractors spanning Perception and Cognition levels. Furthermore, we propose a constrained navigation strategy that forces a teacher agent to confront these distractors, thereby eliciting trajectories that explicitly demonstrate error correction and noise rejection. Comprehensive experiments confirm that models trained on our synthesized corpus significantly outperform existing baselines, exhibiting superior robustness in noise-intensive and complex retrieval tasks.