Transparent and Robust RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability

作者: Jingyi Ren, Yekun Xu, Xiaolong Wang, Weitao Li, Weizhi Ma, Yang Liu

分类: cs.CL

发布日期: 2025-05-19 (更新: 2025-10-11)

💡 一句话要点

提出ARENA框架，通过自适应奖励强化学习实现透明且鲁棒的RAG生成。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 检索增强生成 强化学习 透明性 鲁棒性 多跳问答 自适应奖励 证据导航

📋 核心要点

现有RAG方法缺乏透明性，难以追踪推理过程中的证据使用情况，限制了可解释性。
ARENA框架通过自适应奖励强化学习，引导RAG生成器识别关键证据并进行结构化推理。
实验表明，ARENA在多跳问答任务上显著提升了准确率，与先进闭源LLM性能相当。

📝 摘要（中文）

检索增强生成（RAG）在知识密集型应用中具有重要价值。许多研究使用强化学习（RL）来提升RAG生成器的推理能力。然而，两个关键挑战仍然存在：（1）透明性：大多数现有方法没有明确指出在推理过程中实际使用的参考文献，限制了解释性和可见性；（2）稳定性：现有基于RL的方法中使用的KL散度估计器可能导致梯度尖峰，从而导致训练不稳定。为了解决这些挑战，我们提出了自适应奖励证据导航代理（ARENA），这是一个通过RL训练的透明且鲁棒的RAG生成器框架，具有专门设计的奖励机制。基于我们结构化的协议、KL散度稳定化和自适应奖励计算模块，ARENA使RAG生成器能够识别关键证据，执行结构化推理，并生成具有可解释决策轨迹的答案。应用于Qwen2.5-7B-Instruct和Llama3.1-8B-Instruct，在多个基线上进行的广泛实验表明，在三个多跳问答数据集上，准确率提高了10-30%，与先进的闭源LLM（例如，OpenAI o1，DeepSeek R1）相当。进一步的分析表明，ARENA可以很好地推广到未见过的数据集和任务。我们的模型和代码已公开发布。

🔬 方法详解

问题定义：论文旨在解决现有RAG模型在推理过程中的透明性和稳定性问题。现有方法难以追踪生成答案所依赖的证据，导致可解释性差。同时，基于KL散度的强化学习训练方法容易产生梯度爆炸，影响训练稳定性。

核心思路：论文的核心思路是设计一个自适应奖励的强化学习框架，鼓励模型在推理过程中明确选择和利用关键证据。通过结构化的协议和KL散度稳定化技术，提高训练的稳定性和透明性。

技术框架：ARENA框架包含以下主要模块：1) 检索模块：从知识库中检索相关文档；2) 证据导航代理：基于强化学习，选择和利用检索到的证据；3) 生成器：根据选择的证据生成答案；4) 奖励模块：根据答案的正确性、证据的相关性和决策轨迹的合理性，计算自适应奖励。整体流程是，给定问题，检索模块检索相关文档，证据导航代理逐步选择证据，生成器生成答案，奖励模块评估答案并更新证据导航代理的策略。

关键创新：ARENA的关键创新在于：1) 引入了显式的证据导航代理，使得模型能够明确选择和利用证据，提高了透明性；2) 设计了自适应奖励机制，根据答案质量、证据相关性和决策轨迹的合理性动态调整奖励，提高了训练效率和模型性能；3) 采用了KL散度稳定化技术，避免了梯度爆炸，提高了训练稳定性。

关键设计：在奖励函数设计上，论文综合考虑了答案的正确性（使用外部评估器判断）、选择证据与问题和最终答案的相关性（使用交叉熵损失衡量）以及决策轨迹的合理性（通过KL散度惩罚）。KL散度稳定化通过限制策略更新的幅度来防止梯度爆炸。证据导航代理可以使用Transformer或其他序列模型实现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ARENA在三个多跳问答数据集上取得了显著的性能提升，准确率提高了10-30%，与先进的闭源LLM（如OpenAI o1和DeepSeek R1）的性能相当。此外，ARENA还展现出了良好的泛化能力，能够适应未见过的数据集和任务。

🎯 应用场景

ARENA框架可应用于知识密集型问答、智能客服、报告生成等领域。通过提高RAG模型的可解释性和鲁棒性，可以增强用户对模型输出的信任，并促进模型在实际场景中的应用。该研究对于提升大型语言模型在复杂推理任务中的表现具有重要意义。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) delivers substantial value in knowledge-intensive applications. Many recent works use reinforcement learning (RL) to elicit strong reasoning in RAG generators. However, two key challenges remain unresolved: (1) Transparency: most prior methods do not explicitly indicate which references are actually used during the reasoning that leads to the final answer, limiting interpretability and visibility; (2) Stability: the KL divergence estimator used in existing RL-based approaches may cause gradient spikes, leading to unstable training. To address these challenges, we propose Adaptive-Rewarded Evidence Navigation Agent (ARENA), a transparent and robust RAG generator framework trained via RL with designed rewards. Based on our structured protocol, KL divergence stabilization, and adaptive reward calculation modules, ARENA enables the RAG generator to identify key evidence, perform structured reasoning, and generate answers with interpretable decision traces. Applied to Qwen2.5-7B-Instruct and Llama3.1-8B-Instruct, extensive experiments across multiple baselines show 10-30% accuracy improvements on three multi-hop QA datasets, comparable to advanced closed-source LLMs (e.g., OpenAI o1, DeepSeek R1). Further analyses show that ARENA generalizes well to unseen datasets and tasks. Our models and codes are publicly released.

Transparent and Robust RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理