DeepRefine: Agent-Compiled Knowledge Refinement via Reinforcement Learning

📄 arXiv: 2605.10488v1 📥 PDF

作者: Haoyu Huang, Jiaxin Bai, Shujie Liu, Yang Wei, Hong Ting Tsang, Yisen Gao, Zhongwei Xie, Yufei Li, Yangqiu Song

分类: cs.CL, cs.AI

发布日期: 2026-05-11


💡 一句话要点

提出DeepRefine框架,通过强化学习优化智能体编译的知识库以提升下游任务性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识库精炼 强化学习 智能体 溯因推理 知识管理

📋 核心要点

  1. 智能体编译的知识库存在不完整、不准确及冗余等缺陷,随迭代使用导致检索质量下降,严重制约了LLM在复杂任务中的表现。
  2. DeepRefine通过多轮交互与溯因诊断定位知识库缺陷,并利用强化学习优化精炼策略,实现对知识库的针对性增量更新。
  3. 实验表明,DeepRefine在无需人工标注参考的情况下,显著提升了知识库的检索保真度及下游任务的执行效果。

📝 摘要(中文)

智能体编译的知识库为大语言模型(LLM)在开放式、知识密集型任务中提供了持久的外部知识。然而,这些知识库常受限于不完整性、不准确性和冗余性,表现为证据缺失、跨文档链接匮乏、置信度低或指代消解错误等问题。这些缺陷在迭代使用中不断累积,严重削弱了检索保真度和下游任务表现。本文提出了DeepRefine,这是一个基于LLM的通用知识库精炼模型。它通过与知识库进行多轮交互,利用溯因诊断定位缺陷,并执行针对性的更新操作。为在缺乏黄金参考的情况下优化精炼策略,我们引入了“超越草稿增益”(Gain-Beyond-Draft, GBD)奖励机制,并通过强化学习对推理过程进行端到端训练。实验证明,该方法在多个强基线上均实现了下游任务性能的持续提升。

🔬 方法详解

问题定义:论文旨在解决智能体在构建和维护外部知识库时产生的“知识退化”问题。现有方法通常直接使用原始抓取或生成的知识,缺乏对知识库质量的动态评估与修正机制,导致错误信息在多轮交互中被放大。

核心思路:DeepRefine将知识库精炼建模为一个序列决策过程。通过引入LLM作为“诊断者”和“执行者”,利用溯因推理分析交互历史中的失败案例,从而精准定位并修复知识库中的逻辑断层或冗余信息。

技术框架:系统包含三个核心阶段:首先是多轮交互与溯因诊断,通过分析查询与知识库的匹配情况识别缺陷;其次是执行精炼动作,对知识库进行增量式修改;最后是基于强化学习的策略优化,通过反馈循环不断提升精炼质量。

关键创新:最重要的创新在于提出了“超越草稿增益”(GBD)奖励机制。该机制无需人工标注的黄金参考,而是通过衡量精炼前后知识库在下游任务中的表现差异来计算奖励,实现了无监督环境下的策略学习。

关键设计:模型采用端到端的强化学习训练范式,将知识库的更新视为动作空间。通过溯因诊断模块,模型能够从历史交互中提取因果线索,从而在复杂的知识图谱或文档集合中执行精确的删除、合并或补充操作。

📊 实验亮点

实验结果显示,DeepRefine在多个知识密集型基准测试中表现优异。相比于传统的静态知识库构建方法,DeepRefine在检索准确率和下游任务成功率上均有显著提升。特别是在缺乏人工标注的真实场景下,GBD奖励机制有效引导模型实现了性能的稳步增长,证明了其在复杂知识库维护中的鲁棒性。

🎯 应用场景

该技术适用于需要长期记忆和高精度知识检索的AI智能体系统,如自动化科研助手、法律文档分析平台及企业级知识管理系统。它能有效解决动态环境下知识库随时间推移而产生的“知识腐烂”问题,提升智能体在复杂决策任务中的可靠性与准确性。

📄 摘要(原文)

Agent-compiled knowledge bases provide persistent external knowledge for large language model (LLM) agents in open-ended, knowledge-intensive downstream tasks. Yet their quality is systematically limited by \emph{incompleteness}, \emph{incorrectness}, and \emph{redundancy}, manifested as missing evidence or cross-document links, low-confidence or imprecise claims, and ambiguous or coreference resolution issues. Such defects compound under iterative use, degrading retrieval fidelity and downstream task performance. We present \textbf{DeepRefine}, a general LLM-based reasoning model for \emph{agent-compiled knowledge refinement} that improves the quality of any pre-constructed knowledge bases with user queries to make it more suitable for the downstream tasks. DeepRefine performs multi-turn interactions with the knowledge base and conducts abductive diagnosis over interaction history, localizes likely defects, and executes targeted refinement actions for incremental knowledge base updates. To optimize refinement policies of DeepRefine without gold references, we introduce a Gain-Beyond-Draft (GBD) reward and train the reasoning process end-to-end via reinforcement learning. Extensive experiments demonstrate consistent downstream gains over strong baselines.