GAPD: Gold-Action Policy Distillation for Agentic Reinforcement Learning in Knowledge Base Question Answering

📄 arXiv: 2605.29584v1 📥 PDF

作者: Xin Sun, Jianan Xie, Zhongqi Chen, Qiang Liu, Shu Wu, Bowen Song, Weiqiang Wang, Zilei Wang, Liang Wang

分类: cs.CL

发布日期: 2026-05-28


💡 一句话要点

提出GAPD框架,通过Gold-Action策略蒸馏提升知识库问答中Agent的强化学习效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识库问答 强化学习 策略蒸馏 Agent Gold-Action MID-ANCHOR MATCHING 状态对齐

📋 核心要点

  1. 现有基于强化学习的知识库问答系统依赖稀疏奖励,中间动作的监督不足,尤其是在有gold logical form的情况下。
  2. GAPD框架通过Gold-Action策略蒸馏,利用中间实体作为锚点,将gold action的知识迁移到student策略中。
  3. 实验结果表明,GAPD在WebQSP、GrailQA和GraphQ等数据集上显著超越了现有最佳方法。

📝 摘要(中文)

强化学习(RL)天然适用于Agent型知识库问答(KBQA),模型需要发出可执行的动作,观察知识库的反馈,并最终返回答案。然而,目前基于RL的KBQA系统主要优化来自最终答案的稀疏奖励,导致中间动作的错误缺乏有效的监督。对于带有gold logical form标注的KBQA基准测试尤其如此:gold logical form可以转换为可执行的动作序列,但现有流程主要使用它们来构建warm-start数据,而不是用于on-policy RL更新。我们提出了GAPD,一个训练时的Gold-Action策略蒸馏框架,它为基于结果的RL添加了密集的token级别指导。为了将gold action与on-policy student rollouts对齐,GAPD使用MID-ANCHOR MATCHING:它将student探索和gold执行期间到达的中间实体视为状态锚点,并通过这些探索的实体集将student状态与gold状态匹配。以此对齐的gold action为条件的当前策略充当stop-gradient teacher,其token分布被蒸馏回生成的action-token span上的普通student策略。GAPD在WebQSP、GrailQA和GraphQ上始终超越了当前最先进水平。

🔬 方法详解

问题定义:现有基于强化学习的知识库问答系统,在训练过程中主要依赖最终答案的稀疏奖励进行优化,导致中间步骤的动作选择缺乏有效的监督信号。即使在拥有gold logical form标注的数据集上,也未能充分利用这些信息来指导强化学习过程,限制了模型的学习效率和最终性能。

核心思路:GAPD的核心思路是利用gold logical form提供的动作序列作为教师信号,通过策略蒸馏的方式,将gold action的知识迁移到student agent的策略中。为了解决student agent探索的轨迹与gold action轨迹不一致的问题,GAPD引入了MID-ANCHOR MATCHING机制,将两者对齐。

技术框架:GAPD框架包含以下几个主要步骤:1) Student agent与环境交互,生成动作序列并探索知识库;2) 使用MID-ANCHOR MATCHING算法,将student agent的中间状态与gold action的中间状态进行对齐,找到对应的gold action;3) 将gold action对应的策略作为teacher,使用策略蒸馏损失函数,将teacher策略的token分布迁移到student策略;4) 使用强化学习奖励更新student策略。

关键创新:GAPD的关键创新在于MID-ANCHOR MATCHING算法,它通过匹配student agent和gold action执行过程中到达的中间实体,实现了状态对齐。这种方法能够有效地利用gold logical form的信息,为强化学习提供更密集的监督信号,从而提高模型的学习效率和性能。与现有方法不同,GAPD不仅仅将gold logical form用于warm-start数据构建,而是将其融入到on-policy RL更新过程中。

关键设计:MID-ANCHOR MATCHING算法的关键在于如何定义状态之间的相似度。GAPD使用中间实体集合的匹配程度作为状态相似度的度量。策略蒸馏损失函数通常采用KL散度或交叉熵损失,用于衡量student策略和teacher策略之间的差异。Teacher策略使用stop-gradient,避免teacher策略被student策略影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GAPD在三个知识库问答数据集上取得了显著的性能提升。在WebQSP数据集上,GAPD超越了现有最佳模型,取得了新的state-of-the-art结果。在GrailQA和GraphQ数据集上,GAPD也表现出优越的性能,证明了其有效性和泛化能力。实验结果表明,通过Gold-Action策略蒸馏,可以有效地提高Agent在知识库问答任务中的性能。

🎯 应用场景

该研究成果可应用于智能问答系统、对话机器人等领域,尤其是在需要精确推理和知识库查询的场景下。通过提升Agent在知识库问答任务中的性能,可以提高用户获取信息的效率和准确性,具有重要的实际应用价值。未来,该方法可以扩展到更复杂的知识图谱和推理任务中。

📄 摘要(原文)

Reinforcement learning (RL) is a natural fit for agentic knowledge base question answering (KBQA), where a model must issue executable actions, observe knowledge-base feedback, and eventually return an answer. However, current RL-based KBQA systems mainly optimize sparse rewards from the final answer, leaving intermediate action errors weakly supervised. This is especially limiting for logical-form annotated KBQA benchmarks: gold logical forms can be converted into executable action sequences, but existing pipelines use them mainly for warm-start data construction rather than for on-policy RL updates. We propose GAPD, a training-time Gold-Action Policy Distillation framework that adds dense token-level guidance to outcome-based RL. To align gold actions with on-policy student rollouts, GAPD uses MID-ANCHOR MATCHING: it treats the intermediate entities reached during student exploration and gold execution as state anchors, and matches student states to gold states through these explored entity sets. The current policy conditioned on this aligned gold action serves as a stop-gradient teacher, whose token distribution is distilled back to the ordinary student policy over generated action-token spans. GAPD consistently surpasses the current state of the art on WebQSP, GrailQA, and GraphQ.