Peak-Then-Collapse and the Four Interface Channels of Knowledge-Graph Tool Use

作者: Tianda Sun, Dimitar Kazakov

分类: cs.CL

发布日期: 2026-05-25

备注: 18 pages, 9 figures

💡 一句话要点

揭示知识图谱工具使用中“峰值-崩溃”现象，并探究其接口通道的影响

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 知识图谱 工具使用 强化学习 接口反馈 自蒸馏

📋 核心要点

现有方法在知识图谱工具使用中存在“峰值-崩溃”现象，即性能先上升后迅速下降，原因尚不明确。
论文通过剥离自然语言信号，探究接口反馈在知识图谱工具使用中的作用，并分析失败模式。
实验表明，接口反馈不足是导致性能崩溃的关键因素，自蒸馏可以作为一种有效的缓解措施。

📝 摘要（中文）

本文研究了标准RLVR工具使用方法（Qwen2.5-7B-Instruct上的GRPO）在极简知识图谱工具API上的表现，该API包含Complex WebQuestions上的四个Freebase导航动词。在自验证检索奖励下，策略的工具支持答案率在250步内从3.8%上升到9.6%，然后在50步内崩溃到0%——这种“峰值-崩溃”模式在四个种子中重复出现。通过七种奖励设计，我们发现了四种常见的失败模式：添加更密集或更有针对性的代理奖励会改变失败模式，但不会消除它。我们认为，与Python解释器、Web搜索和JSON API的一个关键区别是接口反馈：它们的失败通常会泄露模型在预训练中看到的自然语言信号。Python回溯会命名失败的行；而空的Freebase结果[]则不会。剥离这种表面现象会暴露一种奖励重新设计无法修复的退化机制。直接的oracle消融实验排除了关系选择问题：在每次检索调用中注入黄金关系只能将精确匹配准确率提高+0.20个百分点，并且95.4%的检索相关错误是检索组合失败，而不是答案提取失败。作为一种缓解措施，一次迭代的自蒸馏在7B模型上达到了40.0%的EM，并且容量不变：将容量加倍到14B仅将EM提高了0.25个百分点，并且初始化几乎无关紧要——在测试的7B-14B范围内，上限似乎受接口限制。

🔬 方法详解

问题定义：现有的大语言模型在利用知识图谱作为工具时，常常表现出“峰值-崩溃”现象，即在训练初期性能快速提升，但随后又迅速下降。现有的强化学习方法难以稳定地训练模型，使其有效地利用知识图谱进行推理和问答。现有方法往往依赖于自然语言的反馈信号，而知识图谱的API接口提供的反馈信息有限，这可能是导致训练不稳定的原因之一。

核心思路：论文的核心思路是探究知识图谱工具API的接口反馈对模型性能的影响。通过设计不同的奖励机制和消融实验，分析模型在知识图谱检索过程中的失败模式，并尝试通过自蒸馏等方法来缓解性能崩溃的问题。论文假设，知识图谱API提供的反馈信息不足，导致模型难以有效地学习和利用知识图谱。

技术框架：论文采用强化学习框架，使用Qwen2.5-7B-Instruct模型作为基础模型，并使用GRPO（Generative Pre-trained Transformer Reward Policy Optimization）算法进行训练。知识图谱工具API包含四个Freebase导航动词，用于在Complex WebQuestions数据集上进行问答。论文设计了多种奖励函数，包括自验证检索奖励等，用于指导模型的训练。此外，论文还进行了消融实验，例如注入黄金关系等，以分析模型在知识图谱检索过程中的失败模式。最后，论文尝试使用自蒸馏方法来提高模型的性能。

关键创新：论文的关键创新在于揭示了知识图谱工具API的接口反馈对模型性能的影响。论文发现，知识图谱API提供的反馈信息不足是导致模型性能崩溃的关键因素。与Python解释器、Web搜索等工具相比，知识图谱API提供的反馈信息缺乏自然语言信号，导致模型难以有效地学习和利用知识图谱。此外，论文还提出了一种基于自蒸馏的缓解方法，可以有效地提高模型的性能。

关键设计：论文的关键设计包括：1) 设计了多种奖励函数，用于指导模型的训练；2) 进行了消融实验，例如注入黄金关系等，以分析模型在知识图谱检索过程中的失败模式；3) 尝试使用自蒸馏方法来提高模型的性能。具体来说，自蒸馏采用一次迭代的方式，利用教师模型的输出来指导学生模型的训练。实验中，论文测试了7B和14B两种不同规模的模型，并发现自蒸馏可以有效地提高模型的性能，且容量不变性较好。

🖼️ 关键图片

📊 实验亮点

实验结果表明，标准RLVR方法在知识图谱工具使用中存在“峰值-崩溃”现象。注入黄金关系只能将精确匹配准确率提高+0.20个百分点，95.4%的检索相关错误是检索组合失败。一次迭代的自蒸馏在7B模型上达到了40.0%的EM，且容量不变性较好，将容量加倍到14B仅将EM提高了0.25个百分点。

🎯 应用场景

该研究成果可应用于智能问答系统、知识图谱推理、语义搜索等领域。通过改进知识图谱工具API的接口反馈，可以提高大语言模型利用知识图谱的能力，从而提升相关应用的性能和用户体验。未来的研究可以探索更有效的接口反馈机制，例如提供更丰富的自然语言描述或结构化信息。

📄 摘要（原文）

We test the standard RLVR tool-use recipe -- GRPO on Qwen2.5-7B-Instruct -- on a deliberately minimal knowledge-graph tool API: four Freebase navigation verbs over Complex WebQuestions. Under a self-verifiable retrieval reward, the policy's tool-grounded answer rate climbs from $3.8\%$ to $9.6\%$ over 250 steps, then collapses to $0\%$ within a single 50-step window -- a \emph{peak-then-collapse} pattern replicated across four seeds. Across seven reward designs, we find four recurring failure modes: adding denser or more targeted proxy rewards shifts the failure mode rather than eliminating it. We argue that a key difference from Python interpreters, web search, and JSON APIs is interface feedback: their failures often leak natural-language signal the model saw in pretraining. A Python traceback names the failing line; an empty Freebase result \texttt{[]} does not. Stripping away that surface exposes a degradation regime that same-family reward redesigns do not fix. A direct oracle ablation rules out relation selection: injecting gold relations at every retrieval call lifts exact-match accuracy by only $+0.20$~pp, and $95.4\%$ of retrieval-dependent errors are retrieval-composition failures rather than answer-extraction failures. As a mitigation, one-iteration self-distillation reaches $40.0\%$ EM at 7B and is capacity-invariant: doubling capacity to 14B improves EM by only $0.25$~pp, and initialization barely matters -- the ceiling appears interface-bound within the 7B--14B range tested.

Peak-Then-Collapse and the Four Interface Channels of Knowledge-Graph Tool Use

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理