Beyond path selection: Better LLMs for Scientific Information Extraction with MimicSFT and Relevance and Rule-induced(R$^2$)GRPO
作者: Ran Li, Shimin Di, Yuchen Liu, Chen Jing, Yu Qiu, Lei Chen
分类: cs.CL, cs.AI, cs.IR
发布日期: 2025-05-28
🔗 代码/项目: GITHUB
💡 一句话要点
提出MimicSFT和R²GRPO,提升LLM在科学信息抽取中的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 科学信息抽取 大型语言模型 模仿学习 强化学习 关系抽取 推理能力 知识图谱
📋 核心要点
- 现有LLM在科学信息抽取任务中表现不佳,无法同时满足推理和记忆的需求,性能甚至低于小型Bert模型。
- 论文提出MimicSFT和R²GRPO两阶段训练方法,旨在提升LLM在科学信息抽取任务中的推理能力和路径优化。
- 实验结果表明,该方法能有效提高LLM的推理能力,并在关系抽取任务中超越了基线LLM和专门的监督模型。
📝 摘要(中文)
先前的研究表明,使用可验证奖励的强化学习(RLVR)训练的大型语言模型(LLM)仅改进了数学任务中的推理路径,而没有提高推理能力,而使用蒸馏的监督微调(SFT)可以做到这一点。我们从科学信息抽取(SciIE)的角度研究了这一点,其中LLM和推理LLM的表现不如基于Bert的小型模型。SciIE需要推理和记忆。我们认为,基于SciIE,SFT和RLVR都可以以一种简单的方式改进推理路径并提高推理能力。我们提出了一个两阶段的训练方法:1. MimicSFT,使用结构化的推理模板,而不需要高质量的思维链数据;2. R²GRPO,使用相关性和规则诱导的奖励。在科学IE基准上的实验表明,这两种方法都可以提高推理能力。带有mimicSFT的R²GRPO在关系抽取方面超越了基线LLM和专门的监督模型。我们的代码可在https://github.com/ranlislz/R2GRPO上找到。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在科学信息抽取(SciIE)任务中表现不佳的问题。现有方法,特别是基于强化学习的推理路径优化方法,虽然在数学任务中有效,但在SciIE任务中未能充分利用LLM的推理和记忆能力,甚至不如小型Bert模型。SciIE任务需要同时具备推理能力和知识记忆,而现有方法未能很好地平衡这两者。
核心思路:论文的核心思路是通过两阶段训练,首先使用MimicSFT模仿结构化推理模板,提升LLM的推理能力,然后使用R²GRPO(Relevance and Rule-induced GRPO)利用相关性和规则诱导的奖励,进一步优化推理路径。这种方法旨在使LLM能够更好地理解和抽取科学文献中的信息。
技术框架:整体框架包含两个主要阶段: 1. MimicSFT (Mimic Supervised Fine-Tuning): 使用结构化的推理模板进行监督微调,无需高质量的思维链数据。通过模仿预定义的推理步骤,使LLM学习如何进行结构化推理。 2. R²GRPO (Relevance and Rule-induced GRPO): 使用相关性和规则诱导的奖励进行强化学习。奖励函数基于抽取信息的 relevance 和是否符合预定义的规则,引导LLM生成更准确和可靠的抽取结果。
关键创新:论文的关键创新在于结合了模仿学习和强化学习,并针对科学信息抽取任务设计了特定的奖励函数。MimicSFT通过结构化模板简化了训练过程,降低了对高质量数据的需求。R²GRPO则通过相关性和规则约束,提高了抽取结果的准确性和可靠性。与传统的RLVR方法相比,R²GRPO更关注抽取信息的质量和一致性。
关键设计: * MimicSFT: 使用预定义的结构化推理模板,例如“前提-推理-结论”的格式,引导LLM生成结构化的推理过程。 * R²GRPO: 奖励函数包含两部分:相关性奖励和规则奖励。相关性奖励基于抽取信息与上下文的相关程度,规则奖励基于抽取信息是否符合预定义的科学规则。具体奖励函数的设计需要根据具体的SciIE任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MimicSFT和R²GRPO方法能够有效提高LLM在科学信息抽取任务中的性能。特别是在关系抽取任务中,带有MimicSFT的R²GRPO超越了基线LLM和专门的监督模型,证明了该方法的有效性。具体的性能提升数据需要在论文中查找。
🎯 应用场景
该研究成果可应用于自动化科学文献信息抽取、知识图谱构建、智能科研助手等领域。通过提升LLM在科学信息抽取任务中的性能,可以加速科研信息的获取和利用,提高科研效率,并为科学研究提供更强大的数据支持。
📄 摘要(原文)
Previous study suggest that powerful Large Language Models (LLMs) trained with Reinforcement Learning with Verifiable Rewards (RLVR) only refines reasoning path without improving the reasoning capacity in math tasks while supervised-finetuning(SFT) with distillation can. We study this from the view of Scientific information extraction (SciIE) where LLMs and reasoning LLMs underperforms small Bert-based models. SciIE require both the reasoning and memorization. We argue that both SFT and RLVR can refine the reasoning path and improve reasoning capacity in a simple way based on SciIE. We propose two-stage training with 1. MimicSFT, using structured reasoning templates without needing high-quality chain-of-thought data, 2. R$^2$GRPO with relevance and rule-induced rewards. Experiments on scientific IE benchmarks show that both methods can improve the reasoning capacity. R$^2$GRPO with mimicSFT surpasses baseline LLMs and specialized supervised models in relation extraction. Our code is available at https://github.com/ranlislz/R2GRPO.