SPARK: Self-Play with Asymmetric Reward from Knowledge Graphs

作者: Hyobin Park, Taeseop Kim, Dong-Geol Choi

分类: cs.AI

发布日期: 2026-05-07

💡 一句话要点

提出SPARK框架：利用知识图谱实现非对称奖励的自我博弈，提升科学文献的多跳推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自我博弈 知识图谱 多跳推理 视觉语言模型 科学文献分析 强化学习 多模态学习

📋 核心要点

科学文献中多模态元素关系隐晦，导致现有自我博弈方法难以自动生成高质量推理问题及提供可靠奖励信号。
SPARK通过构建统一知识图谱，利用KG路径生成推理问题，并以结构化事实作为奖励计算的客观依据。
实验证明SPARK在多跳问答任务中显著优于平面语料库基线，且在长距离推理任务中表现出更强的鲁棒性。

📝 摘要（中文）

自我博弈强化学习在数学和编程等具有形式化验证结构的领域表现优异，但在科学文献领域面临挑战，因为文档内及跨文档的多模态元素关系往往缺乏显式定义，导致自动生成关系推理问题困难且奖励信号不可靠。本文提出SPARK（基于知识图谱非对称奖励的自我博弈）框架，通过从多文档科学文献中自动构建统一知识图谱（KG），将其作为自我博弈的结构化基础。KG中的多模态节点路径可用于生成关系推理问题，而结构化事实则为可验证的奖励计算提供了依据。单一小型视觉语言模型（sVLM）在固定KG的背景下交替扮演“提议者”和“求解者”角色，利用信息不对称进行训练。实验表明，SPARK在公开基准及自建跨文档多跳问答数据集上均优于基于平面语料库的自我博弈基线，且随着跳数增加性能优势愈发明显，证明了KG结构化接地对复杂关系推理的有效性。

🔬 方法详解

问题定义：论文旨在解决科学文献领域中，因缺乏显式逻辑结构而导致的自动推理问题生成困难及奖励信号稀疏/不可靠的问题，特别是在跨文档多跳推理场景下的性能瓶颈。

核心思路：引入知识图谱（KG）作为结构化先验，将非结构化的科学文献转化为图结构。通过KG路径引导问题生成，并利用KG中的事实三元组作为验证器，为自我博弈过程提供非对称的奖励信号，从而约束模型在推理过程中的逻辑一致性。

技术框架：SPARK框架包含三个核心阶段：首先是多文档KG构建，将文本与多模态信息映射为图节点；其次是基于KG路径的提议者（Proposer）生成阶段，负责提出推理问题；最后是求解者（Solver）阶段，模型在固定KG的约束下尝试回答问题，并根据KG事实进行奖励反馈。

关键创新：核心创新在于将“非对称信息”引入自我博弈，即提议者与求解者共享KG作为外部知识库，通过KG的结构化特性强制模型进行多跳推理，而非依赖于语料库的统计相关性。

关键设计：采用单一小型视觉语言模型（sVLM）通过角色切换实现自我博弈，利用KG路径的长度作为推理难度的度量，通过奖励函数对符合KG逻辑的回答给予正向反馈，有效缓解了长文本推理中的幻觉问题。

🖼️ 关键图片

📊 实验亮点

SPARK在多跳问答任务中表现卓越，性能随推理跳数增加而显著优于基线模型。在自建的跨文档数据集上，SPARK相比传统的平面语料库自我博弈方法，在复杂推理指标上实现了显著提升，验证了KG结构化接地在解决长距离、多模态逻辑推理任务中的核心价值。

🎯 应用场景

该研究适用于生物医学、材料科学等需要跨文档深度挖掘的科研领域。通过构建领域知识图谱，SPARK可辅助科研人员进行自动化文献综述、复杂假设验证及跨学科知识发现，显著降低科研人员处理海量文献的认知负荷，并提升AI在科学发现中的可解释性。

📄 摘要（原文）

Self-play reinforcement learning has shown strong performance in domains with formally verifiable structure, such as mathematics and coding, where both problem generation and reward computation can be grounded in explicit rules. Extending this paradigm to scientific literature is more challenging: the relationships among multi-modal elements within and across documents are rarely made explicit in text, which makes automatic generation of relational reasoning questions difficult and weakens the reliability of reward signals. We propose SPARK (Self-Play with Asymmetric Reward from Knowledge Graphs), a framework that automatically constructs a unified knowledge graph (KG) from multi-document scientific literature and uses it as the structural basis for self-play. KG paths over multimodal nodes serve as a source for generating relational reasoning questions, and structured facts stored in the KG provide a basis for verifiable reward computation. A single small vision-language model (sVLM) alternates between Proposer and Solver roles under information asymmetry against a fixed KG, a design that we believe can be naturally extended toward online adaptation in future work. We evaluate SPARK on public benchmarks and a self-constructed cross-document multi-hop QA dataset. Results show that SPARK consistently outperforms flat-corpus-based self-play baselines, and the performance gap widens as hop count increases, suggesting that KG-structure grounding contributes to relational multi-hop reasoning beyond what unstructured corpus grounding can provide.

SPARK: Self-Play with Asymmetric Reward from Knowledge Graphs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理