MMKG-RDS: Reasoning Data Synthesis via Deep Mining of Multimodal Knowledge Graphs

📄 arXiv: 2602.23632v1 📥 PDF

作者: Lun Zhan, Feng Xiong, Huanyong Liu, Feng Zhang, Yuhui Yin

分类: cs.AI

发布日期: 2026-02-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出MMKG-RDS框架,通过深度挖掘多模态知识图谱合成推理数据,提升领域模型推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态知识图谱 推理数据合成 数据增强 知识图谱推理 领域模型微调

📋 核心要点

  1. 现有方法在长尾知识覆盖不足,有效性验证困难,可解释性差,限制了领域模型推理能力的提升。
  2. MMKG-RDS框架利用多模态知识图谱,支持细粒度知识提取、可定制路径采样和多维数据质量评分,灵活合成推理数据。
  3. 实验表明,在少量MMKG-RDS合成数据上微调Qwen3模型,推理精度可提升9.2%,并能生成挑战现有模型的复杂数据。

📝 摘要(中文)

高质量训练数据的合成对于提升领域模型的推理能力至关重要。现有方法在长尾知识覆盖、有效性验证和可解释性方面存在局限性。基于知识图谱的方法在功能性、粒度、可定制性和评估方面仍然不足。为了解决这些问题,我们提出了MMKG-RDS,一个灵活的推理数据合成框架,它利用多模态知识图谱。该框架支持细粒度的知识提取、可定制的路径采样和多维数据质量评分。我们使用MMKG-RDS-Bench数据集验证了MMKG-RDS,该数据集涵盖五个领域、17种任务类型和14,950个样本。实验结果表明,在少量合成样本上微调Qwen3模型(0.6B/8B/32B)可将推理精度提高9.2%。该框架还生成了独特的数据,挑战了现有模型在涉及表格和公式的任务上的表现,这对于构建复杂的基准测试非常有用。数据集和代码可在https://github.com/360AILAB-NLP/MMKG-RDS 获取。

🔬 方法详解

问题定义:现有方法在合成高质量推理训练数据方面存在不足。具体来说,它们难以覆盖长尾知识,缺乏有效的验证机制来保证合成数据的质量,并且可解释性较差。基于知识图谱的方法虽然有所改进,但在功能性、粒度、可定制性和评估方面仍然存在局限性,无法满足复杂推理任务的需求。

核心思路:MMKG-RDS的核心思路是利用多模态知识图谱的丰富信息,通过深度挖掘知识图谱中的关系和实体,生成高质量的推理数据。通过可定制的路径采样策略,可以灵活地控制生成数据的类型和难度。同时,引入多维数据质量评分机制,确保生成的数据具有较高的质量和有效性。

技术框架:MMKG-RDS框架主要包含三个模块:1) 细粒度知识提取模块,用于从多模态知识图谱中提取实体、关系和属性等知识;2) 可定制路径采样模块,根据用户定义的规则和约束,从知识图谱中采样推理路径;3) 多维数据质量评分模块,对生成的推理数据进行质量评估,包括逻辑一致性、信息完整性和可读性等指标。整个流程是从知识图谱中提取知识,然后根据任务需求进行路径采样,最后对生成的数据进行质量评估和筛选。

关键创新:MMKG-RDS的关键创新在于其灵活的数据合成框架和多维数据质量评分机制。与现有方法相比,MMKG-RDS能够生成更细粒度、更可定制的推理数据,并且能够有效地评估和筛选生成数据的质量。此外,MMKG-RDS还支持多模态知识图谱,可以利用图像、文本等多种信息来增强推理数据的生成。

关键设计:在路径采样模块中,使用了基于规则和基于学习的两种采样策略。基于规则的采样策略允许用户自定义采样规则,例如指定实体类型、关系类型和路径长度等。基于学习的采样策略则利用强化学习算法,自动学习最优的采样策略,以生成更有效的推理数据。在数据质量评分模块中,使用了多种指标来评估生成数据的质量,包括逻辑一致性(例如,使用规则推理引擎验证推理路径的正确性)、信息完整性(例如,检查是否缺少必要的实体或关系)和可读性(例如,使用语言模型评估生成文本的流畅度)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在MMKG-RDS-Bench数据集上,使用少量合成数据微调Qwen3模型(0.6B/8B/32B),推理精度平均提升9.2%。此外,MMKG-RDS生成的数据能够有效挑战现有模型在表格和公式推理任务上的表现,表明其能够生成更复杂和多样化的推理数据。这些结果验证了MMKG-RDS在推理数据合成方面的有效性和优越性。

🎯 应用场景

MMKG-RDS可应用于多个领域,例如智能问答、知识图谱补全、推荐系统和教育领域。通过合成高质量的推理数据,可以提升这些领域模型的性能和泛化能力。此外,MMKG-RDS还可以用于构建更具挑战性的基准测试,促进相关领域的研究和发展。该框架的灵活性和可定制性使其能够适应不同的应用场景和任务需求。

📄 摘要(原文)

Synthesizing high-quality training data is crucial for enhancing domain models' reasoning abilities. Existing methods face limitations in long-tail knowledge coverage, effectiveness verification, and interpretability. Knowledge-graph-based approaches still fall short in functionality, granularity, customizability, and evaluation. To address these issues, we propose MMKG-RDS, a flexible framework for reasoning data synthesis that leverages multimodal knowledge graphs. It supports fine-grained knowledge extraction, customizable path sampling, and multidimensional data quality scoring. We validate MMKG-RDS with the MMKG-RDS-Bench dataset, covering five domains, 17 task types, and 14,950 samples. Experimental results show fine-tuning Qwen3 models (0.6B/8B/32B) on a small number of synthesized samples improves reasoning accuracy by 9.2%. The framework also generates distinct data, challenging existing models on tasks involving tables and formulas, useful for complex benchmark construction. The dataset and code are available at https://github.com/360AILAB-NLP/MMKG-RDS