RADD: Retrieval-Augmented Discrete Diffusion for Multi-Modal Knowledge Graph Completion

📄 arXiv: 2604.25693v1 📥 PDF

作者: Guanglin Niu, Bo Li

分类: cs.AI

发布日期: 2026-04-28

备注: 12 pages, 3 figures, 6 tables


💡 一句话要点

提出RADD框架,解耦检索与重排序,提升多模态知识图谱补全性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态知识图谱补全 检索增强 离散扩散模型 知识蒸馏 关系感知 重排序 实体链接

📋 核心要点

  1. 现有MMKGC模型耦合检索与决策,难以兼顾全局召回和局部消歧。
  2. RADD框架解耦检索与重排序,利用检索器生成候选集,去噪器精细重排序。
  3. 实验表明,RADD在多个基准测试中超越现有模型,并验证了各组件的有效性。

📝 摘要(中文)

大多数多模态知识图谱补全(MMKGC)模型使用单一嵌入评分器进行实体检索和最终决策,这造成了全局高召回搜索与局部细粒度消歧之间的耦合瓶颈。为此,我们提出了检索增强离散扩散(RADD)框架,以解耦MMKGC的检索和重排序过程。一个关系感知的多模态KGE检索器既作为全局检索器,又作为知识提炼的教师模型。一个条件离散去噪器执行候选列表级别的实体身份生成,用于重排序。训练过程结合了KGE监督、去噪交叉熵以及从检索器到去噪器的温度缩放知识提炼。在推理阶段,Diff-Rerank首先使用检索器形成一个Top-K候选列表,然后使用去噪器对其进行重排序,确保召回是精度的严格前提。在三个MMKGC基准测试上的实验表明,RADD实现了最佳性能,并且相对于强大的单模态、多模态和基于LLM的基线模型,获得了持续的提升。消融实验进一步验证了每个组件的贡献。

🔬 方法详解

问题定义:多模态知识图谱补全(MMKGC)旨在预测知识图谱中缺失的三元组(头实体,关系,尾实体),其中实体和关系可能包含多种模态的信息,例如文本描述和图像。现有MMKGC模型通常使用一个嵌入评分器同时完成全局实体检索和最终决策,这导致模型需要在全局范围内进行高召回搜索,同时进行局部细粒度的消歧,对模型的表达能力提出了很高的要求。这种耦合是性能瓶颈。

核心思路:RADD的核心思想是将MMKGC任务分解为两个阶段:检索和重排序。首先,使用一个关系感知的多模态KGE检索器从整个实体集合中检索出Top-K个候选实体。然后,使用一个条件离散去噪器对这些候选实体进行重排序,从而选出最有可能的尾实体。这种解耦的设计允许模型在第一阶段专注于全局召回,在第二阶段专注于局部消歧,从而提高了整体性能。

技术框架:RADD框架包含两个主要模块:关系感知的多模态KGE检索器和条件离散去噪器。检索器负责从整个实体集合中检索出Top-K个候选实体。去噪器接收检索器输出的候选实体列表,并根据上下文信息对这些实体进行重排序。训练过程包括三个损失函数:KGE监督损失、去噪交叉熵损失和温度缩放知识提炼损失。推理阶段,首先使用检索器生成Top-K候选列表,然后使用去噪器对该列表进行重排序,选择排名最高的实体作为预测结果。

关键创新:RADD的关键创新在于解耦了MMKGC的检索和重排序过程。通过将任务分解为两个阶段,模型可以分别优化全局召回和局部消歧,从而提高了整体性能。此外,RADD还引入了条件离散去噪器,用于对候选实体进行重排序。这种去噪器可以有效地利用上下文信息,从而提高重排序的准确性。

关键设计:关系感知的多模态KGE检索器使用TransE模型,并结合了实体和关系的多种模态信息。条件离散去噪器使用扩散模型,将实体身份生成建模为一个去噪过程。训练过程使用KGE监督损失、去噪交叉熵损失和温度缩放知识提炼损失。温度缩放知识提炼损失用于将检索器的知识传递给去噪器,从而提高去噪器的性能。在推理阶段,Diff-Rerank首先使用检索器形成一个Top-$K$ shortlist,其中$K$是一个超参数,然后rerank it with the denoiser。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RADD在三个MMKGC基准测试中取得了最佳性能,超越了现有的单模态、多模态和基于LLM的基线模型。例如,在某个数据集上,RADD的Hits@1指标比最佳基线模型提升了超过5%。消融实验验证了检索器和去噪器两个模块的有效性,以及温度缩放知识提炼的贡献。

🎯 应用场景

RADD框架可应用于知识图谱补全、实体链接、关系抽取等任务,尤其适用于需要处理多模态信息的场景。该研究有助于构建更完整、准确的知识图谱,从而提升智能问答、推荐系统、信息检索等应用的性能。未来,该方法可以扩展到其他图结构数据和模态类型,具有广阔的应用前景。

📄 摘要(原文)

Most multi-modal knowledge graph completion (MMKGC) models use one embedding scorer to do both retrieval over the full entity set and final decision making. We argue that this coupling is a core bottleneck: global high-recall search and local fine-grained disambiguation require different inductive biases. Therefore, we propose a Retrieval-Augmented Discrete Diffusion (RADD) framework to decouple retrieve and reranking for MMKGC. A relation-aware multimodal KGE retriever serves as both global retriever and distillation teacher, while a conditional discrete denoiser performs shortlist-level entity-identity generation for reranking. Training combines KGE supervision, denoising cross-entropy, and temperature-scaled distillation from the retriever to the denoiser. At inference, the designed Diff-Rerank first forms a top-$K$ shortlist with the retriever and then reranks it with the denoiser, ensuring that recall is a strict prerequisite for precision. Experiments on three MMKGC benchmarks show that RADD achieves the best performance and consistent gains over strong unimodal, multimodal, and LLM-based baselines, while ablations further verify the contribution of each component.