RADD: Retrieval-Augmented Discrete Diffusion for Multi-Modal Knowledge Graph Completion

作者: Guanglin Niu, Bo Li

分类: cs.AI

发布日期: 2026-04-28

备注: 12 pages, 3 figures, 6 tables

💡 一句话要点

提出RADD框架，解耦检索与重排序，提升多模态知识图谱补全性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态知识图谱补全 检索增强 离散扩散模型 知识蒸馏 关系感知 重排序 实体链接

📋 核心要点

现有MMKGC模型耦合检索与决策，难以兼顾全局召回和局部消歧。
RADD框架解耦检索与重排序，利用检索器生成候选集，去噪器精细重排序。
实验表明，RADD在多个基准测试中超越现有模型，并验证了各组件的有效性。

📝 摘要（中文）

大多数多模态知识图谱补全(MMKGC)模型使用单一嵌入评分器进行实体检索和最终决策，这造成了全局高召回搜索与局部细粒度消歧之间的耦合瓶颈。为此，我们提出了检索增强离散扩散(RADD)框架，以解耦MMKGC的检索和重排序过程。一个关系感知的多模态KGE检索器既作为全局检索器，又作为知识提炼的教师模型。一个条件离散去噪器执行候选列表级别的实体身份生成，用于重排序。训练过程结合了KGE监督、去噪交叉熵以及从检索器到去噪器的温度缩放知识提炼。在推理阶段，Diff-Rerank首先使用检索器形成一个Top-K候选列表，然后使用去噪器对其进行重排序，确保召回是精度的严格前提。在三个MMKGC基准测试上的实验表明，RADD实现了最佳性能，并且相对于强大的单模态、多模态和基于LLM的基线模型，获得了持续的提升。消融实验进一步验证了每个组件的贡献。

🔬 方法详解

问题定义：多模态知识图谱补全(MMKGC)旨在预测知识图谱中缺失的三元组(头实体，关系，尾实体)，其中实体和关系可能包含多种模态的信息，例如文本描述和图像。现有MMKGC模型通常使用一个嵌入评分器同时完成全局实体检索和最终决策，这导致模型需要在全局范围内进行高召回搜索，同时进行局部细粒度的消歧，对模型的表达能力提出了很高的要求。这种耦合是性能瓶颈。

核心思路：RADD的核心思想是将MMKGC任务分解为两个阶段：检索和重排序。首先，使用一个关系感知的多模态KGE检索器从整个实体集合中检索出Top-K个候选实体。然后，使用一个条件离散去噪器对这些候选实体进行重排序，从而选出最有可能的尾实体。这种解耦的设计允许模型在第一阶段专注于全局召回，在第二阶段专注于局部消歧，从而提高了整体性能。

技术框架：RADD框架包含两个主要模块：关系感知的多模态KGE检索器和条件离散去噪器。检索器负责从整个实体集合中检索出Top-K个候选实体。去噪器接收检索器输出的候选实体列表，并根据上下文信息对这些实体进行重排序。训练过程包括三个损失函数：KGE监督损失、去噪交叉熵损失和温度缩放知识提炼损失。推理阶段，首先使用检索器生成Top-K候选列表，然后使用去噪器对该列表进行重排序，选择排名最高的实体作为预测结果。

关键创新：RADD的关键创新在于解耦了MMKGC的检索和重排序过程。通过将任务分解为两个阶段，模型可以分别优化全局召回和局部消歧，从而提高了整体性能。此外，RADD还引入了条件离散去噪器，用于对候选实体进行重排序。这种去噪器可以有效地利用上下文信息，从而提高重排序的准确性。

关键设计：关系感知的多模态KGE检索器使用TransE模型，并结合了实体和关系的多种模态信息。条件离散去噪器使用扩散模型，将实体身份生成建模为一个去噪过程。训练过程使用KGE监督损失、去噪交叉熵损失和温度缩放知识提炼损失。温度缩放知识提炼损失用于将检索器的知识传递给去噪器，从而提高去噪器的性能。在推理阶段，Diff-Rerank首先使用检索器形成一个Top-$K$ shortlist，其中$K$是一个超参数，然后rerank it with the denoiser。

🖼️ 关键图片

📊 实验亮点

RADD在三个MMKGC基准测试中取得了最佳性能，超越了现有的单模态、多模态和基于LLM的基线模型。例如，在某个数据集上，RADD的Hits@1指标比最佳基线模型提升了超过5%。消融实验验证了检索器和去噪器两个模块的有效性，以及温度缩放知识提炼的贡献。

🎯 应用场景

RADD框架可应用于知识图谱补全、实体链接、关系抽取等任务，尤其适用于需要处理多模态信息的场景。该研究有助于构建更完整、准确的知识图谱，从而提升智能问答、推荐系统、信息检索等应用的性能。未来，该方法可以扩展到其他图结构数据和模态类型，具有广阔的应用前景。

📄 摘要（原文）

Most multi-modal knowledge graph completion (MMKGC) models use one embedding scorer to do both retrieval over the full entity set and final decision making. We argue that this coupling is a core bottleneck: global high-recall search and local fine-grained disambiguation require different inductive biases. Therefore, we propose a Retrieval-Augmented Discrete Diffusion (RADD) framework to decouple retrieve and reranking for MMKGC. A relation-aware multimodal KGE retriever serves as both global retriever and distillation teacher, while a conditional discrete denoiser performs shortlist-level entity-identity generation for reranking. Training combines KGE supervision, denoising cross-entropy, and temperature-scaled distillation from the retriever to the denoiser. At inference, the designed Diff-Rerank first forms a top-$K$ shortlist with the retriever and then reranks it with the denoiser, ensuring that recall is a strict prerequisite for precision. Experiments on three MMKGC benchmarks show that RADD achieves the best performance and consistent gains over strong unimodal, multimodal, and LLM-based baselines, while ablations further verify the contribution of each component.

RADD: Retrieval-Augmented Discrete Diffusion for Multi-Modal Knowledge Graph Completion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理