Ontology-Guided Diffusion for Zero-Shot Visual Sim2Real Transfer

作者: Mohamed Youssef, Mayar Elfares, Anna-Maria Meer, Matteo Bortoletto, Andreas Bulling

分类: cs.CV, cs.AI

发布日期: 2026-03-19

💡 一句话要点

提出本体引导扩散（OGD）框架，用于零样本视觉Sim2Real迁移。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: Sim2Real迁移 扩散模型 本体知识 知识图谱 神经符号方法 零样本学习 图像翻译

📋 核心要点

现有Sim2Real方法依赖非结构化prompt或统计对齐，忽略了图像真实感的结构化因素。
OGD框架将真实感分解为本体特征，利用知识图和符号规划指导扩散模型进行图像翻译。
实验表明，OGD在多个基准测试中优于现有扩散方法，能更好区分真实和合成图像。

📝 摘要（中文）

由于缺乏带标签的真实世界数据，弥合仿真到现实（sim2real）的差距仍然具有挑战性。现有的基于扩散的方法依赖于非结构化的提示或统计对齐，无法捕捉使图像看起来真实的结构化因素。我们引入了本体引导扩散（OGD），这是一个神经符号零样本sim2real图像翻译框架，它将真实感表示为结构化知识。OGD将真实感分解为可解释特征的本体（例如光照和材料属性），并在知识图中编码它们的关系。从合成图像中，OGD推断特征激活，并使用图神经网络生成全局嵌入。同时，符号规划器使用本体特征来计算缩小真实感差距所需的一致视觉编辑序列。图嵌入通过交叉注意力调节预训练的指令引导扩散模型，而计划的编辑被转换为结构化的指令提示。在多个基准测试中，我们的基于图的嵌入比基线更好地区分真实图像和合成图像，并且OGD在sim2real图像翻译中优于最先进的扩散方法。总体而言，OGD表明显式编码真实感结构能够实现可解释、数据高效和可泛化的零样本sim2real迁移。

🔬 方法详解

问题定义：Sim2Real迁移学习旨在将仿真环境训练的模型迁移到真实环境，但真实环境数据标注成本高昂。现有基于扩散模型的方法，如使用文本prompt或统计对齐，无法有效捕捉图像真实感的结构化信息，导致迁移效果不佳。

核心思路：OGD的核心思路是将图像的真实感分解为可解释的结构化知识，并利用这些知识指导扩散模型进行图像翻译。通过构建关于真实感的本体（Ontology），将图像的各种属性（如光照、材质等）及其相互关系编码到知识图中，从而为扩散模型提供更丰富、更结构化的信息。

技术框架：OGD框架包含以下几个主要模块：1) 特征提取与激活：从输入图像中提取相关特征，并根据本体知识推断这些特征的激活状态。2) 图神经网络（GNN）嵌入：利用GNN在知识图上进行推理，生成全局嵌入向量，该向量代表了图像的整体真实感。3) 符号规划器：根据本体知识，规划一系列视觉编辑操作，以缩小合成图像与真实图像之间的差距。4) 指令引导扩散模型：使用GNN生成的嵌入向量和符号规划器生成的编辑指令，通过交叉注意力机制调节预训练的扩散模型，生成更真实的图像。

关键创新：OGD的关键创新在于将神经符号方法与扩散模型相结合，利用本体知识对图像的真实感进行结构化建模。与现有方法相比，OGD能够更有效地利用先验知识，从而实现更准确、更可控的Sim2Real迁移。

关键设计：OGD使用预训练的指令引导扩散模型作为图像生成器。GNN的具体结构和训练方式未在摘要中详细说明，但其目标是生成能够代表图像真实感的全局嵌入向量。符号规划器的具体算法也未详细说明，但其目标是生成一系列能够有效缩小真实感差距的视觉编辑指令。损失函数的设计也未提及，但推测可能包含对抗损失、内容损失等，以保证生成图像的质量和真实感。

🖼️ 关键图片

📊 实验亮点

OGD在多个Sim2Real基准测试中取得了优于现有扩散方法的结果。基于图的嵌入能够更好地区分真实图像和合成图像，表明OGD能够更有效地捕捉图像的真实感。具体性能提升数据未在摘要中给出，但强调了OGD在图像翻译质量上的优势。

🎯 应用场景

OGD框架可应用于机器人、自动驾驶、游戏开发等领域，降低模型在真实世界部署的成本。通过零样本Sim2Real迁移，减少对真实世界标注数据的依赖，加速AI技术在各行业的落地。未来可扩展到其他模态数据，实现更广泛的跨域迁移。

📄 摘要（原文）

Bridging the simulation-to-reality (sim2real) gap remains challenging as labelled real-world data is scarce. Existing diffusion-based approaches rely on unstructured prompts or statistical alignment, which do not capture the structured factors that make images look real. We introduce Ontology- Guided Diffusion (OGD), a neuro-symbolic zero-shot sim2real image translation framework that represents realism as structured knowledge. OGD decomposes realism into an ontology of interpretable traits -- such as lighting and material properties -- and encodes their relationships in a knowledge graph. From a synthetic image, OGD infers trait activations and uses a graph neural network to produce a global embedding. In parallel, a symbolic planner uses the ontology traits to compute a consistent sequence of visual edits needed to narrow the realism gap. The graph embedding conditions a pretrained instruction-guided diffusion model via cross-attention, while the planned edits are converted into a structured instruction prompt. Across benchmarks, our graph-based embeddings better distinguish real from synthetic imagery than baselines, and OGD outperforms state-of-the-art diffusion methods in sim2real image translations. Overall, OGD shows that explicitly encoding realism structure enables interpretable, data-efficient, and generalisable zero-shot sim2real transfer.

Ontology-Guided Diffusion for Zero-Shot Visual Sim2Real Transfer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理