Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation

作者: Alexandru Buburuzan

分类: cs.CV, cs.AI

发布日期: 2025-07-30

备注: A dissertation submitted to The University of Manchester for the degree of Bachelor of Science in Artificial Intelligence

💡 一句话要点

提出MObI和AnydoorMed，实现参考图像引导的多模态扩散模型图像修复与生成。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像修复 扩散模型 多模态学习 自动驾驶 医学图像分析 合成数据生成 参考图像引导

📋 核心要点

现有合成数据方法难以兼顾真实性和可控性，限制了其在自动驾驶和医学图像等安全关键领域的应用。
提出MObI和AnydoorMed，利用参考图像引导的扩散模型进行图像修复，实现多模态场景中对象的逼真插入和医学图像异常的生成。
实验表明，该方法能够生成语义一致、多模态连贯的合成数据，为自动驾驶和医学图像分析提供高质量的训练数据。

📝 摘要（中文）

本文介绍了两种用于自动驾驶和医学图像分析的合成数据生成新方法，即MObI和AnydoorMed。MObI是首个多模态对象修复框架，利用扩散模型在感知模态上生成逼真且可控的对象修复结果，同时适用于相机和激光雷达。给定单个参考RGB图像，MObI能够将对象无缝插入到现有的多模态场景中的指定3D位置，由边界框引导，同时保持语义一致性和多模态连贯性。与仅依赖于编辑掩码的传统修复方法不同，该方法使用3D边界框条件来确保准确的空间定位和逼真的缩放。AnydoorMed将这种范例扩展到医学成像领域，专注于乳腺X线照片的参考引导修复，利用基于扩散的模型来修复异常，同时保持参考异常的结构完整性，并将其与周围组织进行语义融合。这些方法表明，用于自然图像中参考引导修复的基础模型可以很容易地适应不同的感知模态，为构建高度逼真、可控和多模态反事实场景的下一代系统铺平道路。

🔬 方法详解

问题定义：现有图像修复方法通常依赖于编辑掩码，难以实现精确的空间定位和逼真的尺度缩放，尤其是在多模态场景中，难以保证不同模态之间的一致性。在医学图像领域，生成具有特定结构和语义的病灶也极具挑战。

核心思路：利用参考图像引导的扩散模型，将目标对象的视觉特征融入到修复过程中。通过3D边界框或类似的空间信息作为条件，精确控制修复对象的位置和大小。在多模态场景中，通过联合训练或特征对齐等方式，保证不同模态之间的一致性。

技术框架：MObI框架包含以下主要模块：1) 参考图像编码器，提取参考图像的视觉特征；2) 场景编码器，提取目标场景的特征；3) 扩散模型，基于参考图像特征和场景特征，逐步生成修复后的图像；4) 3D边界框条件模块，将3D边界框信息融入到扩散模型的生成过程中。AnydoorMed框架类似，但针对医学图像的特点进行了优化。

关键创新：1) 将参考图像引导的扩散模型应用于多模态图像修复和医学图像异常生成；2) 利用3D边界框作为条件，精确控制修复对象的位置和大小；3) 提出MObI和AnydoorMed两个具体框架，分别针对自动驾驶和医学图像领域。

关键设计：扩散模型采用U-Net结构，损失函数包括重建损失、对抗损失和感知损失等。3D边界框信息通过特征融合的方式融入到U-Net的中间层。在多模态场景中，采用对比学习等方法，保证不同模态特征的一致性。

🖼️ 关键图片

📊 实验亮点

论文提出的MObI框架在自动驾驶场景中实现了逼真的多模态图像修复，能够生成与参考图像语义一致、空间位置准确的合成对象。AnydoorMed框架在医学图像领域实现了高质量的病灶生成，能够保持病灶的结构完整性，并与周围组织进行语义融合。实验结果表明，该方法生成的合成数据能够有效提升自动驾驶和医学图像分析系统的性能。

🎯 应用场景

该研究成果可应用于自动驾驶仿真、医学图像分析、虚拟现实等领域。在自动驾驶领域，可以生成各种交通场景，用于训练和测试自动驾驶系统。在医学图像分析领域，可以生成包含各种病灶的医学图像，用于训练和评估医学图像诊断系统。此外，该方法还可以用于生成逼真的虚拟环境，提升用户体验。

📄 摘要（原文）

Safety-critical applications, such as autonomous driving and medical image analysis, require extensive multimodal data for rigorous testing. Synthetic data methods are gaining prominence due to the cost and complexity of gathering real-world data, but they demand a high degree of realism and controllability to be useful. This work introduces two novel methods for synthetic data generation in autonomous driving and medical image analysis, namely MObI and AnydoorMed, respectively. MObI is a first-of-its-kind framework for Multimodal Object Inpainting that leverages a diffusion model to produce realistic and controllable object inpaintings across perceptual modalities, demonstrated simultaneously for camera and lidar. Given a single reference RGB image, MObI enables seamless object insertion into existing multimodal scenes at a specified 3D location, guided by a bounding box, while maintaining semantic consistency and multimodal coherence. Unlike traditional inpainting methods that rely solely on edit masks, this approach uses 3D bounding box conditioning to ensure accurate spatial positioning and realistic scaling. AnydoorMed extends this paradigm to the medical imaging domain, focusing on reference-guided inpainting for mammography scans. It leverages a diffusion-based model to inpaint anomalies with impressive detail preservation, maintaining the reference anomaly's structural integrity while semantically blending it with the surrounding tissue. Together, these methods demonstrate that foundation models for reference-guided inpainting in natural images can be readily adapted to diverse perceptual modalities, paving the way for the next generation of systems capable of constructing highly realistic, controllable and multimodal counterfactual scenarios.

Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理