VENUS: Visual Editing with Noise Inversion Using Scene Graphs
作者: Thanh-Nhan Vo, Trong-Thuan Nguyen, Tam V. Nguyen, Minh-Triet Tran
分类: cs.CV
发布日期: 2026-01-12
💡 一句话要点
VENUS:基于场景图和噪声反演的免训练图像视觉编辑框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像编辑 场景图 扩散模型 噪声反演 免训练 语义一致性 背景保持
📋 核心要点
- 现有图像编辑方法难以兼顾背景保持和语义一致性,容易生成全新图像或编辑效果不佳。
- VENUS通过分离提示调节和噪声反演,实现了场景图引导下的免训练图像编辑。
- 实验表明,VENUS在背景保持、语义对齐和推理速度上均优于现有方法,具有显著提升。
📝 摘要(中文)
现有的基于文本的图像编辑模型通常难以平衡背景保持和语义一致性,要么合成全新的图像,要么无法实现预期的编辑效果。基于场景图的图像编辑通过提供语义实体及其关系的结构化表示来解决这一限制,从而提供更好的可控性。然而,现有的场景图编辑方法通常依赖于模型微调,这会产生高昂的计算成本并限制可扩展性。为此,我们提出了VENUS(Visual Editing with Noise inversion Using Scene graphs),一个用于场景图引导图像编辑的免训练框架。VENUS采用分离提示调节策略,将编辑的目标对象与其背景上下文分离,同时利用噪声反演来保持未编辑区域的保真度。此外,我们的方法将从多模态大型语言模型中提取的场景图与扩散骨干网络集成,无需任何额外的训练。实验结果表明,VENUS显著提高了PIE-Bench上的背景保持和语义对齐,相对于最先进的场景图编辑模型(SGEdit),PSNR从22.45提高到24.80,SSIM从0.79提高到0.84,LPIPS从0.100降低到0.070。此外,VENUS提高了CLIP相似度衡量的语义一致性(24.97 vs. 24.19)。在EditVal上,VENUS以0.87的DINO得分实现了最高的保真度,并且关键的是,将每张图像的运行时间从6-10分钟缩短到仅20-30秒。除了基于场景图的编辑之外,VENUS还超越了强大的基于文本的编辑基线,如LEDIT++和P2P+DirInv,从而证明了跨范式的持续改进。
🔬 方法详解
问题定义:现有基于文本的图像编辑方法在修改图像时,难以保持背景的完整性和语义的一致性,容易过度修改或产生不符合预期的结果。而基于场景图的方法虽然能提供更好的可控性,但通常需要对模型进行微调,计算成本高昂且难以扩展。
核心思路:VENUS的核心思路是利用场景图来指导图像编辑,同时避免模型微调。通过分离提示调节策略,将编辑目标对象与其背景上下文解耦,并利用噪声反演技术来保持未编辑区域的原始信息。这样既能实现精确的编辑,又能保证背景的保真度。
技术框架:VENUS的整体框架包括以下几个主要模块:1) 使用多模态大型语言模型提取输入图像的场景图;2) 使用分离提示调节策略,将场景图信息分解为目标对象和背景上下文;3) 利用噪声反演技术,从扩散模型中获取输入图像的噪声表示;4) 将分解后的场景图信息和噪声表示输入到扩散模型中,生成编辑后的图像。
关键创新:VENUS的关键创新在于:1) 提出了一种免训练的场景图引导图像编辑框架,避免了模型微调的计算成本;2) 采用了分离提示调节策略,实现了对编辑目标和背景上下文的精细控制;3) 利用噪声反演技术,有效保持了未编辑区域的保真度。
关键设计:VENUS的关键设计包括:1) 使用预训练的多模态大型语言模型提取场景图,避免了手动标注的成本;2) 设计了特定的提示模板,用于将场景图信息转换为扩散模型可以理解的文本提示;3) 使用了标准的扩散模型架构,并对其输入进行了适当的调整,以适应场景图引导的编辑任务。
🖼️ 关键图片
📊 实验亮点
VENUS在PIE-Bench数据集上显著提升了图像编辑的质量,PSNR提升至24.80,SSIM提升至0.84,LPIPS降低至0.070,CLIP相似度提升至24.97。在EditVal数据集上,VENUS实现了最高的保真度(DINO score为0.87),并将每张图像的运行时间缩短至20-30秒,相比SGEdit的6-10分钟有显著提升。VENUS还超越了LEDIT++和P2P+DirInv等文本编辑基线。
🎯 应用场景
VENUS具有广泛的应用前景,例如:图像修复、艺术创作、产品设计、虚拟现实等领域。它可以用于快速生成具有特定语义结构的图像,提高图像编辑的效率和质量。未来,VENUS可以进一步扩展到视频编辑、3D场景生成等领域,为内容创作提供更强大的工具。
📄 摘要(原文)
State-of-the-art text-based image editing models often struggle to balance background preservation with semantic consistency, frequently resulting either in the synthesis of entirely new images or in outputs that fail to realize the intended edits. In contrast, scene graph-based image editing addresses this limitation by providing a structured representation of semantic entities and their relations, thereby offering improved controllability. However, existing scene graph editing methods typically depend on model fine-tuning, which incurs high computational cost and limits scalability. To this end, we introduce VENUS (Visual Editing with Noise inversion Using Scene graphs), a training-free framework for scene graph-guided image editing. Specifically, VENUS employs a split prompt conditioning strategy that disentangles the target object of the edit from its background context, while simultaneously leveraging noise inversion to preserve fidelity in unedited regions. Moreover, our proposed approach integrates scene graphs extracted from multimodal large language models with diffusion backbones, without requiring any additional training. Empirically, VENUS substantially improves both background preservation and semantic alignment on PIE-Bench, increasing PSNR from 22.45 to 24.80, SSIM from 0.79 to 0.84, and reducing LPIPS from 0.100 to 0.070 relative to the state-of-the-art scene graph editing model (SGEdit). In addition, VENUS enhances semantic consistency as measured by CLIP similarity (24.97 vs. 24.19). On EditVal, VENUS achieves the highest fidelity with a 0.87 DINO score and, crucially, reduces per-image runtime from 6-10 minutes to only 20-30 seconds. Beyond scene graph-based editing, VENUS also surpasses strong text-based editing baselines such as LEDIT++ and P2P+DirInv, thereby demonstrating consistent improvements across both paradigms.