3DEditSafe: Defending 3D Editing Pipelines from Unsafe Generation

📄 arXiv: 2605.15398v1 📥 PDF

作者: Nicole Meng, Zheyuan Liu, Meng Jiang, Yingjie Lao

分类: cs.GR, cs.CV

发布日期: 2026-05-14


💡 一句话要点

提出3DEditSafe框架,防御3D编辑流水线中的不安全内容生成

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D内容生成 文本驱动编辑 安全内容生成 3D高斯溅射 安全正则化

📋 核心要点

  1. 现有的基于3DGS的文本驱动3D编辑流水线,在处理不安全文本提示时,容易生成不适合的内容,存在安全隐患。
  2. 提出3DEditSafe框架,通过安全正则化约束优化过程中的不安全语义传播,从而避免生成不安全内容。
  3. 实验表明,3DEditSafe能有效降低不安全语义对齐和视角攻击成功率,但同时也存在安全性和质量之间的权衡。

📝 摘要(中文)

近年来,基于3D高斯溅射(3DGS)的3D生成编辑技术取得了显著进展,能够根据文本提示实现高保真、多视角一致的场景操作。然而,我们发现这些流水线也引入了新的安全风险,因为不安全的提示可能导致在不同视角传播和优化的编辑结果。本文研究了3D编辑流水线中的不安全内容生成问题,并表明这种行为可能导致最终3D表示中出现连贯且不良的“不适合工作”(NSFW)内容。为了解决这个问题,我们提出了3DEditSafe,一个安全正则化的3D编辑框架,用于约束优化过程中不安全语义的传播。3DEditSafe结合了生成阶段的安全指导、渲染视角的3D安全正则化、安全语义投影、残差抑制和掩码感知保留,以引导优化远离不安全的编辑方向。我们在EditSplat场景上使用与对象兼容的不安全提示基准评估了我们的方法,结果表明仅靠2D安全指导不足以始终防止不安全的3D编辑。3DEditSafe降低了不安全语义对齐和视角级别的攻击成功率,同时也揭示了一种安全-质量权衡,即更强的不安全内容抑制可能会引入伪影或降低不安全提示的保真度。据我们所知,这项工作是首次尝试研究和防御文本驱动的3D编辑流水线中的不安全内容生成,强调了直接在优化的3D表示上进行安全机制的必要性。

🔬 方法详解

问题定义:论文旨在解决文本驱动的3D编辑流水线在处理不安全文本提示时,生成不安全内容的问题。现有方法,特别是依赖2D安全指导的方法,无法始终如一地防止不安全内容在3D空间中的传播和优化,导致最终的3D场景包含NSFW内容。

核心思路:论文的核心思路是通过在3D编辑的优化过程中引入安全正则化,约束不安全语义的传播。具体来说,就是在优化过程中,不仅考虑文本提示的语义信息,还考虑场景的安全属性,避免生成或增强不安全区域。

技术框架:3DEditSafe框架主要包含以下几个模块:1) 生成阶段安全指导:在初始生成阶段,利用安全分类器对生成的中间结果进行过滤和调整,避免一开始就引入不安全内容。2) 渲染视角3D安全正则化:在渲染的视角上,对3D场景进行安全评估,并施加正则化项,惩罚不安全区域的生成。3) 安全语义投影:将安全语义信息投影到3D空间中,引导优化过程朝着安全的方向进行。4) 残差抑制:抑制不安全区域的残差更新,避免不安全内容被进一步增强。5) 掩码感知保留:使用掩码来保护安全区域,防止过度正则化导致的安全区域质量下降。

关键创新:该论文的关键创新在于提出了一个完整的安全正则化框架,直接作用于优化的3D表示,而不仅仅依赖于2D安全指导。通过结合生成阶段的安全指导和渲染视角的3D安全正则化,能够更有效地约束不安全语义的传播,从而提高3D编辑流水线的安全性。

关键设计:在渲染视角3D安全正则化中,使用了安全分类器来评估渲染图像的安全程度,并将其作为正则化项添加到损失函数中。安全语义投影的具体实现方式未知。残差抑制通过对不安全区域的梯度进行衰减来实现。掩码感知保留使用预先定义的掩码来区分安全区域和不安全区域,并对安全区域的正则化强度进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,仅使用2D安全指导不足以完全防止3D编辑流水线生成不安全内容。3DEditSafe框架能够有效降低不安全语义对齐和视角级别的攻击成功率。然而,实验也揭示了安全性和质量之间的权衡,即更强的不安全内容抑制可能会引入伪影或降低不安全提示的保真度。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于各种3D内容生成和编辑平台,例如游戏开发、虚拟现实、增强现实、电影制作等领域。通过集成3DEditSafe框架,可以有效防止用户生成或传播不安全内容,提高平台的内容安全性,并为用户提供更安全、可靠的创作环境。此外,该研究也为其他AI生成内容的安全问题提供了借鉴。

📄 摘要(原文)

Recent advances in 3D generative editing, particularly pipelines based on 3D Gaussian Splatting (3DGS), have achieved high-fidelity, multi-view-consistent scene manipulation from text prompts. However, we find that these pipelines also introduce new safety risks when unsafe prompts produce edits that are propagated and optimized across views. In this work, we study unsafe generation in 3D editing pipelines and show that such behavior can lead to coherent, undesirable Not-Safe-For-Work (NSFW) content in the final 3D representation. To address this, we propose 3DEditSafe, a safety-regularized 3D editing framework that constrains unsafe semantic propagation during optimization. 3DEditSafe combines generation-stage safety guidance with rendered-view 3D safety regularization, safe semantic projection, residue suppression, and mask-aware preservation to steer optimization away from unsafe editing directions. We evaluate our approach on EditSplat scenes using an object-compatible unsafe prompt benchmark and show that 2D safety guidance alone is not consistently sufficient to prevent unsafe 3D edits. 3DEditSafe reduces unsafe semantic alignment and view-level attack success rates, while revealing a safety-quality tradeoff in which stronger unsafe suppression can introduce artifacts or reduce unsafe-prompt fidelity. To our knowledge, this work is the first attempt to study and defend against unsafe generation in text-driven 3D editing pipelines, highlighting the need for safety mechanisms that operate directly on optimized 3D representations.