Projection-based Adversarial Attack using Physics-in-the-Loop Optimization for Monocular Depth Estimation

📄 arXiv: 2512.24792v1 📥 PDF

作者: Takeru Kusakabe, Yudai Hirose, Mashiho Mukaida, Satoshi Ono

分类: cs.CV, cs.LG, cs.NE

发布日期: 2025-12-31

DOI: 10.1587/transinf.2025MUL0002


💡 一句话要点

提出基于物理环路优化的投影对抗攻击,用于单目深度估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 对抗攻击 单目深度估计 物理环路优化 深度神经网络 鲁棒性 计算机视觉 进化策略

📋 核心要点

  1. 单目深度估计模型易受对抗攻击影响,实际应用中鲁棒性需求迫切。
  2. 提出基于物理环路优化的投影对抗攻击方法,将扰动光投影到目标对象。
  3. 实验表明该方法能有效生成对抗样本,导致深度估计错误,使目标对象部分消失。

📝 摘要(中文)

深度神经网络(DNNs)容易受到对抗攻击的影响,即通过向输入图像添加特定的扰动会导致错误分类。这种脆弱性也威胁到基于DNN的单目深度估计(MDE)模型的可靠性,使得鲁棒性增强在实际应用中至关重要。为了验证基于DNN的MDE模型的脆弱性,本研究提出了一种基于投影的对抗攻击方法,该方法将扰动光投影到目标对象上。所提出的方法采用物理环路(PITL)优化——在实际环境中评估候选解决方案,以考虑设备规格和干扰——并利用分布式协方差矩阵自适应进化策略。实验证实,该方法成功地创建了对抗样本,导致深度估计错误,从而导致目标场景中的部分对象消失。

🔬 方法详解

问题定义:论文旨在解决单目深度估计(MDE)模型在对抗攻击下的脆弱性问题。现有的深度学习模型容易受到对抗样本的攻击,即使是微小的扰动也可能导致模型产生错误的深度估计,这对于依赖深度信息的应用来说是不可接受的。

核心思路:论文的核心思路是通过物理环路(PITL)优化来生成对抗样本。与传统的数字对抗攻击不同,该方法考虑了真实物理环境中的设备规格和干扰,通过将扰动光投影到目标对象上,直接在物理世界中创建对抗样本。这种方法更贴近实际应用场景,能够更有效地评估和提升模型的鲁棒性。

技术框架:该方法主要包含以下几个阶段:1) 定义目标场景和目标对象;2) 使用投影仪将扰动光投影到目标对象上;3) 使用单目深度估计模型对场景进行深度估计;4) 计算深度估计结果与真实深度之间的差异,作为损失函数;5) 使用分布式协方差矩阵自适应进化策略(CMA-ES)优化扰动光的参数,以最大化损失函数。整个过程形成一个闭环,通过不断迭代优化,生成能够有效欺骗深度估计模型的对抗样本。

关键创新:该方法最重要的技术创新在于将物理环路优化引入到对抗攻击中。传统的对抗攻击主要在数字空间进行,忽略了物理世界的复杂性和不确定性。通过在实际环境中评估候选解决方案,该方法能够更好地模拟真实场景,生成更具鲁棒性的对抗样本。此外,使用分布式CMA-ES算法能够高效地搜索高维参数空间,找到最优的扰动光参数。

关键设计:关键设计包括:1) 扰动光的投影方式,需要考虑投影仪的参数和场景的光照条件;2) 损失函数的定义,需要能够准确反映深度估计的误差;3) CMA-ES算法的参数设置,包括种群大小、学习率等。此外,论文还可能涉及到一些图像处理和深度学习相关的技术细节,例如图像增强、网络结构设计等,但摘要中未明确提及。

📊 实验亮点

实验结果表明,所提出的方法能够成功生成对抗样本,导致单目深度估计模型产生显著的深度误差,使得目标场景中的部分对象在深度图中消失。具体的性能数据和对比基线在摘要中未提供,但实验结果验证了该方法在攻击单目深度估计模型方面的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。通过评估和增强单目深度估计模型在对抗攻击下的鲁棒性,可以提高这些系统在复杂和不确定环境中的可靠性和安全性。未来的研究可以进一步探索更有效的对抗防御方法,以及将该方法推广到其他计算机视觉任务中。

📄 摘要(原文)

Deep neural networks (DNNs) remain vulnerable to adversarial attacks that cause misclassification when specific perturbations are added to input images. This vulnerability also threatens the reliability of DNN-based monocular depth estimation (MDE) models, making robustness enhancement a critical need in practical applications. To validate the vulnerability of DNN-based MDE models, this study proposes a projection-based adversarial attack method that projects perturbation light onto a target object. The proposed method employs physics-in-the-loop (PITL) optimization -- evaluating candidate solutions in actual environments to account for device specifications and disturbances -- and utilizes a distributed covariance matrix adaptation evolution strategy. Experiments confirmed that the proposed method successfully created adversarial examples that lead to depth misestimations, resulting in parts of objects disappearing from the target scene.