Pixel-Optimization-Free Patch Attack on Stereo Depth Estimation
作者: Hangcheng Liu, Xu Kuang, Xingshuo Han, Xingwan Wu, Haoran Ou, Shangwei Guo, Xingyi Huang, Tao Xiang, Tianwei Zhang
分类: cs.CV
发布日期: 2025-06-21 (更新: 2025-08-27)
💡 一句话要点
提出PatchHunter:一种无需像素优化的立体深度估计对抗攻击方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 立体深度估计 对抗攻击 强化学习 可迁移性 自动驾驶
📋 核心要点
- 现有像素优化攻击在立体深度估计中存在局限性,主要体现在数字环境、静态场景和特定视角,缺乏实际应用价值。
- PatchHunter通过在结构化的视觉模式空间中搜索,利用强化学习高效发现可迁移的对抗性patch,无需像素级别的优化。
- 实验表明,PatchHunter在KITTI数据集、CARLA模拟器和真实场景中均表现出优越的攻击性能和鲁棒性,尤其是在黑盒可迁移性方面。
📝 摘要(中文)
立体深度估计(SDE)在自动驾驶等视觉系统中对场景感知至关重要。现有研究表明SDE容易受到像素优化攻击,但这些方法仅限于数字、静态和特定视角的设置,使其不切实际。本文旨在解决如何在现实约束下设计可部署、自适应和可迁移的攻击。为此,我们做出了两点贡献。首先,我们构建了一个统一框架,将像素优化攻击扩展到立体匹配的四个阶段:特征提取、代价体构建、代价聚合和视差回归。通过在九个SDE模型上进行系统评估,并考虑光度一致性等现实约束,我们发现现有攻击的可迁移性较差。其次,我们提出了PatchHunter,这是第一个无需像素优化的攻击。PatchHunter将patch生成视为在视觉模式的结构化空间中搜索,以破坏核心SDE假设,并使用强化学习策略来高效地发现有效的、可迁移的模式。我们在三个层面上评估了PatchHunter:自动驾驶数据集、高保真模拟器和真实世界部署。在KITTI上,PatchHunter在有效性和黑盒可迁移性方面均优于像素级攻击。在CARLA和配备工业级立体相机的车辆上的测试证实了其对物理变化的鲁棒性。即使在低光照等具有挑战性的条件下,PatchHunter也能实现高于0.4的D1-all误差,而像素级攻击则接近于0。
🔬 方法详解
问题定义:现有基于像素优化的立体深度估计对抗攻击方法,依赖于数字环境,难以迁移到真实物理世界。这些方法通常是静态的,并且针对特定视角进行优化,缺乏通用性和鲁棒性。因此,如何设计一种可部署、自适应和可迁移的攻击方法,是本文要解决的核心问题。
核心思路:PatchHunter的核心思路是,不再直接优化像素值,而是通过在预定义的视觉模式空间中搜索对抗性patch。这种方法避免了像素级优化的复杂性和过拟合问题,从而提高了攻击的可迁移性和鲁棒性。通过破坏立体深度估计的核心假设,例如光度一致性,来达到攻击的目的。
技术框架:PatchHunter的整体框架包括两个主要部分:patch生成器和强化学习策略。Patch生成器负责在预定义的视觉模式空间中生成候选patch。强化学习策略则用于评估这些patch的攻击效果,并指导patch生成器的搜索方向。具体流程是:首先,初始化patch生成器;然后,使用强化学习策略生成一批候选patch;接着,将这些patch应用到立体图像对中,并使用立体深度估计模型进行深度估计;最后,根据深度估计结果计算奖励,并使用该奖励更新强化学习策略。
关键创新:PatchHunter最重要的技术创新点在于,它是一种无需像素优化的对抗攻击方法。与传统的像素优化方法相比,PatchHunter通过在结构化的视觉模式空间中搜索,避免了像素级优化的复杂性和过拟合问题,从而提高了攻击的可迁移性和鲁棒性。此外,使用强化学习策略来指导patch的生成,可以高效地找到有效的对抗性patch。
关键设计:PatchHunter的关键设计包括:1) 预定义的视觉模式空间,例如不同颜色、形状和纹理的patch;2) 强化学习策略,例如Policy Gradient或Q-learning,用于评估patch的攻击效果并指导patch生成器的搜索方向;3) 奖励函数,用于量化patch对立体深度估计模型的攻击效果,例如D1-all误差。具体参数设置和网络结构未知。
🖼️ 关键图片
📊 实验亮点
PatchHunter在KITTI数据集上,在攻击效果和黑盒可迁移性方面均优于像素级攻击。在CARLA模拟器和真实车辆测试中,PatchHunter表现出对物理变化的鲁棒性。即使在低光照等挑战性条件下,PatchHunter也能实现高于0.4的D1-all误差,而像素级攻击则接近于0。这些结果表明,PatchHunter是一种有效的、可迁移的立体深度估计对抗攻击方法。
🎯 应用场景
该研究成果可应用于评估和增强自动驾驶系统、机器人导航等领域中立体视觉系统的安全性。通过模拟真实世界中的对抗性攻击,可以帮助开发者发现和修复立体深度估计模型中的漏洞,提高系统的鲁棒性和可靠性。此外,该方法还可以用于生成对抗性训练数据,从而提高模型的泛化能力。
📄 摘要(原文)
Stereo Depth Estimation (SDE) is essential for scene perception in vision-based systems such as autonomous driving. Prior work shows SDE is vulnerable to pixel-optimization attacks, but these methods are limited to digital, static, and view-specific settings, making them impractical. This raises a central question: how to design deployable, adaptive, and transferable attacks under realistic constraints? We present two contributions to answer it. First, we build a unified framework that extends pixel-optimization attacks to four stereo-matching stages: feature extraction, cost-volume construction, cost aggregation, and disparity regression. Through systematic evaluation across nine SDE models with realistic constraints like photometric consistency, we show existing attacks suffer from poor transferability. Second, we propose PatchHunter, the first pixel-optimization-free attack. PatchHunter casts patch generation as a search in a structured space of visual patterns that disrupt core SDE assumptions, and uses a reinforcement learning policy to discover effective and transferable patterns efficiently. We evaluate PatchHunter on three levels: autonomous driving dataset, high-fidelity simulator, and real-world deployment. On KITTI, PatchHunter outperforms pixel-level attacks in both effectiveness and black-box transferability. Tests in CARLA and on vehicles with industrial-grade stereo cameras confirm robustness to physical variations. Even under challenging conditions such as low lighting, PatchHunter achieves a D1-all error above 0.4, while pixel-level attacks remain near 0.