Cheating Stereo Matching in Full-scale: Physical Adversarial Attack against Binocular Depth Estimation in Autonomous Driving

作者: Kangqiao Zhao, Shuo Huai, Xurui Song, Jun Luo

分类: cs.CV, cs.AI

发布日期: 2025-11-18 (更新: 2025-11-26)

备注: AAAI 2026

💡 一句话要点

提出纹理增强的3D物理对抗攻击，欺骗自动驾驶双目深度估计

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 物理对抗攻击 双目深度估计 自动驾驶 对抗样本生成 立体匹配

📋 核心要点

现有对抗攻击主要针对单目视觉，且多为2D patch，缺乏对双目深度估计的有效物理对抗攻击研究。
提出一种纹理增强的3D物理对抗样本，通过全局伪装纹理和3D立体匹配渲染模块，保证攻击的视觉一致性和对齐。
提出融合攻击，通过细粒度优化将对抗样本无缝融入环境，增强隐蔽性和攻击性，实验证明能有效欺骗双目深度估计模型。

📝 摘要（中文）

本文提出了一种针对自动驾驶中基于双目视觉深度估计模型的纹理增强型物理对抗攻击（PAE）。现有攻击主要集中于2D patch，且多针对单目感知。本文方法采用具有全局伪装纹理的3D PAE，而非局部2D patch，确保了立体相机不同视角下视觉一致性和攻击有效性。为了应对双目相机的视差效应，本文提出了一种新的3D立体匹配渲染模块，使PAE能够与双目视觉中的真实世界位置和方向对齐。此外，还提出了一种新的融合攻击，通过细粒度的PAE优化将目标无缝地融入环境，显著增强了隐蔽性和杀伤力，克服了现有隐藏攻击无法与背景无缝融合的缺点。大量评估表明，本文的PAE可以成功地欺骗立体模型，产生错误的深度信息。

🔬 方法详解

问题定义：论文旨在解决自动驾驶系统中，双目视觉深度估计模型容易受到物理对抗样本攻击的问题。现有的对抗攻击方法，特别是针对单目视觉的2D patch攻击，难以有效地应用于双目视觉系统，因为它们无法保证在两个相机视角下的一致性和真实感。此外，现有的隐藏攻击方法难以将对抗样本无缝地融入背景，容易被检测到。

核心思路：论文的核心思路是设计一种纹理增强的3D物理对抗样本，该样本不仅具有全局伪装纹理，以保证视觉一致性，而且能够通过3D立体匹配渲染模块与双目视觉中的真实世界位置和方向对齐。此外，通过融合攻击，将对抗样本无缝地融入环境，提高隐蔽性和攻击性。

技术框架：整体框架包括以下几个主要模块：1) 3D物理对抗样本生成模块，负责生成具有全局伪装纹理的3D对抗样本；2) 3D立体匹配渲染模块，用于将3D对抗样本渲染到双目相机图像中，并考虑视差效应；3) 融合攻击模块，通过细粒度优化，将对抗样本无缝地融入环境；4) 深度估计模型，作为攻击目标，评估对抗样本的攻击效果。

关键创新：论文的关键创新点在于：1) 提出了一种纹理增强的3D物理对抗样本，克服了2D patch攻击在双目视觉中的局限性；2) 设计了一种3D立体匹配渲染模块，能够准确地将3D对抗样本渲染到双目相机图像中，并考虑视差效应；3) 提出了一种融合攻击，通过细粒度优化，将对抗样本无缝地融入环境，显著提高了隐蔽性和攻击性。

关键设计：在3D立体匹配渲染模块中，需要精确地估计双目相机的内外参数，并利用这些参数将3D对抗样本投影到左右图像中。融合攻击模块采用了一种基于梯度下降的优化算法，通过最小化对抗样本与背景之间的差异，实现无缝融合。损失函数的设计需要综合考虑对抗样本的攻击效果、视觉一致性和融合效果。

📊 实验亮点

实验结果表明，本文提出的物理对抗样本能够有效地欺骗双目深度估计模型，使其产生错误的深度信息。与现有的隐藏攻击方法相比，本文提出的融合攻击能够显著提高对抗样本的隐蔽性和攻击性，成功率提升显著（具体数值未知）。实验验证了3D纹理对抗样本和融合攻击的有效性。

🎯 应用场景

该研究成果可应用于评估和提升自动驾驶系统的安全性，尤其是在对抗恶意攻击方面的鲁棒性。通过模拟真实的物理对抗攻击场景，可以帮助开发者发现双目视觉深度估计模型的潜在漏洞，并开发相应的防御机制。此外，该技术也可用于评估其他基于视觉的机器人系统的安全性。

📄 摘要（原文）

Though deep neural models adopted to realize the perception of autonomous driving have proven vulnerable to adversarial examples, known attacks often leverage 2D patches and target mostly monocular perception. Therefore, the effectiveness of Physical Adversarial Examples (PAEs) on stereo-based binocular depth estimation remains largely unexplored. To this end, we propose the first texture-enabled physical adversarial attack against stereo matching models in the context of autonomous driving. Our method employs a 3D PAE with global camouflage texture rather than a local 2D patch-based one, ensuring both visual consistency and attack effectiveness across different viewpoints of stereo cameras. To cope with the disparity effect of these cameras, we also propose a new 3D stereo matching rendering module that allows the PAE to be aligned with real-world positions and headings in binocular vision. We further propose a novel merging attack that seamlessly blends the target into the environment through fine-grained PAE optimization. It has significantly enhanced stealth and lethality upon existing hiding attacks that fail to get seamlessly merged into the background. Extensive evaluations show that our PAEs can successfully fool the stereo models into producing erroneous depth information.

Cheating Stereo Matching in Full-scale: Physical Adversarial Attack against Binocular Depth Estimation in Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册