Benchmarking Vision-Language Models under Contradictory Virtual Content Attacks in Augmented Reality

📄 arXiv: 2604.05510v1 📥 PDF

作者: Yanming Xiu, Zhengayuan Jiang, Neil Zhenqiang Gong, Maria Gorlatova

分类: cs.CV

发布日期: 2026-04-07

备注: CVPR 2026 Findings


💡 一句话要点

ContrAR:增强现实中矛盾虚拟内容攻击下的视觉-语言模型基准测试

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 增强现实 视觉-语言模型 对抗攻击 基准测试 鲁棒性评估

📋 核心要点

  1. AR安全面临新挑战:恶意虚拟内容攻击会误导用户,现有方法缺乏针对性评估。
  2. 提出ContrAR基准,包含真实AR视频,用于评估视觉-语言模型对矛盾虚拟内容的鲁棒性。
  3. 实验评估了11个VLMs,结果表明模型对矛盾内容有一定理解,但鲁棒性和效率仍需提升。

📝 摘要(中文)

增强现实(AR)在过去十年中迅速发展。随着AR日益融入日常生活,其安全性和可靠性成为关键挑战。在各种威胁中,矛盾虚拟内容攻击,即在用户视图中引入恶意或不一致的虚拟元素,通过误导用户、制造语义混淆或传递有害信息,构成了一种独特的风险。本文系统地建模了此类攻击,并提出了ContrAR,这是一个用于评估视觉-语言模型(VLMs)在AR中对抗虚拟内容操纵和矛盾的鲁棒性的新基准。ContrAR包含312个真实世界的AR视频,并经过10名人类参与者的验证。我们进一步对11个VLMs进行了基准测试,包括商业和开源模型。实验结果表明,虽然当前的VLMs对矛盾的虚拟内容表现出合理的理解,但在检测和推理AR环境中的对抗性内容操纵方面仍有改进空间。此外,平衡检测准确性和延迟仍然具有挑战性。

🔬 方法详解

问题定义:论文旨在解决增强现实环境中,视觉-语言模型(VLMs)在面对矛盾虚拟内容攻击时的鲁棒性评估问题。现有的VLMs在自然图像和视频理解方面取得了显著进展,但在AR场景下,尤其是当虚拟内容与真实环境产生矛盾时,其性能会受到影响。现有的评估方法缺乏针对AR环境的特定设计,无法有效衡量VLMs在对抗性攻击下的表现。

核心思路:论文的核心思路是构建一个专门针对AR场景下矛盾虚拟内容攻击的基准测试数据集ContrAR,并利用该数据集系统地评估现有VLMs的鲁棒性。通过引入各种类型的矛盾虚拟内容,例如与真实环境不一致的物体、错误的标签或误导性的信息,来模拟实际应用中可能遇到的攻击场景。

技术框架:ContrAR基准测试数据集包含312个真实世界的AR视频,这些视频经过人工验证,确保其真实性和有效性。数据集中的每个视频都包含一个或多个矛盾虚拟内容攻击。论文使用这些视频作为输入,评估11个不同的VLMs,包括商业模型和开源模型。评估指标包括检测准确率和推理延迟,用于衡量模型在检测和理解矛盾内容方面的性能。

关键创新:该论文的关键创新在于提出了ContrAR,这是一个专门针对AR场景下矛盾虚拟内容攻击的基准测试数据集。与现有的图像和视频理解数据集不同,ContrAR专注于AR环境中的特定挑战,例如虚拟内容与真实环境的交互、视角的动态变化以及攻击的多样性。此外,论文还系统地分析了现有VLMs在ContrAR上的表现,揭示了它们在AR安全方面的潜在漏洞。

关键设计:ContrAR数据集的设计考虑了多种类型的矛盾虚拟内容攻击,包括物体不一致、标签错误和信息误导。视频的采集和标注过程经过精心设计,以确保数据的质量和多样性。评估指标的选择也充分考虑了AR应用的实际需求,例如检测准确率和推理延迟的平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLMs在ContrAR基准测试中表现出一定的理解能力,但仍存在改进空间。例如,某些模型在检测特定类型的矛盾虚拟内容时表现较差,而另一些模型则在推理延迟方面存在问题。实验还发现,平衡检测准确率和推理延迟是一个具有挑战性的问题,需要进一步的研究和优化。

🎯 应用场景

该研究成果可应用于提升增强现实应用的安全性和可靠性。通过使用ContrAR基准测试,开发者可以评估和改进VLMs在对抗性攻击下的鲁棒性,从而减少恶意虚拟内容对用户的误导和潜在危害。该研究还有助于推动AR安全领域的发展,为未来的安全AR应用设计提供指导。

📄 摘要(原文)

Augmented reality (AR) has rapidly expanded over the past decade. As AR becomes increasingly integrated into daily life, its security and reliability emerge as critical challenges. Among various threats, contradictory virtual content attacks, where malicious or inconsistent virtual elements are introduced into the user's view, pose a unique risk by misleading users, creating semantic confusion, or delivering harmful information. In this work, we systematically model such attacks and present ContrAR, a novel benchmark for evaluating the robustness of vision-language models (VLMs) against virtual content manipulation and contradiction in AR. ContrAR contains 312 real-world AR videos validated by 10 human participants. We further benchmark 11 VLMs, including both commercial and open-source models. Experimental results reveal that while current VLMs exhibit reasonable understanding of contradictory virtual content, room still remains for improvement in detecting and reasoning about adversarial content manipulations in AR environments. Moreover, balancing detection accuracy and latency remains challenging.