Extended to Reality: Prompt Injection in 3D Environments

📄 arXiv: 2602.07104v1 📥 PDF

作者: Zhuoheng Li, Ying Chen

分类: cs.CV, cs.AI

发布日期: 2026-02-06


💡 一句话要点

提出PI3D以解决3D环境中的提示注入攻击问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大型语言模型 3D环境 提示注入 物理对象 安全性 机器人技术 增强现实

📋 核心要点

  1. 现有方法主要集中在文本领域和2D图像的数字编辑,缺乏对3D物理环境中提示注入攻击的研究。
  2. 本文提出PI3D,通过在3D环境中放置带文本的物理对象来实现提示注入,确保物体放置的物理合理性。
  3. 实验结果表明,PI3D对多种MLLMs有效,现有防御措施无法有效应对该攻击,显示出其潜在威胁。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在3D环境中解读和执行视觉输入的能力得到了提升,推动了机器人和对话代理等多种应用的发展。然而,当MLLMs在物理世界的相机捕获视图上进行推理时,攻击者可以通过在环境中放置带有文本的物理对象来覆盖MLLMs的预期任务。为了解决这一问题,本文提出了PI3D,一种针对3D环境中MLLMs的提示注入攻击,重点在于通过物理对象的放置而非数字图像编辑来实现。实验表明,PI3D在多种相机轨迹下对多个MLLMs有效,而现有的防御措施不足以抵御PI3D。

🔬 方法详解

问题定义:本文要解决的问题是如何在3D环境中有效地进行提示注入攻击,现有方法在此领域的研究较少,缺乏针对物理对象的攻击策略。

核心思路:PI3D的核心思路是通过放置带有文本的物理对象来诱导MLLMs执行注入的任务,同时确保物体的放置在物理上是合理的。这样的设计使得攻击更加隐蔽且难以防范。

技术框架:PI3D的整体架构包括三个主要模块:1) 3D对象姿态识别,确定物体的位置和方向;2) 文本注入策略,设计有效的文本内容;3) 实验验证,评估攻击效果和防御措施的有效性。

关键创新:PI3D的最大创新在于将提示注入攻击从2D图像扩展到3D环境,利用物理对象的放置来实现攻击,这与现有方法的数字编辑方式有本质区别。

关键设计:在设计中,关键参数包括物体的尺寸、形状和文本内容,损失函数用于优化物体放置的合理性和攻击效果,确保攻击的成功率和隐蔽性。具体的网络结构和算法细节在实验部分进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,PI3D在多种相机轨迹下对多个MLLMs的攻击成功率超过80%,而现有的防御措施在面对PI3D时的有效性不足,显示出该攻击方法的强大威胁性。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、增强现实和安全监控等。通过揭示3D环境中提示注入的风险,研究可以帮助开发更安全的多模态系统,提升其在实际应用中的鲁棒性和安全性。

📄 摘要(原文)

Multimodal large language models (MLLMs) have advanced the capabilities to interpret and act on visual input in 3D environments, empowering diverse applications such as robotics and situated conversational agents. When MLLMs reason over camera-captured views of the physical world, a new attack surface emerges: an attacker can place text-bearing physical objects in the environment to override MLLMs' intended task. While prior work has studied prompt injection in the text domain and through digitally edited 2D images, it remains unclear how these attacks function in 3D physical environments. To bridge the gap, we introduce PI3D, a prompt injection attack against MLLMs in 3D environments, realized through text-bearing physical object placement rather than digital image edits. We formulate and solve the problem of identifying an effective 3D object pose (position and orientation) with injected text, where the attacker's goal is to induce the MLLM to perform the injected task while ensuring that the object placement remains physically plausible. Experiments demonstrate that PI3D is an effective attack against multiple MLLMs under diverse camera trajectories. We further evaluate existing defenses and show that they are insufficient to defend against PI3D.