Not What You Asked For: Typographic Attacks in Household Robot Manipulation

📄 arXiv: 2605.18593v1 📥 PDF

作者: Ali Iranmanesh, Peng Liu

分类: cs.CR, cs.AI, cs.RO

发布日期: 2026-05-18

备注: 10 pages, 1 figure, IEEE conference format


💡 一句话要点

揭示家庭机器人操作中印刷文字攻击的风险:语义劫持导致物理操作失败

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 印刷文字攻击 机器人操作 视觉-语言模型 对抗性攻击 具身智能

📋 核心要点

  1. 现有研究对印刷文字攻击的关注主要集中在静态图像和导航任务,忽略了其对机器人操作的完整流程的影响。
  2. 本文提出一种解耦的感知架构,利用对抗性贴纸攻击冻结的CLIP编码器,同时使用DETIC保持几何定位,评估攻击效果。
  3. 实验表明,印刷文字攻击会导致机器人抓取和运输错误的物体,验证了该攻击对机器人操作的实际威胁。

📝 摘要(中文)

开放词汇具身AI智能体越来越多地依赖视觉-语言模型(如CLIP)进行物体感知和任务定位。然而,实现这种灵活性的共享嵌入空间引入了一种结构性漏洞,即印刷文字攻击,其中物理场景中的印刷文本在语义上会覆盖视觉判断。虽然之前的工作已经量化了这种威胁在静态2D基准和3D导航任务中的影响,但其对家庭机器人操作的完整感知-规划-行动流程的影响仍未被探索。本文在基于Habitat的模拟中使用HomeRobot基准评估了印刷文字攻击。我们引入了一种解耦的感知架构,该架构将冻结的CLIP编码器暴露于对抗性贴纸,同时通过DETIC保持几何定位。在59个可归因episode的受控评估池中,在不受控制的视角和遮挡下,且没有感知优化的情况下,该攻击实现了67.8%的总体攻击成功率(ASR),在完全成功的episode中上升到70.0%。关键的是,我们发现感知错误会通过持久的3D语义地图传播,从而产生动力学失败,本文将其定义为由对抗性污染的语义状态驱动的对错误物体的物理抓取和运输。在这些情况下,机器人会物理抓取并将错误的物体运送到目标容器。这些结果表明,印刷文字错误分类是对模块化操作管道的真实、可衡量且在物理上具有重要意义的威胁,而之前的印刷文字攻击研究并未对此进行考察。

🔬 方法详解

问题定义:论文旨在研究印刷文字攻击对家庭机器人操作任务的影响。现有方法主要关注图像分类或导航任务中的文字攻击,忽略了机器人操作中感知、规划和执行的完整流程。因此,当机器人依赖视觉-语言模型进行物体识别时,容易受到文字攻击的影响,导致抓取和运输错误的物体,从而影响任务完成。

核心思路:论文的核心思路是利用对抗性印刷文字来欺骗机器人的视觉感知系统,使其将错误的物体识别为目标物体。通过在物体上粘贴具有误导性的文字标签,可以影响视觉-语言模型的判断,从而使机器人执行错误的动作。

技术框架:论文采用基于Habitat的模拟环境和HomeRobot基准进行实验。整体框架包含以下模块:1) 感知模块:使用解耦的感知架构,包含冻结的CLIP编码器和DETIC。CLIP负责视觉-语言的语义理解,DETIC负责几何定位。2) 规划模块:根据感知结果生成操作指令。3) 行动模块:控制机器人在环境中执行抓取和运输等动作。

关键创新:论文的关键创新在于将印刷文字攻击应用于机器人操作的完整流程,并研究了感知错误如何通过3D语义地图传播,最终导致物理操作失败。此外,论文还提出了一种解耦的感知架构,可以更好地评估文字攻击对视觉-语言模型的影响。

关键设计:论文使用对抗性贴纸作为攻击手段,贴纸上包含与目标物体语义相关的文字。实验中,通过控制视角和遮挡等因素,评估了攻击的鲁棒性。攻击成功率(ASR)作为评估指标,衡量机器人抓取和运输错误物体的概率。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,在不受控制的视角和遮挡下,印刷文字攻击的总体攻击成功率(ASR)达到67.8%,在完全成功的episode中上升到70.0%。这表明印刷文字攻击对家庭机器人操作构成严重的威胁,即使在没有感知优化的情况下也能有效欺骗机器人。

🎯 应用场景

该研究对提升家庭服务机器人的安全性具有重要意义。通过了解印刷文字攻击的潜在风险,可以开发更鲁棒的感知算法和防御机制,防止机器人受到恶意攻击,确保其在复杂环境中的可靠运行。此外,该研究也为其他依赖视觉-语言模型的具身智能体提供了安全启示。

📄 摘要(原文)

Open-vocabulary embodied AI agents increasingly rely on vision-language models such as CLIP for object perception and task grounding. However, the shared embedding space that enables this flexibility introduces a structural vulnerability to typographic attacks, where printed text in a physical scene semantically overrides visual judgment. While prior work has quantified this threat in static 2D benchmarks and 3D navigation tasks, its impact on the full Sense-Plan-Act pipeline of household robot manipulation remains unexplored. This work evaluates typographic attacks in a Habitat-based simulation using the HomeRobot benchmark. We introduce a decoupled perception architecture that exposes a frozen CLIP encoder to adversarial stickers while maintaining geometric grounding via DETIC. In a controlled evaluation pool of 59 attributable episodes, the attack achieves an overall Attack Success Rate (ASR) of 67.8%, rising to 70.0% among fully successful episodes, under uncontrolled viewing angles and occlusion with no perceptual optimization. Critically, we find that perceptual errors propagate through the persistent 3D semantic map to produce kinetic failures, defined here as physically executed grasping and transport of the wrong object driven by an adversarially poisoned semantic state. In these cases, the robot physically grasps and delivers the wrong object to a target receptacle. These results establish typographic misclassification as a real, measurable, and physically consequential threat to the safety of modular manipulation pipelines that prior typographic attack research has left unexamined.