Altered Thoughts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation

📄 arXiv: 2603.12717v1 📥 PDF

作者: Tuan Duong Trinh, Naveed Akhtar, Basim Azam

分类: cs.RO, cs.AI, cs.LG

发布日期: 2026-03-13


💡 一句话要点

VLA机器人操作中思维链的脆弱性研究:中间推理过程的对抗攻击

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 思维链推理 对抗攻击 机器人操作 文本篡改

📋 核心要点

  1. 现有的视觉-语言-动作模型越来越多地采用思维链推理,但在推理模块和动作解码器之间的内部文本通道缺乏对抗性安全分析。
  2. 本文通过设计一系列文本攻击方法,研究动作解码器对中间推理计划的依赖程度,并尝试通过篡改推理过程来降低机器人任务性能。
  3. 实验结果表明,替换推理过程中的对象名称会显著降低任务成功率,而其他类型的文本篡改影响较小,揭示了模型对实体引用的依赖性。

📝 摘要(中文)

本文研究了视觉-语言-动作(VLA)模型中思维链(CoT)推理的脆弱性。CoT模型在生成动作指令前,会先生成自然语言计划。本文针对这一推理模块和动作解码器之间的内部文本通道,设计了一系列文本攻击方法,旨在评估动作解码器对中间计划的依赖程度,以及通过篡改推理过程(保持输入不变)来降低机器人任务性能的可能性。研究设计了包含七种文本破坏的攻击分类,并将其应用于最先进的VLA模型,在40个LIBERO桌面操作任务上进行测试。结果表明,替换推理过程中的对象名称会显著降低成功率(平均降低8.3个百分点,目标条件任务降低19.3个百分点,单个任务降低45个百分点),而句子重排序、空间方向反转、token噪声甚至使用70B参数的LLM生成看似合理但错误的计划,影响都微乎其微(在±4个百分点内)。这表明动作解码器依赖于实体引用的完整性,而非推理质量或序列结构。值得注意的是,复杂的基于LLM的攻击效果不如简单的对象名称替换,因为保持合理性反而保留了解码器所需的实体 grounding 结构。使用非推理VLA的交叉架构控制实验证实,该漏洞仅存在于推理增强模型中,而指令级攻击会降低两种架构的性能,表明内部推理过程是一种独特的、隐蔽的威胁向量,输入验证防御无法检测到。

🔬 方法详解

问题定义:论文旨在研究基于思维链(Chain-of-Thought, CoT)的视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作任务中的安全性问题。现有CoT VLA模型在执行任务前会生成自然语言计划,但该中间推理过程的脆弱性未被充分研究。现有方法主要关注输入层面的对抗攻击,忽略了内部推理过程可能存在的安全风险。

核心思路:论文的核心思路是通过有针对性地篡改VLA模型内部的推理过程,来评估动作解码器对中间计划的依赖程度,并分析哪些类型的推理错误会对机器人任务的性能产生显著影响。通过设计不同类型的文本攻击,揭示模型对推理过程的哪些属性最为敏感。

技术框架:该研究的技术框架主要包括以下几个部分:1) 选择一个基于CoT的VLA模型作为研究对象;2) 设计一个包含七种文本破坏的攻击分类,分为盲噪声、机械-语义和LLM自适应三个层级;3) 将这些攻击应用于VLA模型的中间推理过程,保持输入不变;4) 在LIBERO桌面操作任务上评估攻击对机器人任务性能的影响;5) 使用非推理VLA模型作为对照组,验证漏洞的独特性。

关键创新:论文最重要的技术创新点在于:1) 首次关注VLA模型内部推理过程的安全性,提出了针对中间推理过程的对抗攻击方法;2) 揭示了VLA模型对实体引用完整性的高度依赖性,即使是简单的对象名称替换攻击也能显著降低任务成功率;3) 证明了复杂的LLM攻击效果不如简单的机械替换,因为LLM在保持合理性的同时,也保留了解码器所需的实体 grounding 结构。

关键设计:论文的关键设计包括:1) 攻击分类的设计,涵盖了不同类型的文本破坏,从简单的噪声到复杂的语义篡改;2) 实验任务的选择,LIBERO桌面操作任务具有一定的复杂性和多样性,能够有效评估攻击的效果;3) 对照实验的设计,使用非推理VLA模型作为对照组,验证了漏洞的独特性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,替换推理过程中的对象名称会显著降低任务成功率(平均降低8.3个百分点,目标条件任务降低19.3个百分点,单个任务降低45个百分点),而其他类型的文本篡改影响较小。即使使用70B参数的LLM生成看似合理但错误的计划,其影响也在可接受范围内。这揭示了VLA模型对实体引用完整性的高度依赖性。

🎯 应用场景

该研究成果可应用于提升机器人操作系统的安全性,尤其是在涉及复杂推理和规划的场景中。通过了解VLA模型推理过程的脆弱性,可以开发更有效的防御机制,防止恶意攻击者通过篡改推理过程来控制机器人,从而保障机器人在工业、医疗、家庭服务等领域的安全可靠运行。未来的研究可以探索更鲁棒的推理方法和更安全的VLA模型架构。

📄 摘要(原文)

Recent Vision-Language-Action (VLA) models increasingly adopt chain-of-thought (CoT) reasoning, generating a natural-language plan before decoding motor commands. This internal text channel between the reasoning module and the action decoder has received no adversarial scrutiny. We ask: which properties of this intermediate plan does the action decoder actually rely on, and can targeted corruption of the reasoning trace alone -- with all inputs left intact -- degrade a robot's physical task performance? We design a taxonomy of seven text corruptions organized into three attacker tiers (blind noise, mechanical-semantic, and LLM-adaptive) and apply them to a state-of-the-art reasoning VLA across 40 LIBERO tabletop manipulation tasks. Our results reveal a striking asymmetry: substituting object names in the reasoning trace reduces overall success rate by 8.3~percentage points (pp) -- reaching $-$19.3~pp on goal-conditioned tasks and $-$45~pp on individual tasks -- whereas sentence reordering, spatial-direction reversal, token noise, and even a 70B-parameter LLM crafting plausible-but-wrong plans all have negligible impact (within $\pm$4~pp). This asymmetry indicates that the action decoder depends on entity-reference integrity rather than reasoning quality or sequential structure. Notably, a sophisticated LLM-based attacker underperforms simple mechanical object-name substitution, because preserving plausibility inadvertently retains the entity-grounding structure the decoder needs. A cross-architecture control using a non-reasoning VLA confirms the vulnerability is exclusive to reasoning-augmented models, while instruction-level attacks degrade both architectures -- establishing that the internal reasoning trace is a distinct and stealthy threat vector invisible to input-validation defenses.