Affordance Field Intervention: Enabling VLAs to Escape Memory Traps in Robotic Manipulation

📄 arXiv: 2512.07472v1 📥 PDF

作者: Siyu Xu, Zijian Wang, Yunke Wang, Chenghao Xia, Tao Huang, Chang Xu

分类: cs.RO, cs.LG

发布日期: 2025-12-08


💡 一句话要点

提出可干预的可供性场以解决机器人操控中的记忆陷阱问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 机器人操控 可供性场 记忆陷阱 空间理解 适应性增强 多模态学习

📋 核心要点

  1. 现有的VLA模型在面对分布变化时,容易陷入记忆陷阱,无法有效适应新环境。
  2. 本文提出了可供性场干预(AFI)框架,利用3D空间可供性场引导VLA行为,增强其适应性。
  3. 实验结果显示,该方法在真实机器人平台上平均提升23.5%的性能,验证了其有效性。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在机器人操控中表现出色,但在分布变化时容易陷入“记忆陷阱”,即重复记忆的轨迹而无法适应新场景。为了解决这一问题,本文引入了3D空间可供性场(SAFs),提供几何表示以识别可交互区域。我们提出了可供性场干预(AFI)框架,通过本体感知检测记忆陷阱,重新定位机器人并生成基于可供性的路径点,从而提高VLA的适应性。实验表明,该方法在不同VLA骨干网络下,平均提升23.5%的性能,验证了其在真实场景中的有效性。

🔬 方法详解

问题定义:本文旨在解决VLA模型在分布变化时的适应性不足,现有方法容易陷入记忆陷阱,无法识别新环境中的可交互区域。

核心思路:通过引入3D空间可供性场(SAFs),提供几何信息以帮助VLA模型识别可交互区域,从而增强其在新场景中的适应能力。

技术框架:AFI框架包括几个主要模块:首先,通过本体感知检测记忆陷阱;其次,重新定位机器人至高可供性区域;最后,生成基于可供性的路径点,指导VLA生成动作。

关键创新:AFI框架的核心创新在于将SAFs作为插件引入VLA模型,显著提升了模型在新环境中的空间理解能力,与传统的端到端设计形成鲜明对比。

关键设计:在技术细节上,AFI框架采用了特定的损失函数来优化路径点选择,并设计了SAF评分机制,以确保选择的轨迹具有最高的累积可供性。该框架轻量且高效,适用于多种VLA骨干网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,AFI框架在不同VLA骨干网络下,平均提升了23.5%的性能,尤其在真实机器人平台和LIBERO-Pro基准测试中,分别实现了20.2%的提升,验证了其在应对分布变化时的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能家居、工业自动化和服务机器人等。通过增强机器人在动态环境中的适应能力,AFI框架可以提高机器人在复杂任务中的执行效率,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Vision-Language-Action (VLA) models have shown great performance in robotic manipulation by mapping visual observations and language instructions directly to actions. However, they remain brittle under distribution shifts: when test scenarios change, VLAs often reproduce memorized trajectories instead of adapting to the updated scene, which is a failure mode we refer to as the "Memory Trap". This limitation stems from the end-to-end design, which lacks explicit 3D spatial reasoning and prevents reliable identification of actionable regions in unfamiliar environments. To compensate for this missing spatial understanding, 3D Spatial Affordance Fields (SAFs) can provide a geometric representation that highlights where interactions are physically feasible, offering explicit cues about regions the robot should approach or avoid. We therefore introduce Affordance Field Intervention (AFI), a lightweight hybrid framework that uses SAFs as an on-demand plug-in to guide VLA behavior. Our system detects memory traps through proprioception, repositions the robot to recent high-affordance regions, and proposes affordance-driven waypoints that anchor VLA-generated actions. A SAF-based scorer then selects trajectories with the highest cumulative affordance. Extensive experiments demonstrate that our method achieves an average improvement of 23.5% across different VLA backbones ($π_{0}$ and $π_{0.5}$) under out-of-distribution scenarios on real-world robotic platforms, and 20.2% on the LIBERO-Pro benchmark, validating its effectiveness in enhancing VLA robustness to distribution shifts.