Act on What You See: Unlocking Safe Social Navigation in Vision-Language-Action Models

📄 arXiv: 2606.10495v1 📥 PDF

作者: Qingzi Wang, Xiyang Wu, Guangyao Shi, Dianwei Chen, Xianfeng Yang, Dinesh Manocha

分类: cs.RO

发布日期: 2026-06-09


💡 一句话要点

提出SALSA框架以解决安全社交导航问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社交导航 视觉-语言-动作 行为对齐 碰撞避免 机器人安全

📋 核心要点

  1. 现有方法在社交导航中无法有效将视觉信号转化为适当的社交行为,导致潜在的安全隐患。
  2. 论文提出SALSA框架,通过社会行为对齐和时间安全对齐,解决了VLA模型与社交行为之间的匹配问题。
  3. 实验结果表明,SALSA显著降低了近碰撞事件,并提高了社交反事实的准确性,展示了其有效性。

📝 摘要(中文)

安全社交导航要求机器人能够区分行人和普通障碍物,并在危险临近之前做出反应。我们展示了预训练的视觉-语言-动作(VLA)模型在其内部表示中已经编码了行人-物体的区分和未来碰撞信号,但行为克隆无法将这些信号转化为社会适当的动作。为了解决这一不匹配,我们提出了SALSA,一个两阶段的无注释后训练框架:第一阶段,社会行为对齐将中间层的社会特征与动作头连接,并在反事实人-物场景对上进行训练,以打破视觉显著性捷径;第二阶段,时间安全对齐提供自动生成的未来风险监督,以实现预期的碰撞避免。在SCAND和真实世界部署中,SALSA将近碰撞减少了86.4%,并将社会反事实准确率从53%提高到93%。这些结果表明,通过教导VLA策略基于其已有的表示进行行动,可以实现更安全的社交导航。

🔬 方法详解

问题定义:本论文旨在解决机器人在社交导航中无法有效区分行人与障碍物的问题,现有的行为克隆方法未能将视觉信号转化为适当的社交行为,导致安全隐患。

核心思路:提出SALSA框架,通过两阶段的后训练方法,首先对中间层的社会特征进行对齐,然后提供未来风险的监督,从而实现更安全的社交导航。

技术框架:SALSA框架包括两个主要模块:社会行为对齐和时间安全对齐。社会行为对齐通过反事实人-物场景对进行训练,时间安全对齐则利用自动生成的未来风险信号进行监督。

关键创新:SALSA的创新在于其无注释的后训练方法,通过对齐中间层特征与动作生成,显著提高了社交导航的安全性,与传统的行为克隆方法本质上不同。

关键设计:在社会行为对齐阶段,使用反事实场景对进行训练以打破视觉显著性捷径;在时间安全对齐阶段,采用自动生成的风险信号作为监督,确保机器人能够预见并避免潜在的碰撞。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,SALSA框架在SCAND数据集和真实世界部署中,近碰撞事件减少了86.4%,社交反事实准确率从53%提升至93%。这些显著的性能提升验证了该方法在安全社交导航中的有效性。

🎯 应用场景

该研究的潜在应用领域包括服务机器人、自动驾驶汽车和人机交互系统等。通过提高机器人在复杂社交环境中的安全性和适应性,SALSA框架能够在实际应用中显著提升人机协作的效率和安全性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Safe social navigation requires robots to distinguish people from ordinary obstacles and to react before danger becomes imminent. We show that pretrained Vision-Language-Action (VLA) models already encode pedestrian-object distinctions and future collision signals in their internal representations, but behavior cloning fails to translate these signals into socially appropriate actions. To address this mismatch, we propose SALSA, a two-stage annotation-free post-training framework: (1) social behavioral alignment bridges intermediate-layer social features to the action head and trains on counterfactual human-object scene pairs to break visual saliency shortcuts; (2) temporal safety alignment provides automatically generated future-risk supervision to enable anticipatory collision avoidance. On SCAND and real-world deployment, SALSA reduces near-collisions by 86.4% and improves social counterfactual accuracy from 53% to 93%, demonstrating that safer social navigation can be achieved by teaching VLA policies to act on representations they already possess. These results show that pretrained VLA policies can be adapted for safer social navigation by better aligning their latent representations with action generation.