HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions
作者: Yifei Dong, Fengyi Wu, Qi He, Zhi-Qi Cheng, Heng Li, Minghan Li, Zebang Cheng, Yuxuan Zhou, Jingdong Sun, Qi Dai, Alexander G Hauptmann
分类: cs.AI, cs.CV, cs.RO
发布日期: 2025-03-18 (更新: 2025-10-09)
备注: 33 pages, 20 figures, website: https://ha-vln-project.vercel.app/
💡 一句话要点
HA-VLN 2.0:提出一个用于动态多智能体交互环境中人机协同导航的开放基准和排行榜
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言导航 人机交互 社会感知 强化学习 机器人导航
📋 核心要点
- 现有VLN研究较少关注动态、拥挤环境,缺乏对社会交互的考虑,导致导航安全性不足。
- HA-VLN 2.0通过引入社会感知约束,构建更贴近真实场景的导航任务,提升智能体在复杂环境中的适应性。
- 实验表明,在考虑人类动态的情况下,现有VLN智能体性能显著下降,验证了社会建模的必要性。
📝 摘要(中文)
本文提出了HA-VLN 2.0,一个统一的基准,引入了显式的社会感知约束,用于研究视觉-语言导航(VLN)问题,尤其是在动态和拥挤的环境中。主要贡献包括:(1)标准化的任务和指标,同时捕捉目标准确性和个人空间遵守情况;(2)HAPS 2.0数据集和模拟器,建模了多智能体交互、户外环境和更精细的语言-运动对齐;(3)基于16844条社会化指令的基准测试,揭示了领先智能体在人类动态和部分可观察性下的性能急剧下降;(4)真实世界机器人实验验证了从模拟到真实的迁移,并提供了一个开放的排行榜以实现透明比较。结果表明,显式的社会建模提高了导航的鲁棒性并减少了碰撞,强调了以人为中心的方法的必要性。通过发布数据集、模拟器、基线和协议,HA-VLN 2.0为安全、对社会负责的导航研究提供了坚实的基础。
🔬 方法详解
问题定义:现有的视觉-语言导航(VLN)研究主要集中在离散或连续环境中,很少关注动态、拥挤的环境,尤其缺乏对多智能体交互的建模。这导致智能体在真实场景中,难以安全有效地导航,容易发生碰撞,无法遵守社会规范。现有方法的痛点在于忽略了人类行为的动态性和复杂性,以及由此带来的部分可观察性问题。
核心思路:HA-VLN 2.0的核心思路是引入显式的社会感知约束,将人类行为纳入导航决策过程。通过建模多智能体交互,使智能体能够预测人类行为,并据此调整自身运动轨迹,从而实现安全、高效的导航。这种以人为中心的设计理念,旨在提升智能体在复杂社会环境中的适应性和鲁棒性。
技术框架:HA-VLN 2.0包含以下主要组成部分:1)HAPS 2.0数据集,包含带有社会化信息的导航指令;2)模拟器,用于模拟多智能体交互的动态环境;3)标准化的任务和评估指标,同时考虑目标准确性和个人空间遵守情况;4)基线模型,用于评估现有方法在HA-VLN 2.0上的性能。整体流程是:智能体接收带有社会信息的导航指令,在模拟器中进行导航,根据评估指标进行性能评估。
关键创新:HA-VLN 2.0最重要的技术创新点在于引入了显式的社会感知约束,并构建了相应的HAPS 2.0数据集和模拟器。与现有VLN方法相比,HA-VLN 2.0更加关注人类行为的动态性和复杂性,以及由此带来的部分可观察性问题。这使得智能体能够更好地理解人类意图,并据此调整自身行为,从而实现更加安全、高效的导航。
关键设计:HAPS 2.0数据集包含16,844条社会化指令,覆盖了多种场景和人类行为。模拟器采用逼真的物理引擎,模拟了多智能体交互的动态环境。评估指标包括目标准确率和个人空间遵守率,用于综合评估智能体的导航性能和社会适应性。基线模型采用了深度强化学习方法,并引入了社会注意力机制,用于学习人类行为的模式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在HA-VLN 2.0基准测试中,现有领先智能体在人类动态和部分可观察性下的性能急剧下降,验证了社会建模的必要性。通过引入显式的社会建模,导航的鲁棒性得到提高,碰撞次数显著减少。真实世界机器人实验验证了从模拟到真实的迁移能力,表明该研究具有实际应用价值。
🎯 应用场景
该研究成果可应用于服务机器人、自动驾驶、智能家居等领域。通过提升机器人在复杂社会环境中的导航能力,可以使其更好地服务于人类,例如在商场、医院等场所提供导航、导购等服务,或在家庭环境中进行清洁、照料等工作。未来,该研究有望推动人机协作的进一步发展,实现更加智能、安全、高效的人机交互。
📄 摘要(原文)
Vision-and-Language Navigation (VLN) has been studied mainly in either discrete or continuous settings, with little attention to dynamic, crowded environments. We present HA-VLN 2.0, a unified benchmark introducing explicit social-awareness constraints. Our contributions are: (i) a standardized task and metrics capturing both goal accuracy and personal-space adherence; (ii) HAPS 2.0 dataset and simulators modeling multi-human interactions, outdoor contexts, and finer language-motion alignment; (iii) benchmarks on 16,844 socially grounded instructions, revealing sharp performance drops of leading agents under human dynamics and partial observability; and (iv) real-world robot experiments validating sim-to-real transfer, with an open leaderboard enabling transparent comparison. Results show that explicit social modeling improves navigation robustness and reduces collisions, underscoring the necessity of human-centric approaches. By releasing datasets, simulators, baselines, and protocols, HA-VLN 2.0 provides a strong foundation for safe, socially responsible navigation research.