HEADS-UP: Head-Mounted Egocentric Dataset for Trajectory Prediction in Blind Assistance Systems
作者: Yasaman Haghighi, Celine Demonsant, Panagiotis Chalimourdas, Maryam Tavasoli Naeini, Jhon Kevin Munoz, Bladimir Bacca, Silvan Suter, Matthieu Gani, Alexandre Alahi
分类: cs.CV
发布日期: 2024-09-30
💡 一句话要点
提出HEADS-UP数据集,用于盲人辅助系统中基于头戴相机的轨迹预测
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 盲人辅助系统 轨迹预测 头戴相机 自我中心视觉 半局部坐标系
📋 核心要点
- 现有轨迹预测数据集缺乏盲人视角,无法满足盲人辅助系统对动态障碍物碰撞预警的需求。
- 提出半局部轨迹预测方法,在旋转的相机坐标系下进行预测,简化了盲人与行人碰撞风险评估。
- 在HEADS-UP数据集和NVIDIA Jetson GPU实时测试中验证了方法的有效性、稳健性和效率。
📝 摘要(中文)
本文介绍了HEADS-UP,这是首个从头戴相机收集的以自我为中心的轨迹预测数据集,专为盲人辅助系统设计。随着盲人和视力障碍者人数的不断增长,对智能辅助工具的需求变得至关重要,这些工具可以提供关于与动态障碍物潜在碰撞的实时警告。这些系统依赖于能够预测移动物体(如行人)轨迹的算法,以便及时发出危险警报。然而,现有的数据集未能从盲人的角度捕捉到必要的信息。为了解决这一差距,HEADS-UP提供了一个专注于此背景下轨迹预测的新数据集。利用该数据集,我们提出了一种半局部轨迹预测方法,以评估动态环境中盲人与行人之间的碰撞风险。与分别预测盲人(自我代理)和行人轨迹的传统方法不同,我们的方法在半局部坐标系(相机坐标系的旋转版本)中运行,从而简化了预测过程。我们在HEADS-UP数据集上验证了我们的方法,并在ROS中实现了所提出的解决方案,通过用户研究在NVIDIA Jetson GPU上执行实时测试。数据集评估和实时测试的结果都证明了我们方法的稳健性和效率。
🔬 方法详解
问题定义:论文旨在解决盲人辅助系统中,由于缺乏合适的训练数据,导致无法准确预测动态环境中行人轨迹,从而无法及时预警潜在碰撞风险的问题。现有数据集通常不是以盲人视角采集,难以反映盲人在实际行走过程中遇到的场景和挑战。
核心思路:论文的核心思路是构建一个以盲人视角采集的头戴式相机数据集HEADS-UP,并在此基础上提出一种半局部轨迹预测方法。该方法通过在半局部坐标系下进行轨迹预测,简化了计算,提高了预测效率,从而能够满足实时性要求。
技术框架:整体框架包含数据采集、数据处理、模型训练和实时测试四个主要阶段。首先,通过头戴式相机采集盲人视角的视频数据,并进行标注。然后,利用HEADS-UP数据集训练半局部轨迹预测模型。最后,将训练好的模型部署到NVIDIA Jetson GPU上,通过ROS系统进行实时测试和用户研究。
关键创新:论文的关键创新在于提出了半局部坐标系下的轨迹预测方法。与传统的全局坐标系或以自我为中心的坐标系不同,半局部坐标系是相机坐标系的旋转版本,能够更好地反映盲人与行人之间的相对位置关系,从而简化了轨迹预测的计算。
关键设计:半局部坐标系的旋转角度是根据相机姿态估计得到的。损失函数的设计需要考虑预测轨迹的准确性和平滑性。网络结构的选择需要兼顾预测精度和计算效率,以便在嵌入式设备上实现实时推理。具体参数设置和网络结构细节在论文中未明确给出,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文构建了首个盲人视角下的轨迹预测数据集HEADS-UP,并验证了提出的半局部轨迹预测方法在该数据集上的有效性。通过在NVIDIA Jetson GPU上的实时测试和用户研究,证明了该方法具有良好的稳健性和效率,能够满足盲人辅助系统的实时性要求。具体的性能数据和提升幅度在摘要中未明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于开发智能盲人辅助系统,通过头戴式相机和实时轨迹预测技术,为盲人提供潜在碰撞风险的预警,提高其出行安全性和自主性。未来,该技术还可扩展到其他辅助机器人领域,例如帮助老年人或行动不便的人士安全出行。
📄 摘要(原文)
In this paper, we introduce HEADS-UP, the first egocentric dataset collected from head-mounted cameras, designed specifically for trajectory prediction in blind assistance systems. With the growing population of blind and visually impaired individuals, the need for intelligent assistive tools that provide real-time warnings about potential collisions with dynamic obstacles is becoming critical. These systems rely on algorithms capable of predicting the trajectories of moving objects, such as pedestrians, to issue timely hazard alerts. However, existing datasets fail to capture the necessary information from the perspective of a blind individual. To address this gap, HEADS-UP offers a novel dataset focused on trajectory prediction in this context. Leveraging this dataset, we propose a semi-local trajectory prediction approach to assess collision risks between blind individuals and pedestrians in dynamic environments. Unlike conventional methods that separately predict the trajectories of both the blind individual (ego agent) and pedestrians, our approach operates within a semi-local coordinate system, a rotated version of the camera's coordinate system, facilitating the prediction process. We validate our method on the HEADS-UP dataset and implement the proposed solution in ROS, performing real-time tests on an NVIDIA Jetson GPU through a user study. Results from both dataset evaluations and live tests demonstrate the robustness and efficiency of our approach.