Vision-based Perception System for Automated Delivery Robot-Pedestrians Interactions

作者: Ergi Tushe, Bilal Farooq

分类: cs.RO, cs.LG

发布日期: 2025-08-05

期刊: In the proceedings of 11th IEEE International Smart Cities Conference (ISC2), Patras, Greece, October 2025

💡 一句话要点

提出基于视觉的感知系统以解决自动送货机器人与行人交互问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 自动送货机器人 行人检测 姿态估计 深度感知 多目标跟踪 城市物流 人机交互

📋 核心要点

现有方法在行人密集环境中，面临安全导航和身份保持的挑战，尤其在遮挡和人群密集情况下。
本文提出了一种基于单个视觉传感器的多行人检测与跟踪系统，结合姿态估计和深度信息，提升行人轨迹预测能力。
实验结果表明，系统在身份保持和多目标跟踪精度上均有显著提升，检测精度在复杂场景中也保持在85%以上。

📝 摘要（中文）

将自动送货机器人（ADR）整合到行人密集的城市空间中，带来了安全、高效和社会可接受导航的独特挑战。本文开发了一套完整的管道，利用单个视觉传感器进行多行人检测与跟踪、姿态估计和单目深度感知。通过利用真实世界的MOT17数据集，研究展示了人类姿态估计与深度线索的结合如何增强行人轨迹预测和身份维护，即使在遮挡和密集人群中。结果显示，身份保持（IDF1）提高了10%，多目标跟踪精度（MOTA）提升了7%，在挑战场景中检测精度始终超过85%。该系统还能够识别脆弱的行人群体，支持更具社会意识和包容性的机器人行为。

🔬 方法详解

问题定义：本文旨在解决自动送货机器人在行人密集环境中安全导航和身份保持的难题。现有方法在遮挡和人群密集情况下表现不佳，导致机器人无法有效识别和跟踪行人。

核心思路：论文的核心思路是通过结合人类姿态估计和深度信息，提升行人轨迹预测的准确性和身份维护能力。这种设计能够有效应对复杂的行人交互场景。

技术框架：整体架构包括多行人检测与跟踪、姿态估计和单目深度感知三个主要模块。首先，利用视觉传感器进行行人检测，然后进行姿态估计，最后结合深度信息进行轨迹预测。

关键创新：最重要的技术创新在于将人类姿态估计与深度信息结合，显著提升了在遮挡和密集人群中的行人身份保持能力。这一方法与传统的基于视觉的跟踪方法相比，具有更高的鲁棒性。

关键设计：在参数设置上，采用了针对多目标跟踪的特定损失函数，并设计了适应性强的网络结构，以提高在复杂场景下的检测精度和跟踪稳定性。

📊 实验亮点

实验结果显示，系统在身份保持（IDF1）上提高了10%，多目标跟踪精度（MOTA）提升了7%。在复杂场景下，检测精度始终超过85%，表明该系统在行人密集环境中的有效性和可靠性。

🎯 应用场景

该研究的潜在应用领域包括城市配送、智能交通系统和人机交互等。通过提升自动送货机器人在复杂环境中的导航能力，可以有效提高城市物流效率，减少交通事故风险，并促进人机协作的社会接受度。未来，该技术有望在更多智能城市应用中发挥重要作用。

📄 摘要（原文）

The integration of Automated Delivery Robots (ADRs) into pedestrian-heavy urban spaces introduces unique challenges in terms of safe, efficient, and socially acceptable navigation. We develop the complete pipeline for a single vision sensor based multi-pedestrian detection and tracking, pose estimation, and monocular depth perception. Leveraging the real-world MOT17 dataset sequences, this study demonstrates how integrating human-pose estimation and depth cues enhances pedestrian trajectory prediction and identity maintenance, even under occlusions and dense crowds. Results show measurable improvements, including up to a 10% increase in identity preservation (IDF1), a 7% improvement in multiobject tracking accuracy (MOTA), and consistently high detection precision exceeding 85%, even in challenging scenarios. Notably, the system identifies vulnerable pedestrian groups supporting more socially aware and inclusive robot behaviour.

Vision-based Perception System for Automated Delivery Robot-Pedestrians Interactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册