Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs
作者: Tjark Behrens, René Zurbrügg, Marc Pollefeys, Zuria Bauer, Hermann Blum
分类: cs.RO, cs.CV
发布日期: 2024-11-28 (更新: 2025-03-11)
备注: Webpage: https://behretj.github.io/LostAndFound; accepted at IEEE Robotics and Automation Letters
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出Lost & Found,通过自中心视角跟踪3D动态场景图中物体的变化。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 动态场景图 自中心视角 物体姿态跟踪 人机交互 机器人操作
📋 核心要点
- 现有静态语义地图无法有效捕捉动态环境中物体交互信息,频繁重扫成本高且难以跟踪物体变化。
- Lost & Found利用自中心视角记录、手部位置和相机姿态估计,跟踪交互期间移动物体的6DoF姿态,并更新可转换场景图。
- 实验表明,该方法在自中心视角和缺乏深度信息的情况下,物体姿态跟踪性能显著优于现有技术,平移和旋转误差分别降低34%和56%。
📝 摘要(中文)
现有的方法主要关注静态重建的分割,从而为下游应用提供语义3D理解。然而,我们所处的世界是动态的,环境与人类或机器人之间存在大量交互。静态语义地图无法捕捉这些信息,而每次更改后重新扫描环境的简单方法既昂贵又无法有效地跟踪物体(例如,存储在抽屉中的物体)。我们提出了Lost & Found来解决这个限制。仅基于自中心视角记录以及相应的手部位置和相机姿态估计,我们能够在检测到的交互间隔内跟踪移动物体的6DoF姿态。这些变化会在线应用于捕获对象级别关系的可转换场景图。与最先进的物体姿态跟踪器相比,我们的方法在处理具有挑战性的自中心视角和缺乏深度信息方面更可靠。平移和方向误差分别优于第二好的方法34%和56%,并产生明显更平滑的6DoF物体轨迹。此外,我们展示了动态场景图中获得的交互信息如何在机器人应用中使用,否则这些应用将是不可行的:我们展示了我们的方法如何允许通过示教与重复来指挥移动机械臂,以及关于先前交互的信息如何允许移动机械臂检索隐藏在抽屉中的物体。
🔬 方法详解
问题定义:现有方法难以在动态环境中有效跟踪物体的变化,尤其是在自中心视角下,缺乏深度信息使得物体姿态估计更加困难。简单地重新扫描环境成本高昂且不实用,无法捕捉细微的物体交互和状态变化。
核心思路:Lost & Found的核心思路是利用自中心视角下的视觉信息和手部交互信息,在线跟踪物体在交互过程中的6DoF姿态变化,并将这些变化整合到动态场景图中。通过分析手部与物体的交互,推断物体的运动轨迹和状态变化,从而实现对动态场景的理解。
技术框架:Lost & Found系统主要包含以下几个模块:1) 自中心视角数据采集模块,负责采集相机图像、手部位置和相机姿态信息;2) 交互检测模块,用于检测手部与物体之间的交互事件;3) 6DoF姿态跟踪模块,根据视觉信息和手部交互信息,估计物体在交互过程中的6DoF姿态变化;4) 动态场景图更新模块,将估计的姿态变化应用到场景图中,更新物体的位置和状态。
关键创新:该方法的主要创新在于:1) 利用自中心视角和手部交互信息进行物体姿态跟踪,克服了传统方法在自中心视角下缺乏深度信息的难题;2) 提出了一种动态场景图更新机制,能够在线地将物体姿态变化整合到场景图中,实现对动态场景的实时理解。
关键设计:该方法使用了一种基于优化的姿态跟踪方法,通过最小化视觉重投影误差和手部交互约束,估计物体的6DoF姿态。损失函数包括视觉重投影误差项和手部交互约束项。视觉重投影误差项用于保证估计的物体姿态与观测到的图像信息一致。手部交互约束项用于保证估计的物体姿态与手部交互信息一致。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
Lost & Found在自中心视角下的物体姿态跟踪任务中表现出色,平移误差和方向误差分别比第二好的方法降低了34%和56%。实验结果表明,该方法能够有效地跟踪物体在交互过程中的姿态变化,并生成平滑的6DoF物体轨迹。此外,该论文还展示了该方法在机器人示教与重复以及物体检索等任务中的应用。
🎯 应用场景
该研究成果可应用于机器人操作、增强现实、人机交互等领域。例如,机器人可以通过学习人类的交互行为,实现更智能的物体操作和场景理解。在增强现实中,可以利用该方法实现对虚拟物体的精确跟踪和交互。此外,该方法还可以用于开发更自然、更智能的人机交互界面。
📄 摘要(原文)
Recent approaches have successfully focused on the segmentation of static reconstructions, thereby equipping downstream applications with semantic 3D understanding. However, the world in which we live is dynamic, characterized by numerous interactions between the environment and humans or robotic agents. Static semantic maps are unable to capture this information, and the naive solution of rescanning the environment after every change is both costly and ineffective in tracking e.g. objects being stored away in drawers. With Lost & Found we present an approach that addresses this limitation. Based solely on egocentric recordings with corresponding hand position and camera pose estimates, we are able to track the 6DoF poses of the moving object within the detected interaction interval. These changes are applied online to a transformable scene graph that captures object-level relations. Compared to state-of-the-art object pose trackers, our approach is more reliable in handling the challenging egocentric viewpoint and the lack of depth information. It outperforms the second-best approach by 34% and 56% for translational and orientational error, respectively, and produces visibly smoother 6DoF object trajectories. In addition, we illustrate how the acquired interaction information in the dynamic scene graph can be employed in the context of robotic applications that would otherwise be unfeasible: We show how our method allows to command a mobile manipulator through teach & repeat, and how information about prior interaction allows a mobile manipulator to retrieve an object hidden in a drawer. Code, videos and corresponding data are accessible at https://behretj.github.io/LostAndFound.