HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR
作者: Yudi Dai, Zhiyong Wang, Xiping Lin, Chenglu Wen, Lan Xu, Siqi Shen, Yuexin Ma, Cheng Wang
分类: cs.CV, cs.AI, cs.GR, cs.MM
发布日期: 2024-09-06 (更新: 2024-09-14)
备注: 17 pages, 10 figures, Jornal
DOI: 10.1109/TPAMI.2024.3457229
💡 一句话要点
HiSC4D:利用可穿戴IMU和激光雷达进行大规模场景中以人为中心的交互和4D场景捕获
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 4D场景捕获 人机交互 可穿戴传感器 IMU 激光雷达 传感器融合 人体运动捕捉
📋 核心要点
- 现有方法难以在大型、无约束环境中准确捕捉动态的人与环境交互,通常依赖于外部设备或预构建地图。
- HiSC4D利用可穿戴IMU和激光雷达,通过联合优化传感器数据和环境线索,实现精确的以人为中心的4D场景捕获。
- 该方法在包含多样人类运动和交互的大规模场景中进行了验证,并提供了一个包含详细标注的数据集。
📝 摘要(中文)
HiSC4D是一种新颖的以人为中心的交互和4D场景捕获方法,旨在准确高效地创建动态数字世界,包含大规模室内外场景、多样的人类运动、丰富的人与人交互以及人与环境交互。通过利用身体佩戴的IMU和头部佩戴的激光雷达,HiSC4D可以在不受约束的空间中捕获以自我为中心的人类运动,而无需外部设备和预先构建的地图。这为各种环境中以人为中心的交互和4D场景捕获提供了极大的灵活性和可访问性。考虑到IMU可以捕获空间上不受限制的人类姿势,但长期使用容易漂移,而激光雷达对于全局定位是稳定的,但对于局部位置和方向是粗糙的,HiSC4D采用了一种联合优化方法,协调所有传感器并利用环境线索,从而在大型场景中的长期捕获中产生有希望的结果。为了促进大型场景中以自我为中心的人机交互研究并促进下游任务,我们还提供了一个数据集,其中包含4个大型场景(200到5,000平方米)中的8个序列,提供36k帧带有SMPL注释的精确4D人体运动和动态场景,31k帧裁剪的人体点云以及环境的场景网格。各种场景,例如篮球馆和商业街,以及具有挑战性的人类运动,例如日常问候、一对一篮球比赛和导游,证明了HiSC4D的有效性和泛化能力。数据集和代码将在www.lidarhumanmotion.net/hisc4d上公开发布,供研究使用。
🔬 方法详解
问题定义:现有方法在大型、动态环境中进行以人为中心的4D场景捕获时面临挑战。依赖外部设备(如动作捕捉系统)限制了捕捉范围和灵活性,而依赖预构建地图的方法则难以适应动态变化的环境。IMU虽然可以捕捉无约束的运动,但长期使用会产生漂移,而激光雷达虽然全局定位稳定,但在局部细节上精度不足。
核心思路:HiSC4D的核心思路是融合可穿戴IMU和激光雷达的优势,利用联合优化方法克服各自的局限性。IMU提供高频率的运动数据,激光雷达提供稳定的全局定位信息,通过环境线索的辅助,实现长期、精确的4D场景捕获。
技术框架:HiSC4D的整体框架包含以下几个主要模块:1) 数据采集:使用身体佩戴的IMU和头部佩戴的激光雷达同步采集数据。2) 传感器融合:将IMU和激光雷达的数据进行融合,利用卡尔曼滤波或类似的优化算法,估计人体姿态和位置。3) 环境建模:利用激光雷达数据构建场景的三维网格模型。4) 联合优化:将传感器数据、人体姿态先验和环境约束纳入统一的优化框架,提高捕捉精度和鲁棒性。
关键创新:HiSC4D的关键创新在于其联合优化方法,该方法能够有效地融合IMU和激光雷达的数据,并利用环境线索进行约束,从而在大型、动态环境中实现精确的4D场景捕获。与传统方法相比,HiSC4D无需外部设备和预构建地图,具有更高的灵活性和可扩展性。
关键设计:论文中可能涉及的关键设计包括:1) IMU和激光雷达的标定方法,确保数据同步和坐标系对齐。2) 联合优化框架中的损失函数设计,平衡传感器数据、人体姿态先验和环境约束。3) 环境线索的提取和利用方法,例如平面检测、边缘提取等。4) 针对特定场景(如篮球馆、商业街)的优化策略。
🖼️ 关键图片
📊 实验亮点
HiSC4D在包含篮球馆和商业街等大型场景的数据集上进行了验证,展示了其在捕捉多样人类运动和交互方面的有效性和泛化能力。该数据集包含36k帧带有SMPL注释的精确4D人体运动和动态场景,以及31k帧裁剪的人体点云和场景网格,为相关研究提供了宝贵资源。论文公开了数据集和代码,促进了该领域的研究。
🎯 应用场景
HiSC4D技术可应用于虚拟现实/增强现实(VR/AR)、游戏开发、机器人导航、运动分析、人机交互等领域。它能够创建逼真的动态虚拟环境,捕捉自然的人类运动和交互,为用户提供沉浸式的体验。该技术还有助于机器人理解和适应动态环境,提高其导航和交互能力。
📄 摘要(原文)
We introduce HiSC4D, a novel Human-centered interaction and 4D Scene Capture method, aimed at accurately and efficiently creating a dynamic digital world, containing large-scale indoor-outdoor scenes, diverse human motions, rich human-human interactions, and human-environment interactions. By utilizing body-mounted IMUs and a head-mounted LiDAR, HiSC4D can capture egocentric human motions in unconstrained space without the need for external devices and pre-built maps. This affords great flexibility and accessibility for human-centered interaction and 4D scene capturing in various environments. Taking into account that IMUs can capture human spatially unrestricted poses but are prone to drifting for long-period using, and while LiDAR is stable for global localization but rough for local positions and orientations, HiSC4D employs a joint optimization method, harmonizing all sensors and utilizing environment cues, yielding promising results for long-term capture in large scenes. To promote research of egocentric human interaction in large scenes and facilitate downstream tasks, we also present a dataset, containing 8 sequences in 4 large scenes (200 to 5,000 $m^2$), providing 36k frames of accurate 4D human motions with SMPL annotations and dynamic scenes, 31k frames of cropped human point clouds, and scene mesh of the environment. A variety of scenarios, such as the basketball gym and commercial street, alongside challenging human motions, such as daily greeting, one-on-one basketball playing, and tour guiding, demonstrate the effectiveness and the generalization ability of HiSC4D. The dataset and code will be publicated on www.lidarhumanmotion.net/hisc4d available for research purposes.