M4Human: A Large-Scale Multimodal mmWave Radar Benchmark for Human Mesh Reconstruction

📄 arXiv: 2512.12378v2 📥 PDF

作者: Junqiao Fan, Yunjiao Zhou, Yizhuo Yang, Xinyuan Cui, Jiarui Zhang, Lihua Xie, Jianfei Yang, Chris Xiaoxuan Lu, Fangqiang Ding

分类: cs.CV

发布日期: 2025-12-13 (更新: 2025-12-17)


💡 一句话要点

M4Human:用于人体网格重建的大规模多模态毫米波雷达基准数据集

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体网格重建 毫米波雷达 多模态数据集 运动捕捉 人体姿态估计

📋 核心要点

  1. 现有HMR数据集依赖RGB数据,易受遮挡、光照和隐私影响,限制了其应用。
  2. M4Human数据集利用毫米波雷达,提供隐私保护的感知,并包含高质量的3D网格和轨迹标注。
  3. 该数据集包含661K帧数据,涵盖20个对象和50个动作,为雷达人体建模研究提供基准。

📝 摘要(中文)

人体网格重建(HMR)能够直接洞察身体与环境的交互,从而实现各种沉浸式应用。现有的大规模HMR数据集严重依赖于视线内的RGB输入,但基于视觉的传感受到遮挡、光照变化和隐私问题的限制。为了克服这些限制,最近的研究探索了射频(RF)毫米波雷达,用于保护隐私的室内人体感知。然而,当前的雷达数据集受到稀疏骨骼标签、有限规模和简单的原地动作的约束。为了推进HMR研究,我们推出了M4Human,这是目前最大规模(661K帧)(比之前最大数据集大9倍)的多模态基准数据集,具有高分辨率毫米波雷达、RGB和深度数据。M4Human提供原始雷达张量(RT)和处理后的雷达点云(RPC),以支持不同RF信号粒度的研究。M4Human包括高质量的运动捕捉(MoCap)注释,包含3D网格和全局轨迹,涵盖20个对象和50个不同的动作,包括原地、坐姿和自由空间运动或康复运动。我们建立了RT和RPC模态的基准,以及与RGB-D模态的多模态融合。大量结果突出了M4Human对于基于雷达的人体建模的重要性,同时也揭示了在快速、无约束运动下持续存在的挑战。数据集和代码将在论文发表后发布。

🔬 方法详解

问题定义:现有的人体网格重建方法主要依赖于RGB图像,这在光照条件不佳、存在遮挡或者需要保护隐私的场景下会失效。现有的雷达数据集规模小,动作简单,标注稀疏,无法满足复杂场景下人体建模的需求。

核心思路:论文的核心思路是构建一个大规模、多模态的毫米波雷达数据集,该数据集包含高质量的3D人体网格和全局轨迹标注,涵盖多种复杂的动作。通过提供原始雷达张量和处理后的雷达点云,支持不同层次的雷达信号处理研究。

技术框架:M4Human数据集包含毫米波雷达数据、RGB图像和深度图像。数据采集过程中,使用运动捕捉系统获取高质量的3D人体网格和全局轨迹作为ground truth。数据集涵盖20个对象和50个不同的动作,包括原地、坐姿和自由空间运动。研究人员可以使用原始雷达张量(RT)或处理后的雷达点云(RPC)进行人体建模研究,也可以将雷达数据与RGB-D数据进行融合。

关键创新:M4Human数据集是目前规模最大的多模态毫米波雷达人体建模数据集,其规模比之前最大的数据集大9倍。该数据集提供了高质量的3D人体网格和全局轨迹标注,涵盖多种复杂的动作。此外,该数据集还提供了原始雷达张量和处理后的雷达点云,支持不同层次的雷达信号处理研究。

关键设计:数据集包含661K帧数据,涵盖20个对象和50个动作。动作类型包括原地动作、坐姿动作和自由空间运动,例如体育运动和康复运动。数据集中提供了原始雷达张量(RT)和处理后的雷达点云(RPC)。使用运动捕捉系统获取高质量的3D人体网格和全局轨迹作为ground truth。论文还建立了RT和RPC模态的基准,以及与RGB-D模态的多模态融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

M4Human数据集是目前最大的毫米波雷达人体建模数据集,包含661K帧数据,比之前最大的数据集大9倍。论文在RT和RPC模态上建立了基准,并进行了与RGB-D模态的多模态融合实验。实验结果表明,M4Human数据集对于雷达人体建模具有重要意义,但同时也揭示了在快速、无约束运动下仍然存在挑战。

🎯 应用场景

M4Human数据集可广泛应用于人体姿态估计、动作识别、人体跟踪等领域。尤其在隐私保护要求高的场景,如智能家居、医疗健康、安防监控等,毫米波雷达人体建模具有重要应用价值。该数据集将促进相关算法的研发,推动人机交互和智能感知技术的发展。

📄 摘要(原文)

Human mesh reconstruction (HMR) provides direct insights into body-environment interaction, which enables various immersive applications. While existing large-scale HMR datasets rely heavily on line-of-sight RGB input, vision-based sensing is limited by occlusion, lighting variation, and privacy concerns. To overcome these limitations, recent efforts have explored radio-frequency (RF) mmWave radar for privacy-preserving indoor human sensing. However, current radar datasets are constrained by sparse skeleton labels, limited scale, and simple in-place actions. To advance the HMR research community, we introduce M4Human, the current largest-scale (661K-frame) ($9\times$ prior largest) multimodal benchmark, featuring high-resolution mmWave radar, RGB, and depth data. M4Human provides both raw radar tensors (RT) and processed radar point clouds (RPC) to enable research across different levels of RF signal granularity. M4Human includes high-quality motion capture (MoCap) annotations with 3D meshes and global trajectories, and spans 20 subjects and 50 diverse actions, including in-place, sit-in-place, and free-space sports or rehabilitation movements. We establish benchmarks on both RT and RPC modalities, as well as multimodal fusion with RGB-D modalities. Extensive results highlight the significance of M4Human for radar-based human modeling while revealing persistent challenges under fast, unconstrained motion. The dataset and code will be released after the paper publication.