Simulating Infant First-Person Sensorimotor Experience via Motion Retargeting from Babies to Humanoids

📄 arXiv: 2604.27583v1 📥 PDF

作者: Francisco M. López, Hoshinori Kanazawa, Ondrej Fiala, Yakov Balashov, Valentin Marcel, Lukas Rustler, Miles Lenz, Dongmin Kim, Yasuo Kuniyoshi, Jochen Triesch, Matej Hoffmann

分类: q-bio.NC, cs.RO

发布日期: 2026-04-30

备注: Submitted to IEEE ICDL. 8 pages, 6 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种婴儿第一人称视角传感器运动经验模拟框架,用于机器人和发育科学研究。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 运动重定向 婴儿发育 传感器运动经验 人形机器人 多模态模拟

📋 核心要点

  1. 现有的人形机器人运动重定向方法主要关注运动学复制,忽略了与人类运动相关的丰富传感器运动经验。
  2. 该论文提出通过从婴儿视频中重建3D姿态,并将运动映射到物理和虚拟人形机器人上,来模拟婴儿的传感器运动经验。
  3. 实验表明,该方法在最佳匹配的平台上实现了亚厘米级的重定向精度,并支持多模态分析和行为自动注释。

📝 摘要(中文)

本文提出了一种模拟婴儿多模态传感器运动经验的框架,该框架使用物理和虚拟人形机器人。该方法从单个视频中重建婴儿的身体姿态,通过提取骨骼结构并估计每一帧的完整3D姿态来实现。然后,将重建的运动映射到多个发育平台:物理iCub机器人和虚拟模拟器pyCub、EMFANT和MIMo。在这些平台上重放重新定位的运动,产生模拟的多感官流,包括本体感觉(关节和肌肉)、触觉和视觉。对于最佳匹配的平台,重新定位达到亚厘米级的精度,并能够对婴儿发育进行丰富的多模态分析,以及增强行为的自动注释。该框架为婴儿的传感器运动体验提供了一个独特的窗口,为机器人技术、发育科学和神经发育障碍的早期检测提供了新的工具。代码可在https://github.com/ctu-vras/motion-retargeting/获取。

🔬 方法详解

问题定义:现有的人形机器人运动重定向方法主要关注运动学复制,忽略了与人类运动相关的丰富传感器运动经验。这限制了机器人学习和理解人类行为的能力,尤其是在模仿婴儿早期发育阶段的运动和感知方面。因此,需要一种能够模拟婴儿多模态传感器运动经验的方法,以便更好地理解婴儿发育并为机器人学习提供更丰富的训练数据。

核心思路:该论文的核心思路是从婴儿的视频数据中提取运动信息,然后将这些运动信息映射到不同的人形机器人平台上,从而使这些机器人能够体验到与婴儿相似的传感器运动经验。通过这种方式,研究人员可以研究婴儿的运动发育过程,并为机器人提供更自然、更有效的学习方式。

技术框架:该框架主要包含以下几个阶段:1) 婴儿视频数据采集;2) 婴儿骨骼结构提取和3D姿态估计;3) 运动重定向,将婴儿的运动映射到物理iCub机器人和虚拟模拟器pyCub、EMFANT和MIMo上;4) 多感官数据模拟,包括本体感觉、触觉和视觉;5) 评估重定向的精度和效果。

关键创新:该论文的关键创新在于提出了一种完整的框架,能够从婴儿视频中重建3D运动,并将其映射到不同的人形机器人平台上,从而模拟婴儿的多模态传感器运动经验。这种方法不仅考虑了运动学信息,还考虑了与运动相关的本体感觉、触觉和视觉信息,从而为机器人学习提供了更丰富的训练数据。

关键设计:该框架的关键设计包括:1) 使用先进的姿态估计技术从婴儿视频中准确地提取3D姿态;2) 设计有效的运动重定向算法,将婴儿的运动映射到不同的人形机器人平台上,同时考虑到机器人平台的物理限制;3) 开发多感官数据模拟模块,模拟本体感觉、触觉和视觉信息,从而为机器人提供更真实的传感器运动经验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在最佳匹配的平台上实现了亚厘米级的重定向精度。通过将婴儿的运动映射到iCub机器人和虚拟模拟器上,研究人员可以模拟婴儿的本体感觉、触觉和视觉体验。此外,该框架还支持对婴儿行为的自动注释,从而为发育科学研究提供了新的数据分析工具。

🎯 应用场景

该研究成果可应用于机器人学习、发育科学和神经发育障碍的早期检测。通过模拟婴儿的传感器运动经验,可以帮助机器人更好地理解和模仿人类行为,促进机器人与人类的自然交互。此外,该框架还可以用于研究婴儿的运动发育过程,并为神经发育障碍的早期诊断提供新的工具。

📄 摘要(原文)

Motion retargeting from humans to human-like artificial agents is becoming increasingly important as humanoid robots grow more capable. However, most existing approaches focus only on reproducing kinematics and ignore the rich sensorimotor experience associated with human movement. In this work, we present a framework for simulating the multimodal sensorimotor experiences of infants using physical and virtual humanoids. From a single video, our method reconstructs the infant's body configuration by extracting its skeletal structure and estimating the full 3D pose from each frame. Then we map the reconstructed motion onto several developmental platforms: the physical iCub robot and the virtual simulators pyCub, EMFANT and MIMo. Replaying the retargeted motions on these embodiments produces simulated multisensory streams including proprioception (joints and muscles), touch, and vision. For the best-matching embodiment, the retargeting achieves sub-centimeter accuracy and enables a rich multimodal analysis of infant development as well as enhanced automated annotation of behaviors. This framework provides a unique window into the infant's sensorimotor experience, offering new tools for robotics, developmental science, and early detection of neurodevelopmental disorders. The code is available at https://github.com/ctu-vras/motion-retargeting/.