AnyMo: Geometry-Aware Setup-Agnostic Modeling of Human Motion in the Wild

📄 arXiv: 2605.22715v1 📥 PDF

作者: Baiyu Chen, Zechen Li, Wilson Wongso, Lihuan Li, Xiachong Lin, Hao Xue, Benjamin Tag, Flora Salim

分类: cs.CV, cs.AI, cs.CL, cs.HC

发布日期: 2026-05-21


💡 一句话要点

AnyMo:针对可穿戴设备,实现几何感知和环境无关的人体运动建模

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体运动建模 可穿戴设备 几何感知 IMU仿真 图编码器 大型语言模型 跨模态检索

📋 核心要点

  1. 现有方法难以处理可穿戴设备在不同位置、方向和硬件上的差异,导致模型泛化能力差。
  2. AnyMo通过几何感知的IMU仿真生成多样化的合成数据,预训练图编码器,并结合LLM实现运动理解。
  3. 实验表明,AnyMo在零样本活动识别、跨模态检索和运动字幕等任务上显著优于现有方法。

📝 摘要(中文)

随着可穿戴和移动设备日益普及,它们为在实际环境中持续感知人体运动提供了一种可行途径。然而,惯性信号高度依赖于传感设置,包括身体位置、安装位置、传感器方向、设备硬件和采样协议。这种设置依赖性使得学习可跨设备和数据集迁移的运动表征变得困难,并限制了可穿戴IMU在闭集识别之外的更广泛应用。我们提出了AnyMo,一个几何感知的框架,用于与设置无关的人体运动建模。AnyMo利用基于物理的IMU仿真,在密集的身体表面位置生成多样且合理的合成信号,从配对的合成位置视图和掩蔽的部分观测中预训练一个图编码器,将多位置IMU标记化为全身运动标记,并将这些标记与LLM对齐以进行运动-语言理解。我们在三个互补的任务上评估AnyMo:跨14个未见下游数据集的零样本活动识别、跨模态检索和可穿戴IMU运动字幕,其中它在HAR上将平均准确率/F1/R@2提高了11.7%/11.6%/22.6%,将零样本IMU到文本和文本到IMU检索的MRR分别提高了15.9%和28.6%,并将零样本字幕的BERT-F1提高了18.8%。这些结果支持AnyMo作为野外可穿戴运动理解的通用模型。

🔬 方法详解

问题定义:论文旨在解决可穿戴设备在人体不同位置、不同方向、不同硬件配置下的运动数据建模问题。现有方法对传感器的设置依赖性强,难以泛化到新的设备和场景,限制了可穿戴IMU的应用范围。

核心思路:核心思路是利用物理引擎模拟IMU在人体表面的运动,生成大量多样化的合成数据,从而克服真实数据标注的困难和设备差异性。通过预训练图编码器学习运动表征,并结合大型语言模型(LLM)实现运动理解和跨模态转换。

技术框架:AnyMo框架包含以下几个主要阶段:1) IMU仿真:在人体表面密集放置虚拟IMU,并使用物理引擎模拟各种运动,生成合成的IMU数据。2) 图编码器预训练:使用配对的合成位置视图和掩蔽的部分观测数据,预训练一个图编码器,学习运动的几何关系和上下文信息。3) 运动标记化:将多位置IMU数据转换为全身运动标记。4) 运动-语言对齐:将运动标记与LLM对齐,实现运动理解和跨模态转换。

关键创新:最重要的创新点在于利用几何感知的IMU仿真生成合成数据,从而摆脱了对真实数据的依赖,实现了与设备设置无关的运动建模。此外,结合图编码器和LLM,实现了对运动的深层理解和跨模态转换。

关键设计:在IMU仿真阶段,需要合理设置物理引擎的参数,以保证合成数据的真实性和多样性。在图编码器预训练阶段,需要设计合适的损失函数,以鼓励模型学习运动的几何关系和上下文信息。在运动-语言对齐阶段,需要选择合适的LLM,并设计合适的对齐策略,以实现运动理解和跨模态转换。具体参数设置和网络结构细节在论文中有详细描述,此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnyMo在三个任务上取得了显著的性能提升。在零样本活动识别任务中,平均准确率/F1/R@2提高了11.7%/11.6%/22.6%。在跨模态检索任务中,零样本IMU到文本和文本到IMU检索的MRR分别提高了15.9%和28.6%。在零样本运动字幕任务中,BERT-F1提高了18.8%。这些结果表明AnyMo具有强大的泛化能力和跨模态理解能力。

🎯 应用场景

AnyMo具有广泛的应用前景,例如:智能健康监测、运动康复、虚拟现实、人机交互等。它可以用于识别用户的日常活动、评估运动质量、生成运动描述,并实现基于运动的控制和交互。该研究有助于推动可穿戴设备在实际生活中的应用,并为开发更智能、更个性化的运动相关应用提供技术支持。

📄 摘要(原文)

As wearable and mobile devices become increasingly embedded in daily life, they offer a practical way to continuously sense human motion in the wild. But inertial signals are highly dependent on the sensing setup, including body location, mounting position, sensor orientation, device hardware, and sampling protocol. This setup dependence makes it difficult to learn motion representations that transfer across devices and datasets, and limits the broader use of wearable IMUs beyond closed-set recognition. We introduce AnyMo, a geometry-aware framework for setup-agnostic human motion modeling. AnyMo uses physics-grounded IMU simulation over dense body-surface placements to generate diverse and plausible synthetic signals, pre-trains a graph encoder from paired synthetic placement views and masked partial observations, tokenizes multi-position IMU into full-body motion tokens, and aligns these tokens with an LLM for motion-language understanding. We evaluate AnyMo on three complementary tasks: zero-shot activity recognition across 14 unseen downstream datasets, cross-modal retrieval, and wearable IMU motion captioning, where it improves average Accuracy/F1/R@2 by 11.7\%/11.6\%/22.6\% on HAR, increases zero-shot IMU-to-text and text-to-IMU retrieval MRR by 15.9\% and 28.6\%, respectively, and improves zero-shot captioning BERT-F1 by 18.8\%. These results support AnyMo as a generalist model for wearable motion understanding in the wild. Project page: https://baiyuchen.com/project/AnyMo.