Sonata: A Hybrid World Model for Inertial Kinematics under Clinical Data Scarcity
作者: Blaise Delaney, Salil Patel, Yuji Xing, Dominic Dootson, Karin Sevegnani
分类: cs.LG
发布日期: 2026-04-20
备注: 18 pages, 3 figures
💡 一句话要点
Sonata:一种用于临床数据稀缺下惯性运动学的混合世界模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 惯性测量单元 世界模型 表征学习 临床数据稀缺 运动学 跌倒风险预测 神经评估
📋 核心要点
- 临床数据稀缺是IMU数据分析的挑战,现有方法难以充分利用有限数据进行有效表征学习。
- Sonata通过预训练一个紧凑的潜在世界模型,学习预测未来状态而非重建原始数据,从而提升表征质量。
- 实验表明,Sonata在临床判别、跌倒风险预测和跨队列迁移方面优于自回归基线,并生成更结构化的潜在表征。
📝 摘要(中文)
本文介绍了一种紧凑的潜在世界模型Sonata,用于在临床数据稀缺的情况下学习六轴躯干IMU表征。临床队列通常包含数十到数百名患者,使得Web规模的掩码重建目标与该问题不太匹配。Sonata是一个377万参数的混合模型,在包含九个公共数据集(739名受试者,19万个窗口)的统一语料库上进行预训练,采用潜在世界模型目标,预测未来状态而不是重建原始传感器轨迹。在与相同骨干网络上的匹配自回归预测基线(MAE)的受控比较中,Sonata在14臂评估套件中始终产生更强的冻结探针临床判别、前瞻性跌倒风险预测和跨队列迁移,同时产生更高秩、更结构化的潜在表征。该模型参数量为377万,与设备上的可穿戴推理兼容,为神经评估的通用运动学世界模型提供了一个方向。
🔬 方法详解
问题定义:现有的基于IMU的运动学分析方法在临床数据稀缺的情况下表现不佳。由于临床队列规模小,直接采用大规模数据集上预训练的模型进行微调容易过拟合。此外,直接重建原始传感器数据可能无法有效捕捉运动的本质特征,导致下游任务性能受限。
核心思路:Sonata的核心思路是学习一个潜在的世界模型,该模型能够预测未来的运动状态,而不是简单地重建原始传感器数据。通过预测未来状态,模型可以学习到更鲁棒、更具泛化能力的运动表征,从而在数据稀缺的情况下也能表现良好。这种方法借鉴了世界模型的思想,即通过学习环境的动态模型来提高智能体的决策能力。
技术框架:Sonata是一个混合模型,包含编码器、潜在状态空间和解码器。编码器将IMU数据映射到潜在状态空间,潜在状态空间捕捉运动的本质特征。解码器根据潜在状态预测未来的运动状态。模型训练采用预训练-微调的范式。首先,在多个公开数据集上进行预训练,学习通用的运动表征。然后,在特定临床数据集上进行微调,以适应特定任务。
关键创新:Sonata的关键创新在于其潜在世界模型目标。与传统的重建目标不同,Sonata预测未来的运动状态。这种预测目标鼓励模型学习更鲁棒、更具泛化能力的运动表征。此外,Sonata采用混合模型结构,兼顾了模型的表达能力和计算效率。
关键设计:Sonata的编码器采用Transformer结构,可以有效捕捉时间序列数据的依赖关系。潜在状态空间采用变分自编码器(VAE)结构,可以学习到潜在状态的概率分布。解码器采用循环神经网络(RNN)结构,可以预测未来的运动状态。损失函数包括预测损失和KL散度损失。预测损失衡量预测的准确性,KL散度损失约束潜在状态的分布。
🖼️ 关键图片
📊 实验亮点
Sonata在14个评估任务中表现优于自回归基线,证明了其在临床判别、跌倒风险预测和跨队列迁移方面的优越性。例如,在冻结探针临床判别任务中,Sonata取得了显著的性能提升。此外,Sonata生成的潜在表征具有更高的秩和更强的结构性,表明其能够更好地捕捉运动的本质特征。
🎯 应用场景
Sonata可应用于神经系统疾病的运动功能评估、跌倒风险预测、康复训练监测等领域。该模型参数量小,适合在可穿戴设备上部署,实现实时运动分析。未来,Sonata有望成为一种通用的运动学世界模型,为个性化医疗和远程医疗提供技术支持。
📄 摘要(原文)
We introduce Sonata, a compact latent world model for six-axis trunk IMU representation learning under clinical data scarcity. Clinical cohorts typically comprise tens to hundreds of patients, making web-scale masked-reconstruction objectives poorly matched to the problem. Sonata is a 3.77 M-parameter hybrid model, pre-trained on a harmonised corpus of nine public datasets (739 subjects, 190k windows) with a latent world-model objective that predicts future state rather than reconstructing raw sensor traces. In a controlled comparison against a matched autoregressive forecasting baseline (MAE) on the same backbone, Sonata yields consistently stronger frozen-probe clinical discrimination, prospective fall-risk prediction, and cross-cohort transfer across a 14-arm evaluation suite, while producing higher-rank, more structured latent representations. At 3.77 M parameters the model is compatible with on-device wearable inference, offering a step toward general kinematic world models for neurological assessment.