Sonata: A Hybrid World Model for Inertial Kinematics under Clinical Data Scarcity

作者: Blaise Delaney, Salil Patel, Yuji Xing, Dominic Dootson, Karin Sevegnani

分类: cs.LG

发布日期: 2026-04-20

备注: 18 pages, 3 figures

💡 一句话要点

Sonata：一种用于临床数据稀缺下惯性运动学的混合世界模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 惯性测量单元 世界模型 表征学习 临床数据稀缺 运动学 跌倒风险预测 神经评估

📋 核心要点

临床数据稀缺是IMU数据分析的挑战，现有方法难以充分利用有限数据进行有效表征学习。
Sonata通过预训练一个紧凑的潜在世界模型，学习预测未来状态而非重建原始数据，从而提升表征质量。
实验表明，Sonata在临床判别、跌倒风险预测和跨队列迁移方面优于自回归基线，并生成更结构化的潜在表征。

📝 摘要（中文）

本文介绍了一种紧凑的潜在世界模型Sonata，用于在临床数据稀缺的情况下学习六轴躯干IMU表征。临床队列通常包含数十到数百名患者，使得Web规模的掩码重建目标与该问题不太匹配。Sonata是一个377万参数的混合模型，在包含九个公共数据集（739名受试者，19万个窗口）的统一语料库上进行预训练，采用潜在世界模型目标，预测未来状态而不是重建原始传感器轨迹。在与相同骨干网络上的匹配自回归预测基线（MAE）的受控比较中，Sonata在14臂评估套件中始终产生更强的冻结探针临床判别、前瞻性跌倒风险预测和跨队列迁移，同时产生更高秩、更结构化的潜在表征。该模型参数量为377万，与设备上的可穿戴推理兼容，为神经评估的通用运动学世界模型提供了一个方向。

🔬 方法详解

问题定义：现有的基于IMU的运动学分析方法在临床数据稀缺的情况下表现不佳。由于临床队列规模小，直接采用大规模数据集上预训练的模型进行微调容易过拟合。此外，直接重建原始传感器数据可能无法有效捕捉运动的本质特征，导致下游任务性能受限。

核心思路：Sonata的核心思路是学习一个潜在的世界模型，该模型能够预测未来的运动状态，而不是简单地重建原始传感器数据。通过预测未来状态，模型可以学习到更鲁棒、更具泛化能力的运动表征，从而在数据稀缺的情况下也能表现良好。这种方法借鉴了世界模型的思想，即通过学习环境的动态模型来提高智能体的决策能力。

技术框架：Sonata是一个混合模型，包含编码器、潜在状态空间和解码器。编码器将IMU数据映射到潜在状态空间，潜在状态空间捕捉运动的本质特征。解码器根据潜在状态预测未来的运动状态。模型训练采用预训练-微调的范式。首先，在多个公开数据集上进行预训练，学习通用的运动表征。然后，在特定临床数据集上进行微调，以适应特定任务。

关键创新：Sonata的关键创新在于其潜在世界模型目标。与传统的重建目标不同，Sonata预测未来的运动状态。这种预测目标鼓励模型学习更鲁棒、更具泛化能力的运动表征。此外，Sonata采用混合模型结构，兼顾了模型的表达能力和计算效率。

关键设计：Sonata的编码器采用Transformer结构，可以有效捕捉时间序列数据的依赖关系。潜在状态空间采用变分自编码器（VAE）结构，可以学习到潜在状态的概率分布。解码器采用循环神经网络（RNN）结构，可以预测未来的运动状态。损失函数包括预测损失和KL散度损失。预测损失衡量预测的准确性，KL散度损失约束潜在状态的分布。

🖼️ 关键图片

📊 实验亮点

Sonata在14个评估任务中表现优于自回归基线，证明了其在临床判别、跌倒风险预测和跨队列迁移方面的优越性。例如，在冻结探针临床判别任务中，Sonata取得了显著的性能提升。此外，Sonata生成的潜在表征具有更高的秩和更强的结构性，表明其能够更好地捕捉运动的本质特征。

🎯 应用场景

Sonata可应用于神经系统疾病的运动功能评估、跌倒风险预测、康复训练监测等领域。该模型参数量小，适合在可穿戴设备上部署，实现实时运动分析。未来，Sonata有望成为一种通用的运动学世界模型，为个性化医疗和远程医疗提供技术支持。

📄 摘要（原文）

We introduce Sonata, a compact latent world model for six-axis trunk IMU representation learning under clinical data scarcity. Clinical cohorts typically comprise tens to hundreds of patients, making web-scale masked-reconstruction objectives poorly matched to the problem. Sonata is a 3.77 M-parameter hybrid model, pre-trained on a harmonised corpus of nine public datasets (739 subjects, 190k windows) with a latent world-model objective that predicts future state rather than reconstructing raw sensor traces. In a controlled comparison against a matched autoregressive forecasting baseline (MAE) on the same backbone, Sonata yields consistently stronger frozen-probe clinical discrimination, prospective fall-risk prediction, and cross-cohort transfer across a 14-arm evaluation suite, while producing higher-rank, more structured latent representations. At 3.77 M parameters the model is compatible with on-device wearable inference, offering a step toward general kinematic world models for neurological assessment.

Sonata: A Hybrid World Model for Inertial Kinematics under Clinical Data Scarcity

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理