Severe Domain Shift in Skeleton-Based Action Recognition:A Study of Uncertainty Failure in Real-World Gym Environments
作者: Aaditya Khanal, Junxiu Zhou
分类: cs.CV
发布日期: 2026-03-16
备注: 6 pages, 7 figures
💡 一句话要点
针对骨骼动作识别中的严重领域偏移,提出基于微调门控机制的校准方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 骨骼动作识别 领域偏移 不确定性估计 门控机制 模型校准
📋 核心要点
- 现有骨骼动作识别模型在领域偏移下性能急剧下降,且标准不确定性方法无法有效检测这种性能退化。
- 提出一种轻量级微调门控机制,通过恢复模型校准,实现模型在不确定情况下的有效拒绝预测。
- 实验表明,该方法能显著降低模型在领域偏移下的错误预测率,提升模型在实际场景中的安全性。
📝 摘要(中文)
本文研究了骨骼动作识别中严重的领域偏移问题,即从受控的多视角3D骨骼捕获过渡到无约束的单目2D姿态估计。作者使用Gym2D数据集(风格/视角偏移)和UCF101数据集(语义偏移)对这种领域偏移进行了系统研究。实验表明,Skeleton Transformer在NTU-120数据集上取得了63.2%的跨主体准确率,但在零样本迁移到Gym领域时降至1.6%,在UCF101上降至1.16%。此外,作者还发现,高的OOD检测AUROC并不能保证安全的选择性分类,标准的不确定性方法无法检测到这种性能下降。虽然基于能量的评分和马氏距离提供了可靠的分布检测信号,但当做出决策时,高AUROC分数与较差的风险覆盖行为并存。最后,作者提出了一种轻量级的微调门控机制,恢复了校准并实现了优雅的拒绝,从而大大降低了错误预测的概率。这项工作挑战了标准的部署假设,并为语义和几何骨骼识别部署提供了原则性的安全分析。
🔬 方法详解
问题定义:论文旨在解决骨骼动作识别中由于领域偏移导致的性能急剧下降问题。现有方法在受控环境下表现良好,但在实际应用中,由于视角、风格和语义的差异,模型性能会显著降低。此外,现有的不确定性估计方法无法有效检测这种性能下降,导致模型在不确定情况下仍然给出高置信度的错误预测。
核心思路:论文的核心思路是通过引入一个轻量级的门控机制,对模型的预测结果进行校准。该门控机制能够学习区分来自不同领域的数据,并根据数据的置信度决定是否接受模型的预测结果。当模型对某个样本的预测置信度较低时,门控机制会拒绝该预测,从而避免错误的预测结果。
技术框架:整体框架包括一个预训练的骨骼动作识别模型(Skeleton Transformer)和一个微调的门控机制。首先,使用源域数据训练Skeleton Transformer。然后,使用目标域数据微调门控机制。在推理阶段,Skeleton Transformer给出预测结果,门控机制根据预测结果的置信度决定是否接受该预测。
关键创新:论文的关键创新在于提出了一种轻量级的微调门控机制,该机制能够有效地校准模型的预测结果,并实现优雅的拒绝预测。与现有的不确定性估计方法相比,该方法能够更好地适应领域偏移带来的影响,并提高模型在实际应用中的安全性。
关键设计:门控机制采用一个简单的神经网络结构,输入为Skeleton Transformer的输出特征。损失函数包括交叉熵损失和校准损失。校准损失用于惩罚模型的高置信度错误预测。微调过程中,只更新门控机制的参数,保持Skeleton Transformer的参数不变。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的微调门控机制能够显著降低模型在Gym2D和UCF101数据集上的错误预测率。在50%覆盖率下,风险从99.6%降低到可接受水平。能量评分和马氏距离在OOD检测上表现良好(AUROC >= 0.91),但与风险覆盖率相比,微调门控机制在实际决策中表现更优。
🎯 应用场景
该研究成果可应用于智能健身、康复训练、人机交互等领域。通过提高骨骼动作识别模型在复杂环境下的鲁棒性和安全性,可以为用户提供更可靠、更智能的服务。例如,在智能健身场景中,可以准确识别用户的动作,并提供个性化的指导和反馈。在康复训练场景中,可以监测患者的康复进度,并及时调整训练计划。
📄 摘要(原文)
The practical deployment gap -- transitioning from controlled multi-view 3D skeleton capture to unconstrained monocular 2D pose estimation -- introduces a compound domain shift whose safety implications remain critically underexplored. We present a systematic study of this severe domain shift using a novel Gym2D dataset (style/viewpoint shift) and the UCF101 dataset (semantic shift). Our Skeleton Transformer achieves 63.2% cross-subject accuracy on NTU-120 but drops to 1.6% under zero-shot transfer to the Gym domain and 1.16% on UCF101. Critically, we demonstrate that high Out-Of-Distribution (OOD) detection AUROC does not guarantee safe selective classification. Standard uncertainty methods fail to detect this performance drop: the model remains confidently incorrect with 99.6% risk even at 50% coverage across both OOD datasets. While energy-based scoring (AUROC >= 0.91) and Mahalanobis distance provide reliable distributional detection signals, such high AUROC scores coexist with poor risk-coverage behavior when making decisions. A lightweight finetuned gating mechanism restores calibration and enables graceful abstention, substantially reducing the rate of confident wrong predictions. Our work challenges standard deployment assumptions, providing a principled safety analysis of both semantic and geometric skeleton recognition deployment.