Silhouette-based Gait Foundation Model

📄 arXiv: 2512.00691v1 📥 PDF

作者: Dingqiang Ye, Chao Fan, Kartik Narayan, Bingzhe Wu, Chengwen Luo, Jianqiang Li, Vishal M. Patel

分类: cs.CV

发布日期: 2025-11-30

🔗 代码/项目: GITHUB


💡 一句话要点

提出FoundationGait,首个可扩展的步态自监督预训练框架,提升多种步态任务性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 步态识别 基础模型 自监督学习 预训练 Transformer 人体识别 健康分析

📋 核心要点

  1. 现有步态模型难以扩展和泛化,无法满足多样化的步态分析任务需求。
  2. 提出FoundationGait,通过大规模自监督预训练,学习通用的步态表征。
  3. 实验表明,FoundationGait在多种步态任务和数据集上表现出色,显著提升了零样本识别精度。

📝 摘要(中文)

步态模式在人体识别和健康分析中起着关键作用,但当前进展受到小型、设计狭隘的模型限制,这些模型无法扩展或泛化。构建统一的步态基础模型需要解决两个长期存在的障碍:(a)可扩展性。为什么步态模型在历史上未能遵循缩放定律?(b)泛化性。一个模型能否服务于传统上孤立研究的各种步态任务?我们介绍了FoundationGait,这是第一个可扩展的、用于步态理解的自监督预训练框架。其最大版本拥有近0.13亿个参数,并在包含超过200万个行走序列的12个公共步态数据集上进行了预训练。大量实验表明,FoundationGait无论是否经过微调,都能在各种步态数据集、条件、任务(例如,人体识别、脊柱侧弯筛查、抑郁症预测和属性估计)甚至输入模态上表现出色。值得注意的是,它在具有挑战性的野外Gait3D数据集(1,000个测试对象)上实现了48.0%的零样本rank-1准确率,在最大的实验室OU-MVLP数据集(5,000+个测试对象)上实现了64.5%的零样本rank-1准确率,为鲁棒步态识别树立了新的里程碑。代码和模型即将发布。

🔬 方法详解

问题定义:现有步态识别模型通常规模较小,针对特定数据集和任务设计,泛化能力差,难以适应真实场景中复杂多变的步态数据。缺乏一个通用的、可扩展的步态基础模型,阻碍了步态分析技术的发展。

核心思路:论文的核心思路是通过大规模的自监督预训练,学习一个通用的步态表征。通过在大量步态数据上进行预训练,模型可以学习到步态数据的内在结构和特征,从而在各种下游任务中表现出色。这种方法类似于自然语言处理中的预训练语言模型,旨在解决步态识别领域的数据稀缺和泛化性问题。

技术框架:FoundationGait的整体框架包括数据预处理、自监督预训练和下游任务微调三个主要阶段。首先,对收集到的步态数据进行预处理,例如提取轮廓信息。然后,使用自监督学习方法在大规模数据集上预训练模型,学习步态表征。最后,将预训练好的模型迁移到各种下游任务中,例如人体识别、疾病诊断等,并进行微调以适应特定任务。

关键创新:该论文的关键创新在于提出了第一个可扩展的步态基础模型FoundationGait,并采用自监督学习方法进行预训练。与以往的步态识别模型相比,FoundationGait具有更大的规模和更强的泛化能力,能够适应各种步态数据集、条件和任务。此外,论文还探索了步态模型的缩放规律,为未来步态模型的设计提供了指导。

关键设计:FoundationGait使用了Transformer架构作为主干网络,并设计了一种新的自监督学习任务,称为“masked gait modeling”。该任务类似于自然语言处理中的masked language modeling,通过随机遮蔽部分步态序列,并让模型预测被遮蔽的部分,从而学习步态数据的内在结构。此外,论文还采用了多种数据增强技术,例如随机裁剪、旋转等,以提高模型的鲁棒性。

📊 实验亮点

FoundationGait在多个步态数据集上取得了显著的性能提升。在具有挑战性的野外Gait3D数据集上,实现了48.0%的零样本rank-1准确率,在最大的实验室OU-MVLP数据集上实现了64.5%的零样本rank-1准确率。这些结果表明,FoundationGait具有很强的泛化能力和鲁棒性,能够适应各种复杂的步态场景。

🎯 应用场景

FoundationGait具有广泛的应用前景,包括但不限于:安全监控(步态识别)、医疗健康(疾病诊断、康复评估)、人机交互(步态控制)、运动分析等。该研究有望推动步态分析技术在各个领域的应用,并为人们的生活带来便利和改善。

📄 摘要(原文)

Gait patterns play a critical role in human identification and healthcare analytics, yet current progress remains constrained by small, narrowly designed models that fail to scale or generalize. Building a unified gait foundation model requires addressing two longstanding barriers: (a) Scalability. Why have gait models historically failed to follow scaling laws? (b) Generalization. Can one model serve the diverse gait tasks that have traditionally been studied in isolation? We introduce FoundationGait, the first scalable, self-supervised pretraining framework for gait understanding. Its largest version has nearly 0.13 billion parameters and is pretrained on 12 public gait datasets comprising over 2 million walking sequences. Extensive experiments demonstrate that FoundationGait, with or without fine-tuning, performs robustly across a wide spectrum of gait datasets, conditions, tasks (e.g., human identification, scoliosis screening, depression prediction, and attribute estimation), and even input modality. Notably, it achieves 48.0% zero-shot rank-1 accuracy on the challenging in-the-wild Gait3D dataset (1,000 test subjects) and 64.5% on the largest in-the-lab OU-MVLP dataset (5,000+ test subjects), setting a new milestone in robust gait recognition. Coming code and model: https://github.com/ShiqiYu/OpenGait.