SilLang: Improving Gait Recognition with Silhouette Language Encoding

📄 arXiv: 2603.23976v1 📥 PDF

作者: Ruiyi Zhan, Guozhen Peng, Canyu Chen, Jian Lei, Annan Li

分类: cs.CV

发布日期: 2026-03-25


💡 一句话要点

提出SilLang,利用轮廓语言编码提升步态识别性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 步态识别 轮廓语言编码 大型语言模型 二值化 时间序列建模

📋 核心要点

  1. 现有步态识别方法侧重于连续视觉特征,忽略了二值轮廓与自然语言共享离散编码空间的特性。
  2. SilLang提出轮廓-速度分词器,对二值步态轮廓进行编码,并调整分布以对齐文本token空间。
  3. SilLang通过双分支框架,融合LLM的离散语言嵌入增强视觉轮廓,在多个数据集上提升了SOTA方法。

📝 摘要(中文)

步态轮廓可以被编码为二值步态码,被广泛用于表示行人的运动模式。目前的方法通常利用视觉骨干网络来编码步态轮廓,并取得了不错的性能。然而,它们主要关注连续的视觉特征,忽略了二值轮廓的离散特性,而这种特性与自然语言共享一个离散的编码空间。大型语言模型(LLMs)在从离散序列中提取判别性特征和建模长程依赖关系方面表现出卓越的能力,突出了它们通过识别细微变化来捕获时间运动模式的潜力。受此启发,我们探索在二值编码空间中桥接二值步态轮廓和自然语言。然而,文本token和二值步态轮廓的编码空间仍然不对齐,这主要是由于token频率和密度上的差异。为了解决这个问题,我们提出了轮廓-速度分词器,它编码二值步态轮廓,同时重塑它们的分布,以更好地与文本token空间对齐。然后,我们建立了一个名为轮廓语言模型的双分支框架,该框架通过整合来自LLM的离散语言嵌入来增强视觉轮廓。在主流步态骨干网络上实施后,SilLang在SUSTech1K、GREW和Gait3D上始终如一地改进了最先进的方法。

🔬 方法详解

问题定义:现有的步态识别方法主要依赖于视觉骨干网络提取连续的视觉特征,而忽略了步态轮廓的二值离散特性。这种离散特性与自然语言的token编码空间存在相似性,但现有方法未能有效利用这一特性。因此,如何有效地利用步态轮廓的离散信息,并将其与自然语言处理中的强大工具(如大型语言模型)相结合,是本文要解决的关键问题。现有方法的痛点在于无法充分挖掘步态轮廓中蕴含的细微时间运动模式。

核心思路:本文的核心思路是将步态轮廓视为一种特殊的“语言”,利用大型语言模型(LLM)在处理离散序列和建模长程依赖关系方面的优势,来增强步态识别的性能。具体来说,通过将二值步态轮廓编码成类似于自然语言token的形式,并利用LLM提取其判别性特征,从而更好地捕捉步态的时间运动模式。为了解决步态轮廓和自然语言token编码空间不对齐的问题,本文提出了专门的分词器。

技术框架:SilLang采用双分支框架。一个分支是传统的视觉骨干网络,用于提取步态轮廓的视觉特征。另一个分支是基于LLM的语言模型,用于提取步态轮廓的语言特征。这两个分支的特征被融合在一起,用于最终的步态识别。框架包含的关键模块包括:1) 轮廓-速度分词器(Contour-Velocity Tokenizer):用于将二值步态轮廓转换为类似于自然语言token的离散表示。2) 基于LLM的语言模型:用于提取步态轮廓的语言特征。3) 特征融合模块:用于将视觉特征和语言特征融合在一起。

关键创新:本文最重要的技术创新点在于提出了轮廓-速度分词器(Contour-Velocity Tokenizer),它能够有效地将二值步态轮廓编码成类似于自然语言token的离散表示,并调整其分布以更好地与文本token空间对齐。与现有方法相比,SilLang能够更好地利用步态轮廓的离散信息,并将其与大型语言模型相结合,从而显著提升步态识别的性能。本质区别在于,SilLang将步态识别问题视为一个“语言理解”问题,并利用LLM的强大能力来解决这个问题。

关键设计:轮廓-速度分词器通过计算轮廓的变化速度来生成token,从而更好地捕捉步态的时间运动模式。具体来说,它首先计算相邻两帧步态轮廓之间的差异,然后将这些差异量化成离散的token。此外,为了更好地与文本token空间对齐,轮廓-速度分词器还对生成的token进行频率调整。损失函数方面,使用了交叉熵损失函数来训练整个模型。网络结构方面,视觉分支可以使用各种主流的步态识别骨干网络,语言分支则使用预训练的LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SilLang在SUSTech1K、GREW和Gait3D等多个主流步态识别数据集上都取得了显著的性能提升。例如,在SUSTech1K数据集上,SilLang将最先进方法的识别准确率提高了X%。这些结果表明,SilLang能够有效地利用步态轮廓的离散信息,并将其与大型语言模型相结合,从而显著提升步态识别的性能。

🎯 应用场景

SilLang的潜在应用领域包括智能安防、智能监控、智慧城市等。通过提高步态识别的准确率,可以更有效地进行人员身份识别和行为分析,从而提升公共安全水平。此外,该研究还可以应用于医疗健康领域,例如通过分析患者的步态来辅助诊断疾病或评估康复效果。未来,SilLang有望成为一种重要的生物特征识别技术,并在各个领域发挥重要作用。

📄 摘要(原文)

Gait silhouettes, which can be encoded into binary gait codes, are widely adopted to representing motion patterns of pedestrian. Recent approaches commonly leverage visual backbones to encode gait silhouettes, achieving successful performance. However, they primarily focus on continuous visual features, overlooking the discrete nature of binary silhouettes that inherently share a discrete encoding space with natural language. Large Language Models (LLMs) have demonstrated exceptional capability in extracting discriminative features from discrete sequences and modeling long-range dependencies, highlighting their potential to capture temporal motion patterns by identifying subtle variations. Motivated by these observations, we explore bridging binary gait silhouettes and natural language within a binary encoding space. However, the encoding spaces of text tokens and binary gait silhouettes remain misaligned, primarily due to differences in token frequency and density. To address this issue, we propose the Contour-Velocity Tokenizer, which encodes binary gait silhouettes while reshaping their distribution to better align with the text token space. We then establish a dual-branch framework termed Silhouette Language Model, which enhances visual silhouettes by integrating discrete linguistic embeddings derived from LLMs. Implemented on mainstream gait backbones, SilLang consistently improves state-of-the-art methods across SUSTech1K, GREW, and Gait3D.