Text-guided Feature Disentanglement for Cross-modal Gait Recognition
作者: Zhiyang Lu, Ming Cheng
分类: cs.CV
发布日期: 2026-05-29
备注: Accept by CVPR2026
💡 一句话要点
提出TCFDNet,利用文本引导特征解耦实现LiDAR-Camera跨模态步态识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨模态步态识别 特征解耦 文本引导 视觉语言模型 模态差异
📋 核心要点
- 现有跨模态步态识别方法难以有效弥合LiDAR和RGB相机数据之间的巨大模态差异,导致识别精度受限。
- 利用大型语言模型构建步态模态文本字典,通过文本引导特征解耦,学习模态共享和模态特定的解耦表示。
- 在SUSTech1K和FreeGait数据集上取得了SOTA结果,验证了文本引导特征解耦和特征稳定性增强模块的有效性。
📝 摘要(中文)
本文提出了一种文本引导的跨模态特征解耦网络TCFDNet,用于解决LiDAR-Camera跨模态步态识别(LCCGR)中2D视频和3D点云序列之间巨大模态差异带来的挑战。该方法利用模态感知的文本先验作为语义锚点,引导学习解耦的模态共享表示。具体而言,构建了一个步态模态文本字典(GMTD),使用大型语言模型生成跨模态和视角的丰富步态语义描述。然后,基于CLIP的多粒度特征编码器在统一的视觉-语言空间中对齐视觉和文本特征。此外,文本引导的特征解耦(TFD)模块选择topk匹配的文本描述来重建模态特定表示,并通过残差分解和正交性约束导出模态共享特征。为了减轻解耦共享特征的脆弱性,提出了特征稳定性增强(FSE)模块,该模块对空间和通道相关性进行建模以提高特征鲁棒性。此外,引入了一种跨模态补丁交换策略,以进一步提高泛化能力。在SUSTech1K和FreeGait数据集上的大量实验表明,TCFDNet取得了新的state-of-the-art结果,并验证了所提出模块的有效性。
🔬 方法详解
问题定义:论文旨在解决LiDAR-Camera跨模态步态识别(LCCGR)问题。现有方法难以有效处理2D视频和3D点云序列之间巨大的模态差异,导致识别精度不高。现有方法通常直接进行特征对齐,忽略了模态特定信息,并且提取的共享特征可能不够鲁棒。
核心思路:论文的核心思路是利用文本信息作为桥梁,引导视觉特征的解耦,从而学习到更具判别性和鲁棒性的模态共享特征。通过将视觉特征与文本描述对齐,可以更好地捕捉步态的语义信息,并区分模态特定和模态共享的特征。
技术框架:TCFDNet包含以下主要模块:1) Gait Modality Text Dictionary (GMTD):利用大型语言模型生成步态的文本描述。2) CLIP-based Multi-grained Feature Encoder:将视觉和文本特征编码到统一的视觉-语言空间。3) Text-guided Feature Disentanglement (TFD) module:利用文本信息解耦模态特定和模态共享的特征。4) Feature Stability Enhancement (FSE) module:增强解耦特征的鲁棒性。5) Cross-modal patch exchange strategy:进一步提高泛化能力。
关键创新:论文的关键创新在于:1) 提出了一种文本引导的特征解耦方法,利用文本信息作为语义锚点,引导学习模态共享和模态特定的解耦表示。2) 设计了特征稳定性增强模块,通过建模空间和通道相关性来提高解耦特征的鲁棒性。3) 引入了跨模态补丁交换策略,进一步提高模型的泛化能力。
关键设计:GMTD使用预训练的大型语言模型生成不同模态和视角的步态描述。TFD模块通过残差分解和正交性约束来分离模态特定和模态共享的特征。FSE模块使用注意力机制建模空间和通道相关性。损失函数包括对比损失、三元组损失和正交性约束损失。
🖼️ 关键图片
📊 实验亮点
TCFDNet在SUSTech1K和FreeGait数据集上取得了新的state-of-the-art结果。在SUSTech1K数据集上,Rank-1准确率相较于现有最佳方法提升了超过5%。消融实验验证了各个模块的有效性,例如TFD模块和FSE模块都显著提升了识别精度。
🎯 应用场景
该研究成果可应用于智能安防、智慧城市等领域,例如在远距离、非侵入式的场景下,通过分析行人的步态特征,实现身份识别和追踪。该技术在光线不足、遮挡等复杂环境下具有优势,能够有效提升监控系统的智能化水平。
📄 摘要(原文)
Gait recognition is a biometric technique that identifies individuals based on their walking patterns, offering advantages in long-range, non-intrusive scenarios. However, real-world scenarios often involve heterogeneous sensing modalities such as LiDAR and RGB cameras, making LiDAR-Camera Cross-modal Gait recognition (LCCGR) a critical yet challenging task due to the substantial modality gap between 2D videos and 3D point cloud sequences. To address this challenge, we propose TCFDNet, a Text-guided Cross-modal Feature Disentanglement Network, which leverages modality-aware textual priors as semantic anchors to guide the learning of disentangled modality-shared representations. Specifically, we construct a Gait Modality Text Dictionary (GMTD) using large language models to generate rich semantic descriptions of gait across modalities and viewpoints. A CLIP-based Multi-grained Feature Encoder then aligns visual and textual features within a unified vision-language space. Furthermore, the Text-guided Feature Disentanglement (TFD) module selects the topk matched textual descriptions to reconstruct modality-specific representations and derive modality-shared features via residual decomposition and orthogonality constraints. To mitigate the fragility of the disentangled shared features, we propose a Feature Stability Enhancement (FSE) module, which models spatial and channel-wise correlations to improve feature robustness. In addition, a cross-modal patch exchange strategy is introduced to further improve generalization. Extensive experiments on SUSTech1K and FreeGait datasets demonstrate that TCFDNet achieves new state-of-the-art results and validate the effectiveness of the proposed modules.