Text-guided Feature Disentanglement for Cross-modal Gait Recognition

作者: Zhiyang Lu, Ming Cheng

分类: cs.CV

发布日期: 2026-05-29

备注: Accept by CVPR2026

💡 一句话要点

提出TCFDNet，利用文本引导特征解耦实现LiDAR-Camera跨模态步态识别

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨模态步态识别 特征解耦 文本引导 视觉语言模型 模态差异

📋 核心要点

现有跨模态步态识别方法难以有效弥合LiDAR和RGB相机数据之间的巨大模态差异，导致识别精度受限。
利用大型语言模型构建步态模态文本字典，通过文本引导特征解耦，学习模态共享和模态特定的解耦表示。
在SUSTech1K和FreeGait数据集上取得了SOTA结果，验证了文本引导特征解耦和特征稳定性增强模块的有效性。

📝 摘要（中文）

本文提出了一种文本引导的跨模态特征解耦网络TCFDNet，用于解决LiDAR-Camera跨模态步态识别(LCCGR)中2D视频和3D点云序列之间巨大模态差异带来的挑战。该方法利用模态感知的文本先验作为语义锚点，引导学习解耦的模态共享表示。具体而言，构建了一个步态模态文本字典(GMTD)，使用大型语言模型生成跨模态和视角的丰富步态语义描述。然后，基于CLIP的多粒度特征编码器在统一的视觉-语言空间中对齐视觉和文本特征。此外，文本引导的特征解耦(TFD)模块选择topk匹配的文本描述来重建模态特定表示，并通过残差分解和正交性约束导出模态共享特征。为了减轻解耦共享特征的脆弱性，提出了特征稳定性增强(FSE)模块，该模块对空间和通道相关性进行建模以提高特征鲁棒性。此外，引入了一种跨模态补丁交换策略，以进一步提高泛化能力。在SUSTech1K和FreeGait数据集上的大量实验表明，TCFDNet取得了新的state-of-the-art结果，并验证了所提出模块的有效性。

🔬 方法详解

问题定义：论文旨在解决LiDAR-Camera跨模态步态识别(LCCGR)问题。现有方法难以有效处理2D视频和3D点云序列之间巨大的模态差异，导致识别精度不高。现有方法通常直接进行特征对齐，忽略了模态特定信息，并且提取的共享特征可能不够鲁棒。

核心思路：论文的核心思路是利用文本信息作为桥梁，引导视觉特征的解耦，从而学习到更具判别性和鲁棒性的模态共享特征。通过将视觉特征与文本描述对齐，可以更好地捕捉步态的语义信息，并区分模态特定和模态共享的特征。

技术框架：TCFDNet包含以下主要模块：1) Gait Modality Text Dictionary (GMTD)：利用大型语言模型生成步态的文本描述。2) CLIP-based Multi-grained Feature Encoder：将视觉和文本特征编码到统一的视觉-语言空间。3) Text-guided Feature Disentanglement (TFD) module：利用文本信息解耦模态特定和模态共享的特征。4) Feature Stability Enhancement (FSE) module：增强解耦特征的鲁棒性。5) Cross-modal patch exchange strategy：进一步提高泛化能力。

关键创新：论文的关键创新在于：1) 提出了一种文本引导的特征解耦方法，利用文本信息作为语义锚点，引导学习模态共享和模态特定的解耦表示。2) 设计了特征稳定性增强模块，通过建模空间和通道相关性来提高解耦特征的鲁棒性。3) 引入了跨模态补丁交换策略，进一步提高模型的泛化能力。

关键设计：GMTD使用预训练的大型语言模型生成不同模态和视角的步态描述。TFD模块通过残差分解和正交性约束来分离模态特定和模态共享的特征。FSE模块使用注意力机制建模空间和通道相关性。损失函数包括对比损失、三元组损失和正交性约束损失。

🖼️ 关键图片

📊 实验亮点

TCFDNet在SUSTech1K和FreeGait数据集上取得了新的state-of-the-art结果。在SUSTech1K数据集上，Rank-1准确率相较于现有最佳方法提升了超过5%。消融实验验证了各个模块的有效性，例如TFD模块和FSE模块都显著提升了识别精度。

🎯 应用场景

该研究成果可应用于智能安防、智慧城市等领域，例如在远距离、非侵入式的场景下，通过分析行人的步态特征，实现身份识别和追踪。该技术在光线不足、遮挡等复杂环境下具有优势，能够有效提升监控系统的智能化水平。

📄 摘要（原文）

Gait recognition is a biometric technique that identifies individuals based on their walking patterns, offering advantages in long-range, non-intrusive scenarios. However, real-world scenarios often involve heterogeneous sensing modalities such as LiDAR and RGB cameras, making LiDAR-Camera Cross-modal Gait recognition (LCCGR) a critical yet challenging task due to the substantial modality gap between 2D videos and 3D point cloud sequences. To address this challenge, we propose TCFDNet, a Text-guided Cross-modal Feature Disentanglement Network, which leverages modality-aware textual priors as semantic anchors to guide the learning of disentangled modality-shared representations. Specifically, we construct a Gait Modality Text Dictionary (GMTD) using large language models to generate rich semantic descriptions of gait across modalities and viewpoints. A CLIP-based Multi-grained Feature Encoder then aligns visual and textual features within a unified vision-language space. Furthermore, the Text-guided Feature Disentanglement (TFD) module selects the topk matched textual descriptions to reconstruct modality-specific representations and derive modality-shared features via residual decomposition and orthogonality constraints. To mitigate the fragility of the disentangled shared features, we propose a Feature Stability Enhancement (FSE) module, which models spatial and channel-wise correlations to improve feature robustness. In addition, a cross-modal patch exchange strategy is introduced to further improve generalization. Extensive experiments on SUSTech1K and FreeGait datasets demonstrate that TCFDNet achieves new state-of-the-art results and validate the effectiveness of the proposed modules.

Text-guided Feature Disentanglement for Cross-modal Gait Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理