Semi-Supervised Gaze Estimation via Disentangled Subspace Contrastive Learning

📄 arXiv: 2605.27080v1 📥 PDF

作者: Qida Tan, Hongyu Yang, Wenchao Du

分类: cs.CV

发布日期: 2026-05-26

备注: ICML2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出解耦子空间对比学习的半监督眼球注视估计方法,提升领域泛化性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 眼球注视估计 半监督学习 对比学习 领域泛化 雅可比正则化

📋 核心要点

  1. 现有眼球注视估计方法依赖大量标注数据,且在真实场景中泛化能力不足,是主要挑战。
  2. 通过雅可比正则化解耦特征,并利用子空间内的序数关系进行对比学习,提升模型鲁棒性。
  3. 实验表明,该方法仅使用少量标注数据即可达到甚至超过现有方法的性能,具有实用价值。

📝 摘要(中文)

基于外观的眼球注视估计由于标注样本有限和数据集多样性不足,泛化能力较差。现有方法通常采用弱监督学习,从无约束的真实场景中生成大规模伪标签数据,以缓解领域偏移。本文设计了一种简单而有效的半监督学习架构,利用未标注数据来增强领域泛化能力,从而减少对劳动密集型手动标注的依赖。核心思想是施加雅可比正则化,将特征表示解耦为专用于特定注视分量(如俯仰角和偏航角)的判别性子空间。进一步利用每个子空间内的内在序数排序进行对比学习,使模型能够从小规模标注样本和大量未标注样本中学习鲁棒的注视表示。最终提出了解耦子空间对比学习(DSCL)框架。在多个基准数据集上的大量实验验证了所提出的DSCL具有即插即用的特性,并且仅使用20%、10%甚至5%的标注数据,在域内和跨域评估设置下均实现了具有竞争力的性能。

🔬 方法详解

问题定义:现有的基于外观的眼球注视估计方法,由于标注数据的限制和数据集多样性的不足,在实际应用中泛化能力较差。尤其是在跨域场景下,模型性能会显著下降。现有方法通常依赖大量人工标注数据,成本高昂,且难以覆盖所有可能的场景。因此,如何利用少量标注数据和大量未标注数据,提升模型的领域泛化能力,是本文要解决的核心问题。

核心思路:本文的核心思路是将眼球注视特征解耦为多个子空间,每个子空间对应一个特定的注视分量(如俯仰角和偏航角)。通过雅可比正则化,强制模型学习到解耦的特征表示,使得每个子空间内的特征只与对应的注视分量相关。然后,利用每个子空间内的序数关系进行对比学习,使得模型能够学习到鲁棒的注视表示。这样设计的目的是为了提高模型对不同场景的适应能力,减少对大量标注数据的依赖。

技术框架:DSCL框架主要包含三个模块:特征提取模块、解耦子空间模块和对比学习模块。首先,特征提取模块从输入的眼部图像中提取特征。然后,解耦子空间模块利用雅可比正则化将特征解耦为多个子空间,每个子空间对应一个注视分量。最后,对比学习模块利用每个子空间内的序数关系进行对比学习,使得模型能够学习到鲁棒的注视表示。整个框架采用半监督学习的方式,同时利用标注数据和未标注数据进行训练。

关键创新:本文最重要的技术创新点在于提出了解耦子空间对比学习(DSCL)框架。与现有方法相比,DSCL能够将眼球注视特征解耦为多个子空间,并利用每个子空间内的序数关系进行对比学习。这种解耦和对比学习的方式能够显著提高模型的领域泛化能力,减少对大量标注数据的依赖。

关键设计:在解耦子空间模块中,使用了雅可比正则化来强制模型学习到解耦的特征表示。雅可比正则化的具体形式为:$L_{Jacobian} = ||J^T J - I||F^2$,其中J是特征对注视角度的雅可比矩阵,I是单位矩阵。在对比学习模块中,使用了InfoNCE损失函数来学习鲁棒的注视表示。InfoNCE损失函数的具体形式为:$L{InfoNCE} = -log \frac{exp(sim(x_i, x_i^+)/τ)}{\sum_{j=1}^N exp(sim(x_i, x_j)/τ)}$,其中$x_i$是锚点,$x_i^+$是正样本,$x_j$是负样本,τ是温度系数,sim是相似度函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DSCL在多个基准数据集上取得了显著的性能提升。例如,在MPIIGaze数据集上,仅使用20%的标注数据,DSCL的性能就超过了使用全部标注数据的现有方法。在跨域评估中,DSCL也表现出更强的鲁棒性,证明了其良好的领域泛化能力。此外,消融实验验证了雅可比正则化和对比学习模块的有效性。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、辅助驾驶等领域。通过更精确的眼球注视估计,可以实现更自然、更智能的人机交互方式。在辅助驾驶中,可以利用眼球注视信息来判断驾驶员的注意力状态,提高驾驶安全性。此外,该方法在医疗诊断、市场调研等领域也具有潜在的应用价值。

📄 摘要(原文)

Appearance-based gaze estimation always suffers from poor generalization due to limited annotated samples and insufficient dataset diversity. Leading approaches adopt weakly supervised learning to generate large-scale pseudo-labeled data from unconstrained real-world scenarios, aiming to mitigate the domain shifts. In this work, we devise a simple yet effective semi-supervised learning architecture that leverages unlabeled data to enhance domain generalization, thereby reducing reliance on labor-intensive manual annotations. Our key insight is to impose Jacobian regularization to disentangle feature representations into discriminative subspaces dedicated to specific gaze components, such as pitch and yaw angles. We further exploit the intrinsic ordinal ranking within each subspace for contrastive learning, enabling the model to learn robust gaze representations from a small set of labeled samples and an abundance of unlabeled ones. This ultimately yields our Disentangled Subspace Contrastive Learning (DSCL) framework. Extensive experiments on multiple benchmarks verify that the proposed DSCL is plug-and-play, achieving competitive performance using only 20\%, 10\%, and even 5\% of the annotated data under both in-domain and cross-domain evaluation settings. The public code is available at \href{https://github.com/da60266/DSCL}{https://github.com/da60266/DSCL}.