Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images

📄 arXiv: 2410.08926v3 📥 PDF

作者: Virmarie Maquiling, Sean Anthony Byrne, Diederick C. Niehorster, Marco Carminati, Enkelejda Kasneci

分类: cs.CV, cs.AI, cs.HC

发布日期: 2024-10-11 (更新: 2025-01-13)

备注: Virmarie Maquiling and Sean Anthony Byrne contributed equally to this paper, 8 pages, 3 figures, ETRA 2025, pre-print


💡 一句话要点

利用SAM 2实现零样本瞳孔分割,在超1400万图像上达到媲美专用模型的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 瞳孔分割 零样本学习 视觉基础模型 SAM 2 眼动追踪 深度学习 图像分割

📋 核心要点

  1. 现有瞳孔分割方法依赖大量标注数据和领域特定模型,标注成本高昂且泛化性受限。
  2. 论文利用SAM 2的零样本分割能力,仅需少量用户交互即可实现高精度的瞳孔分割。
  3. 实验表明,SAM 2在多个大规模眼动追踪数据集上,无需微调即可达到与专用模型相当的性能。

📝 摘要(中文)

本文探索了视觉基础模型SAM 2在推进注视估计和眼动追踪技术方面的变革潜力。SAM 2通过显著减少标注时间、降低部署的技术门槛以及提高分割精度,解决了研究人员和从业者面临的关键挑战。我们利用其零样本分割能力,仅需最少的用户输入(每个视频一次点击),在来自不同数据集的超过1400万张眼睛图像上测试了SAM 2,这些数据集包括虚拟现实设置和使用可穿戴眼动仪记录的世界上最大的统一数据集。值得注意的是,在瞳孔分割任务中,SAM 2的性能与仅在眼睛图像上训练的领域特定模型相匹配,在没有微调的情况下,实现了高达93%的具有竞争力的平均交并比(mIoU)分数。此外,我们提供了这些广泛使用的数据集的代码和分割掩码,以促进进一步的研究。

🔬 方法详解

问题定义:论文旨在解决瞳孔分割任务中对大量标注数据的依赖问题。现有方法通常需要针对特定数据集训练专门的模型,这不仅耗时耗力,而且在面对新的、未见过的数据集时,性能往往会显著下降。因此,如何利用少量标注甚至零标注数据,实现鲁棒且准确的瞳孔分割,是本文要解决的核心问题。

核心思路:论文的核心思路是利用视觉基础模型SAM 2的强大泛化能力,实现零样本的瞳孔分割。SAM 2在海量图像数据上进行了预训练,具备了强大的图像理解和分割能力。通过简单的用户交互(例如,在瞳孔区域点击一下),SAM 2即可生成高质量的分割掩码,从而避免了对大量标注数据的需求。

技术框架:论文的技术框架主要包括以下几个步骤:1) 数据准备:收集来自不同数据集的眼睛图像,包括虚拟现实设置和可穿戴眼动仪记录的数据。2) 用户交互:对于每张图像,用户在瞳孔区域点击一下,作为SAM 2的输入提示。3) SAM 2分割:利用SAM 2的零样本分割能力,根据用户提供的点击提示,生成瞳孔的分割掩码。4) 性能评估:使用平均交并比(mIoU)等指标,评估SAM 2的分割性能,并与领域特定模型进行比较。

关键创新:论文最重要的技术创新点在于成功地将视觉基础模型SAM 2应用于瞳孔分割任务,实现了零样本的分割效果。与传统的监督学习方法相比,该方法无需针对特定数据集进行训练,大大降低了标注成本和模型部署的难度。此外,论文还验证了SAM 2在多个大规模眼动追踪数据集上的泛化能力,证明了其在实际应用中的潜力。

关键设计:论文的关键设计在于充分利用了SAM 2的零样本分割能力。具体来说,论文没有对SAM 2进行任何微调,而是直接将其应用于瞳孔分割任务。用户只需要提供一个简单的点击提示,SAM 2即可生成高质量的分割掩码。这种设计简化了模型部署流程,降低了使用门槛,使得更多研究人员和从业者可以轻松地利用SAM 2进行瞳孔分割。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAM 2在瞳孔分割任务中,无需微调即可达到与领域特定模型相当的性能,平均交并比(mIoU)高达93%。该结果在超过1400万张眼睛图像上进行了验证,涵盖了多种不同的数据集和场景,充分证明了SAM 2的泛化能力和实用价值。

🎯 应用场景

该研究成果可广泛应用于眼动追踪、人机交互、虚拟现实等领域。零样本瞳孔分割技术能够降低数据标注成本,加速相关算法的开发和部署。未来,该技术有望应用于智能辅助驾驶、医疗诊断等领域,提升系统的智能化水平和用户体验。

📄 摘要(原文)

We explore the transformative potential of SAM 2, a vision foundation model, in advancing gaze estimation and eye tracking technologies. By significantly reducing annotation time, lowering technical barriers through its ease of deployment, and enhancing segmentation accuracy, SAM 2 addresses critical challenges faced by researchers and practitioners. Utilizing its zero-shot segmentation capabilities with minimal user input-a single click per video-we tested SAM 2 on over 14 million eye images from diverse datasets, including virtual reality setups and the world's largest unified dataset recorded using wearable eye trackers. Remarkably, in pupil segmentation tasks, SAM 2 matches the performance of domain-specific models trained solely on eye images, achieving competitive mean Intersection over Union (mIoU) scores of up to 93% without fine-tuning. Additionally, we provide our code and segmentation masks for these widely used datasets to promote further research.