Eye image segmentation using visual and concept prompts with Segment Anything Model 3 (SAM3)
作者: Diederick C. Niehorster, Marcus Nyström
分类: cs.CV, cs.AI
发布日期: 2026-03-18
💡 一句话要点
评估SAM3在眼部图像分割任务中的性能,并与SAM2对比。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 眼部图像分割 Segment Anything Model SAM3 SAM2 视觉提示 概念提示 零样本学习 眼动追踪
📋 核心要点
- 视觉基础模型在眼部图像分割中展现出零样本学习的潜力,但仍需进一步探索。
- 本文对比SAM3与SAM2在眼部图像分割上的表现,并测试SAM3的概念提示能力。
- 实验结果表明,SAM3在眼部图像分割任务中并未超越SAM2,且速度较慢。
📝 摘要(中文)
本文评估了Segment Anything Model 3 (SAM3)在眼部图像分割任务中的性能,并与SAM2进行了比较,同时探索了SAM3新的概念(文本)提示模式的性能。研究使用了包含实验室高质量视频和TEyeD数据集(具有挑战性的真实场景眼部视频)的多个数据集进行评估。结果表明,在大多数情况下,无论是使用视觉提示还是概念提示,SAM3的性能均未优于SAM2。由于SAM2不仅性能更好,而且速度更快,因此得出结论:SAM2仍然是眼部图像分割的最佳选择。此外,本文还提供了SAM3代码库的修改版本,允许处理任意时长的视频。
🔬 方法详解
问题定义:论文旨在评估SAM3在眼部图像分割任务中的性能,并与SAM2进行比较。现有方法,即SAM2,虽然表现良好,但研究者希望探索SAM3是否能进一步提升性能,尤其是在引入概念提示后。同时,真实场景下的眼部图像分割仍然具有挑战性,需要更强大的模型。
核心思路:论文的核心思路是直接比较SAM3和SAM2在不同数据集上的眼部图像分割性能。通过使用视觉提示和概念提示,评估SAM3的分割精度和速度,从而确定其是否优于SAM2。
技术框架:论文采用了一种直接的评估框架。首先,选择包含实验室环境和真实场景的眼部图像数据集。然后,使用SAM3和SAM2进行眼部图像分割,分别采用视觉提示和概念提示。最后,通过指标(具体指标未知)比较两种模型的分割性能和速度。此外,论文还对SAM3的代码库进行了修改,使其能够处理任意时长的视频。
关键创新:论文的主要创新在于对SAM3在眼部图像分割任务中的性能进行了全面的评估,并与SAM2进行了直接比较。虽然结果表明SAM3并未超越SAM2,但这项研究为后续研究提供了重要的参考,并指出了SAM3在眼部图像分割方面的局限性。此外,对SAM3代码库的修改也具有一定的实用价值。
关键设计:论文的关键设计包括数据集的选择(涵盖不同场景和质量的眼部图像),提示方式的选择(视觉提示和概念提示),以及性能评估指标的选择(具体指标未知)。此外,对SAM3代码库的修改细节也可能影响最终的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在大多数情况下,SAM3在眼部图像分割任务中的性能并未优于SAM2,无论是在实验室数据集还是真实场景数据集上。此外,SAM2的运行速度也快于SAM3。因此,论文得出结论:SAM2仍然是眼部图像分割的最佳选择。论文还提供了SAM3代码库的修改版本,允许处理任意时长的视频。
🎯 应用场景
该研究结果可应用于眼动追踪、人机交互、眼部疾病诊断等领域。通过精确的眼部图像分割,可以提高眼动追踪的精度,改善人机交互的自然性,并辅助医生进行眼部疾病的早期诊断。未来的研究可以探索如何进一步优化SAM模型,使其在眼部图像分割任务中取得更好的性能。
📄 摘要(原文)
Previous work has reported that vision foundation models show promising zero-shot performance in eye image segmentation. Here we examine whether the latest iteration of the Segment Anything Model, SAM3, offers better eye image segmentation performance than SAM2, and explore the performance of its new concept (text) prompting mode. Eye image segmentation performance was evaluated using diverse datasets encompassing both high-resolution high-quality videos from a lab environment and the TEyeD dataset consisting of challenging eye videos acquired in the wild. Results show that in most cases SAM3 with either visual or concept prompts did not perform better than SAM2, for both lab and in-the-wild datasets. Since SAM2 not only performed better but was also faster, we conclude that SAM2 remains the best option for eye image segmentation. We provide our adaptation of SAM3's codebase that allows processing videos of arbitrary duration.