SkillSight: Efficient First-Person Skill Assessment with Gaze
作者: Chi Hsuan Wu, Kumar Ashutosh, Kristen Grauman
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出SkillSight以解决高效的第一人称技能评估问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 第一人称技能评估 注视信息 蒸馏模型 自我中心视频 高效学习 实时反馈 智能眼镜
📋 核心要点
- 现有方法在自动技能评估方面面临挑战,尤其是在高效处理第一人称数据时。
- 论文提出的SkillSight方法通过联合建模注视和视频,利用注视信息来预测技能水平,进而实现高效评估。
- 实验结果显示,SkillSight在多个领域的应用中表现出色,尤其是其学生模型在功耗上显著优于现有方法。
📝 摘要(中文)
在智能眼镜上的自我中心感知可以改变我们在物理世界中学习新技能的方式,但自动技能评估仍然是一个基本的技术挑战。我们提出了SkillSight,用于从第一人称数据中进行高效的技能评估。我们的核心假设是,技能水平不仅体现在一个人如何执行活动(视频),还体现在他们在执行时如何引导注意力(注视)。我们的两阶段框架首先学习在预测技能水平时联合建模注视和自我中心视频,然后提炼出仅基于注视的学生模型。在推理时,学生模型仅需要注视输入,显著降低了功耗,消除了持续视频处理的需求。我们在涵盖烹饪、音乐和体育的三个数据集上的实验首次确立了注视在技能理解中的重要作用。我们的SkillSight教师模型实现了最先进的性能,而仅基于注视的学生变体在功耗上比竞争方法减少了73倍,同时保持了高准确性。这些结果为野外AI支持的技能学习铺平了道路。
🔬 方法详解
问题定义:本论文旨在解决自动技能评估中的高效性问题,现有方法往往依赖于持续的视频处理,导致功耗高且实时性差。
核心思路:SkillSight的核心思路是利用注视信息来辅助技能评估,认为技能水平不仅体现在执行方式上,还体现在注意力的引导上。通过这种方式,能够在减少视频处理的情况下,依然准确评估技能水平。
技术框架:SkillSight的整体架构分为两个阶段:第一阶段是联合建模注视和自我中心视频以预测技能水平,第二阶段是提炼出一个仅基于注视的学生模型。
关键创新:最重要的技术创新在于提出了注视信息在技能理解中的重要性,并通过蒸馏技术将复杂的教师模型转化为高效的学生模型,显著降低了功耗。
关键设计:在模型设计中,采用了特定的损失函数来平衡注视和视频信息的贡献,并优化了网络结构以提高模型的推理速度和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SkillSight教师模型在多个数据集上达到了最先进的性能,而其学生模型在功耗上减少了73倍,依然保持高准确性。这一成果展示了注视信息在技能评估中的重要性,为未来的AI支持技能学习提供了新的方向。
🎯 应用场景
该研究的潜在应用领域包括教育、培训和运动等多个场景,能够为学习者提供实时的技能反馈,提升学习效率。未来,SkillSight有望在各种实际应用中推广,尤其是在需要高效能和低功耗的移动设备上。
📄 摘要(原文)
Egocentric perception on smart glasses could transform how we learn new skills in the physical world, but automatic skill assessment remains a fundamental technical challenge. We introduce SkillSight for power-efficient skill assessment from first-person data. Central to our approach is the hypothesis that skill level is evident not only in how a person performs an activity (video), but also in how they direct their attention when doing so (gaze). Our two-stage framework first learns to jointly model gaze and egocentric video when predicting skill level, then distills a gaze-only student model. At inference, the student model requires only gaze input, drastically reducing power consumption by eliminating continuous video processing. Experiments on three datasets spanning cooking, music, and sports establish, for the first time, the valuable role of gaze in skill understanding across diverse real-world settings. Our SkillSight teacher model achieves state-of-the-art performance, while our gaze-only student variant maintains high accuracy using 73x less power than competing methods. These results pave the way for in-the-wild AI-supported skill learning.