Understanding-Enhanced Model Collaboration for Long-Tailed Egocentric Mistake Detection

📄 arXiv: 2606.02120v1 📥 PDF

作者: Boyu Han, Qianqian Xu, Shilong Bao, Zhiyong Yang, Ruochen Cui, Qingming Huang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-06-01


💡 一句话要点

提出UE-MCM模型,解决长尾分布下以自我为中心的错误动作检测问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 自我中心视频 错误动作检测 长尾分布 模型协作 视频理解

📋 核心要点

  1. 现有方法难以有效检测以自我为中心的视频中细微、罕见和模糊的错误动作,尤其是在长尾分布下。
  2. UE-MCM方法通过结合粗粒度视频理解和细粒度动作推理,利用大小模型分支协作,提升错误检测的准确性。
  3. 该方法通过互补目标优化分类器,包括重加权交叉熵等,有效处理了长尾分布带来的挑战。

📝 摘要(中文)

本文旨在解决从以自我为中心的视频数据中判断用户是否错误执行动作的问题。为此,我们提出了一种理解增强的模型协作方法(UE-MCM),它结合了高效的粗粒度视频理解和精确的细粒度动作推理。具体来说,UE-MCM包含一个小模型分支和一个大模型分支。大模型分支侧重于细粒度动作本身是否执行错误,而小模型分支共同接收粗粒度视频和细粒度片段作为输入,以识别可能在局部正确但与整体工作流程不一致的动作。小模型分支建立在由扩散对比重建增强的CLIP模型初始化的CLIP4CLIP视频编码器上,大模型分支使用Qwen3-VL Embedding模型从细粒度动作片段中提取高容量表示。然后,小分支预测和大分支预测通过轻量级协作门自适应地融合。为了处理错误实例的长尾分布,我们使用互补目标优化分类器,包括重新加权的交叉熵、面向AUC的学习和标签感知调整。由此产生的系统平衡了速度和准确性,使其能够有效地检测以自我为中心的教学视频中细微、罕见和模糊的错误。

🔬 方法详解

问题定义:论文旨在解决以自我为中心的视频中,由于动作执行错误导致的任务失败检测问题。现有方法在处理长尾分布、细微错误和上下文依赖的错误时表现不佳,缺乏对视频整体流程的理解,容易将局部正确的动作误判为错误,或者无法识别与整体流程不一致的动作。

核心思路:论文的核心思路是结合粗粒度的视频理解和细粒度的动作推理,通过大小模型分支的协作,提升错误检测的准确性和鲁棒性。大模型分支专注于细粒度动作本身的执行是否正确,小模型分支则关注动作与整体工作流程的一致性。

技术框架:UE-MCM包含两个主要分支:小模型分支和大模型分支。小模型分支使用CLIP4CLIP视频编码器,该编码器由扩散对比重建增强的CLIP模型初始化,用于提取粗粒度视频和细粒度片段的特征。大模型分支使用Qwen3-VL Embedding模型,从细粒度动作片段中提取高容量表示。两个分支的预测结果通过一个轻量级的协作门进行自适应融合,最终输出错误检测结果。

关键创新:该方法最重要的创新点在于理解增强的模型协作机制,即通过小模型分支引入了对视频整体流程的理解,从而能够识别局部正确但与整体流程不一致的错误动作。此外,针对长尾分布问题,采用了互补目标优化分类器,包括重加权交叉熵、面向AUC的学习和标签感知调整。

关键设计:小模型分支使用CLIP4CLIP,并用扩散对比重建进行增强,以提升视频表征能力。大模型分支使用Qwen3-VL Embedding模型,以提取高容量的动作特征。协作门的设计采用轻量级结构,以减少计算负担。损失函数方面,采用了重加权交叉熵、面向AUC的学习和标签感知调整等多种策略,以平衡不同类别的样本。

🖼️ 关键图片

fig_0

📊 实验亮点

论文提出的UE-MCM方法在以自我为中心的错误动作检测任务上取得了显著的性能提升。通过大小模型分支的协作和互补目标优化,该方法能够有效地检测细微、罕见和模糊的错误,尤其是在长尾分布下表现出色。具体的性能数据未知,但摘要强调了该系统在速度和准确性之间取得了良好的平衡。

🎯 应用场景

该研究成果可应用于智能辅助教学、运动技能评估、康复训练等领域。通过自动检测用户在执行任务过程中的错误动作,可以提供个性化的指导和反馈,提高学习效率和训练效果。此外,该技术还可用于工业生产中的操作规范监控,降低人为错误率。

📄 摘要(原文)

In this report, we address the problem of determining whether a user performs an action incorrectly from egocentric video data. To this end, we propose an Understanding-Enhanced Model Collaboration Method (UE-MCM) that combines efficient coarse-grained video understanding with accurate fine-grained action reasoning. Specifically, UE-MCM contains a small model branch and a large model branch. The large model branch focuses on whether the fine-grained action itself is executed incorrectly, while the small model branch jointly takes the coarse-grained video and fine-grained segment as input to identify actions that may be locally correct but inconsistent with the overall workflow. The small model branch is built on a CLIP4CLIP video encoder initialized from a CLIP model enhanced by Diffusion Contrastive Reconstruction, and the large model branch uses the Qwen3-VL Embedding model to extract high-capacity representations from fine-grained action segments. The small-branch prediction and the large-branch prediction are then adaptively fused by a lightweight collaboration gate. To handle the long-tailed distribution of mistake instances, we optimize the classifiers with complementary objectives, including reweighted cross-entropy, AUC-oriented learning, and label-aware adjustment. The resulting system balances speed and accuracy, making it effective for detecting subtle, rare, and ambiguous mistakes in egocentric instructional videos.