OSGNet with MLLM Reranking @ Ego4D Episodic Memory Challenge 2026
作者: Yisen Feng, Leigang Qu, Haoyu Zhang, Qiaohui Chu, Meng Liu, Xuemeng Song, Weili Guan, Liqiang Nie
分类: cs.CV
发布日期: 2026-05-20
备注: Champion solution for the Natural Language Queries and GoalStep tracks of the Ego4D Challenge at the CVPR EgoVis Workshop 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于MLLM重排序的OSGNet,解决Ego4D情景记忆挑战中的时序定位问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情景记忆 时序定位 多模态大语言模型 视频理解 自然语言查询
📋 核心要点
- 现有方法在长时自我中心视频中进行精确时序定位面临挑战,需要更强的视频-语言理解能力。
- 提出基于重排序的框架,利用MLLM对OSGNet生成的候选片段进行筛选,提升定位精度。
- 该方法在Ego4D情景记忆挑战赛的自然语言查询和GoalStep赛道均取得第一名,验证了有效性。
📝 摘要(中文)
本文介绍了我们在CVPR 2026 Ego4D情景记忆挑战赛中,自然语言查询和GoalStep两个赛道的冠军解决方案。这两个赛道都需要从长且未裁剪的以自我为中心的视频中精确定位时间片段。为了解决这些任务,我们提出了一种基于重排序的框架,该框架有效地利用了多模态大型语言模型(MLLM)强大的视频-语言推理能力,同时保留了传统定位管道的效率和候选召回率。具体来说,我们首先从现有的定位模型OSGNet中获得一组候选片段,然后使用MLLM选择与给定查询最匹配的片段,从而优化最终预测。最终,我们的方法在自然语言查询和GoalStep赛道均获得了第一名。我们的代码可在https://github.com/iLearn-Lab/CVPR25-OSGNet 找到。
🔬 方法详解
问题定义:Ego4D情景记忆挑战赛要求从长时、未裁剪的以自我为中心的视频中,根据自然语言查询或GoalStep目标,精确定位对应的时间片段。现有方法在处理长视频和复杂查询时,定位精度有待提高,尤其是在视频-语言理解方面存在不足。
核心思路:核心思路是结合传统定位模型的效率和MLLM的强大推理能力。首先利用高效的OSGNet模型生成候选片段,然后利用MLLM对这些候选片段进行重排序,选择与查询最匹配的片段。这种方法避免了直接使用MLLM处理整个视频,从而保证了效率。
技术框架:整体框架包含两个主要阶段:候选片段生成和MLLM重排序。首先,使用OSGNet模型对输入视频进行处理,生成一组候选的时间片段。然后,将这些候选片段和对应的查询输入到MLLM中,MLLM对每个候选片段进行打分,选择得分最高的片段作为最终的预测结果。
关键创新:关键创新在于将传统的时序定位模型与多模态大型语言模型相结合。传统模型擅长高效地生成候选片段,而MLLM擅长进行复杂的视频-语言推理。通过将两者结合,可以充分利用各自的优势,从而提高定位精度。
关键设计:具体的技术细节包括:如何将视频片段和自然语言查询输入到MLLM中,如何设计MLLM的输入格式,以及如何训练MLLM以更好地进行重排序。论文可能使用了特定的prompt工程技术来引导MLLM进行推理,并可能使用了对比学习等方法来训练MLLM,使其能够更好地区分不同的候选片段。
🖼️ 关键图片
📊 实验亮点
该方法在Ego4D情景记忆挑战赛的自然语言查询和GoalStep两个赛道均取得了第一名,证明了基于MLLM重排序的OSGNet框架的有效性。具体的性能数据和对比基线需要在原始论文中查找,但冠军成绩本身就说明了该方法的优越性。
🎯 应用场景
该研究成果可应用于智能助手的开发,例如,帮助用户快速回顾特定事件发生的时间点。此外,该技术还可用于视频监控、智能安防等领域,实现基于自然语言的视频内容检索和分析。未来的发展方向包括优化MLLM的推理效率,以及探索更有效的视频特征表示方法。
📄 摘要(原文)
In this report, we present our champion solutions for the Natural Language Queries and GoalStep tracks of the Ego4D Episodic Memory Challenge at CVPR 2026. Both tracks require accurately localizing temporal segments from long untrimmed egocentric videos. To address these tasks, we propose a reranking-based framework that effectively leverages the strong video-language reasoning capability of multimodal large language model (MLLM) while preserving the efficiency and candidate recall of conventional localization pipelines. Specifically, we first obtain a set of candidate segments from existing localization model OSGNet, and then employ MLLM to select the segment that best matches the given query, thereby refining the final prediction. Ultimately, our method achieved first place in both the Natural Language Queries and GoalStep tracks. Our code can be found at https://github.com/iLearn-Lab/CVPR25-OSGNet.