SVFSearch: A Multimodal Knowledge-Intensive Benchmark for Short-Video Frame Search in the Gaming Vertical Domain
作者: Lingtao Mao, Huangyu Dai, Xinyu Sun, Zihan Liang, Ben Chen, Chenyi Lei, Wenwu Ou
分类: cs.AI, cs.CV, cs.LG
发布日期: 2026-05-18
💡 一句话要点
提出SVFSearch:一个面向游戏短视频帧搜索的多模态知识密集型基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 短视频帧搜索 多模态学习 知识密集型 游戏领域 基准测试
📋 核心要点
- 现有基准测试在短视频帧搜索领域,尤其是在需要专业领域知识的游戏领域,对多模态大语言模型的评估不足。
- SVFSearch通过提供一个包含游戏领域知识库的离线检索环境,避免了对外部API的依赖,实现了公平可复现的评估。
- 实验结果表明,现有模型在视觉定位、检索质量和基于证据的推理方面存在瓶颈,与理想的预言机知识相比仍有较大差距。
📝 摘要(中文)
多模态大型语言模型越来越多地被用作智能体骨干,它们能够理解多模态输入、规划检索动作、调用外部工具并基于检索到的信息进行推理。然而,现有的基准很少评估这种能力在短视频应用中的表现,在短视频应用中,暂停的帧通常在视觉上是模糊的,并且回答问题需要垂直领域、长尾和快速发展的领域知识。我们介绍了SVFSearch,这是第一个用于中文游戏领域短视频帧搜索的开放基准。SVFSearch包含5,000个四选一的测试样例和4,198个辅助训练样例,每个样例都围绕来自真实短视频片段的暂停游戏场景展开。为了支持公平和可复现的评估,SVFSearch提供了一个冻结的离线检索环境,其中包含游戏领域的文本语料库、主题链接的图像库以及文本、图像和多模态检索接口,避免了对不受控制的Web搜索API的依赖。我们评估了从直接问答和RAG工作流到Plan-Act-Replan智能体和学习搜索模型的代表性范例。结果表明,仅使用模型回答、实际的智能体搜索和预言机知识之间存在很大差距:最佳开源直接问答模型的准确率达到66.4%,最佳实际智能体的准确率达到79.1%,而预言机知识的准确率达到95.4%。进一步的分析揭示了视觉定位、检索质量、基于证据的推理和工具使用行为方面的瓶颈,包括过度搜索、仅回答的捷径和检索引起的误导。
🔬 方法详解
问题定义:论文旨在解决游戏短视频中,根据给定的视频帧搜索相关信息的问题。现有方法依赖于通用的大型语言模型和网络搜索,无法有效处理游戏领域的专业知识和快速变化的信息,同时缺乏可控性和可复现性。
核心思路:论文的核心思路是构建一个专门针对游戏短视频帧搜索的基准数据集和离线检索环境。通过提供领域相关的文本语料库、图像库和检索接口,避免了对外部API的依赖,从而实现公平、可控和可复现的评估。
技术框架:SVFSearch基准测试包含以下几个关键组成部分:1) 包含5000个测试样例和4198个训练样例的数据集,每个样例围绕一个游戏短视频的暂停帧展开;2) 一个冻结的离线检索环境,包含游戏领域的文本语料库、主题链接的图像库以及文本、图像和多模态检索接口;3) 一套评估指标,用于衡量模型在视觉定位、检索质量、基于证据的推理和工具使用等方面的性能。
关键创新:SVFSearch的关键创新在于其专注于游戏短视频帧搜索这一特定领域,并提供了一个完全离线的、可控的检索环境。这使得研究人员能够更专注于模型本身的能力,而无需担心外部API的不确定性和数据质量问题。此外,该基准测试还提供了多种检索接口,支持对不同模态的信息进行检索和融合。
关键设计:SVFSearch的数据集构建过程中,作者精心挑选了来自真实游戏短视频的帧,并为每个帧提供了详细的标注信息。离线检索环境的构建过程中,作者收集了大量的游戏领域文本数据和图像数据,并构建了高效的检索索引。评估指标的设计也充分考虑了游戏短视频帧搜索的特点,包括视觉定位的准确性、检索结果的相关性和推理的正确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有模型在SVFSearch基准测试上的性能与预言机知识相比仍有较大差距。最佳开源直接问答模型的准确率仅为66.4%,最佳实际智能体的准确率也只有79.1%,而预言机知识的准确率高达95.4%。这表明现有模型在视觉定位、检索质量和基于证据的推理方面仍有很大的提升空间。
🎯 应用场景
SVFSearch基准测试可以促进多模态大语言模型在游戏领域的应用,例如游戏助手、游戏攻略生成、游戏内容理解等。该研究的成果可以帮助开发者构建更智能、更专业的游戏AI,提升玩家的游戏体验,并为游戏内容创作提供新的思路。
📄 摘要(原文)
Multimodal large language models are increasingly used as agent backbones that understand multimodal inputs, plan retrieval actions, invoke external tools, and reason over retrieved information. Yet existing benchmarks rarely evaluate this ability in short-video applications, where a paused frame is often visually ambiguous and answering requires vertical, long-tail, and fast-evolving domain knowledge. We introduce SVFSearch, the first open benchmark for short-video frame search in the Chinese gaming domain. SVFSearch contains 5,000 four-choice test examples and 4,198 auxiliary training examples, each centered on a paused game scene from a real short-video clip. To support fair and reproducible evaluation, SVFSearch provides a frozen offline retrieval environment with a game-domain text corpus, a topic-linked image gallery, and text, image, and multimodal retrieval interfaces, avoiding reliance on uncontrolled web search APIs. We evaluate representative paradigms ranging from direct QA and RAG workflow to Plan-Act-Replan agents and learned search models. Results reveal a large gap between model-only answering, practical agentic search, and oracle knowledge: the best open-source direct-QA model reaches 66.4%, the best practical agent achieves 79.1%, and oracle knowledge reaches 95.4%. Further analysis exposes bottlenecks in visual grounding, retrieval quality, evidence-grounded reasoning, and tool-use behavior, including over-search, answer-only shortcuts, and retrieval-induced misleading.