HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

📄 arXiv: 2603.18558v1 📥 PDF

作者: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin

分类: cs.CV, cs.AI

发布日期: 2026-03-19


💡 一句话要点

HiMu:用于长视频问答的分层多模态帧选择框架,提升效率和准确率。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频问答 多模态融合 帧选择 分层推理 模糊逻辑

📋 核心要点

  1. 长视频问答对帧选择至关重要,但现有基于相似性的方法丢失了子事件排序,而基于Agent的方法计算成本过高。
  2. HiMu通过将查询分解为分层逻辑树,并利用轻量级专家进行多模态信息提取和融合,实现了高效的帧选择。
  3. 实验表明,HiMu在效率和准确率上均优于现有方法,尤其是在长视频问答任务中,显著降低了计算成本。

📝 摘要(中文)

长视频问答需要在较长的时间上下文中进行推理,因此帧选择对于受限于有限上下文窗口的大型视觉-语言模型(LVLM)至关重要。现有方法面临着严峻的权衡:基于相似性的选择器速度快,但会将组合查询折叠成单个密集向量,从而丢失子事件排序和跨模态绑定;基于代理的方法通过迭代LVLM推理来恢复这种结构,但成本过高。我们引入HiMu,这是一个无需训练的框架,弥合了这一差距。单个纯文本LLM调用将查询分解为分层逻辑树,其叶节点是原子谓词,每个谓词被路由到跨越视觉(CLIP、开放词汇检测、OCR)和音频(ASR、CLAP)的轻量级专家。将生成的信号进行归一化,时间平滑以对齐不同的模态,并通过模糊逻辑运算符自下而上地组合,从而强制执行时间排序和邻接,产生连续的满足度曲线。在Video-MME、LongVideoBench和HERBench-Lite上的评估表明,HiMu提高了效率-准确性帕累托前沿:在使用Qwen3-VL 8B的16帧时,它优于所有竞争选择器,在使用GPT-4o时,它超过了在32-512帧上运行的代理系统,同时需要的FLOPs大约减少了10倍。

🔬 方法详解

问题定义:长视频问答任务需要从大量视频帧中选择关键帧,以便视觉-语言模型进行推理。现有方法要么基于相似性,忽略了事件的时序关系和跨模态信息;要么采用Agent方法,通过多次调用大型模型进行迭代推理,计算成本非常高。因此,如何在保证准确性的前提下,降低长视频问答的计算复杂度是一个关键问题。

核心思路:HiMu的核心思路是将复杂的查询分解为更小的、可独立处理的原子谓词,然后利用轻量级的专家模型提取多模态信息,最后通过模糊逻辑运算符将这些信息进行融合,从而得到一个连续的满足度曲线。这种方法避免了将整个查询编码成单个向量,保留了时序信息和跨模态绑定,同时降低了计算复杂度。

技术框架:HiMu框架主要包含以下几个阶段:1) 查询分解:使用LLM将复杂查询分解为分层逻辑树,叶节点为原子谓词。2) 多模态信息提取:将每个原子谓词路由到相应的专家模型,包括视觉专家(CLIP、目标检测、OCR)和音频专家(ASR、CLAP),提取多模态特征。3) 特征融合:对提取的特征进行归一化和时间平滑,然后通过模糊逻辑运算符(如AND、OR)自下而上地组合这些特征,生成连续的满足度曲线。4) 帧选择:根据满足度曲线选择关键帧。

关键创新:HiMu的关键创新在于其分层多模态帧选择机制。它通过将查询分解为原子谓词,并利用轻量级专家模型提取多模态信息,避免了将整个查询编码成单个向量,从而保留了时序信息和跨模态绑定。此外,HiMu采用模糊逻辑运算符进行特征融合,可以灵活地处理不同模态之间的关系。与现有方法相比,HiMu在保证准确性的前提下,显著降低了计算复杂度。

关键设计:HiMu的关键设计包括:1) 使用LLM进行查询分解,可以灵活地处理各种复杂的查询。2) 使用轻量级专家模型提取多模态信息,降低了计算成本。3) 采用模糊逻辑运算符进行特征融合,可以灵活地处理不同模态之间的关系。4) 对特征进行时间平滑,可以对齐不同模态的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HiMu在Video-MME、LongVideoBench和HERBench-Lite等数据集上进行了评估。实验结果表明,HiMu在使用Qwen3-VL 8B的16帧时,优于所有竞争选择器。在使用GPT-4o时,HiMu超过了在32-512帧上运行的Agent系统,同时需要的FLOPs大约减少了10倍。这些结果表明,HiMu在效率和准确率上均优于现有方法。

🎯 应用场景

HiMu框架可应用于各种长视频理解任务,如视频监控、自动驾驶、智能客服等。通过高效地选择关键帧,可以显著降低计算成本,提高系统的实时性和可扩展性。此外,HiMu还可以用于视频摘要生成、视频检索等任务,具有广泛的应用前景。

📄 摘要(原文)

Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.