HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

作者: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin

分类: cs.CV, cs.AI

发布日期: 2026-03-19

💡 一句话要点

HiMu：用于长视频问答的分层多模态帧选择框架，提升效率和准确率。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频问答 多模态融合 帧选择 分层推理 模糊逻辑

📋 核心要点

长视频问答对帧选择至关重要，但现有基于相似性的方法丢失了子事件排序，而基于Agent的方法计算成本过高。
HiMu通过将查询分解为分层逻辑树，并利用轻量级专家进行多模态信息提取和融合，实现了高效的帧选择。
实验表明，HiMu在效率和准确率上均优于现有方法，尤其是在长视频问答任务中，显著降低了计算成本。

📝 摘要（中文）

长视频问答需要在较长的时间上下文中进行推理，因此帧选择对于受限于有限上下文窗口的大型视觉-语言模型（LVLM）至关重要。现有方法面临着严峻的权衡：基于相似性的选择器速度快，但会将组合查询折叠成单个密集向量，从而丢失子事件排序和跨模态绑定；基于代理的方法通过迭代LVLM推理来恢复这种结构，但成本过高。我们引入HiMu，这是一个无需训练的框架，弥合了这一差距。单个纯文本LLM调用将查询分解为分层逻辑树，其叶节点是原子谓词，每个谓词被路由到跨越视觉（CLIP、开放词汇检测、OCR）和音频（ASR、CLAP）的轻量级专家。将生成的信号进行归一化，时间平滑以对齐不同的模态，并通过模糊逻辑运算符自下而上地组合，从而强制执行时间排序和邻接，产生连续的满足度曲线。在Video-MME、LongVideoBench和HERBench-Lite上的评估表明，HiMu提高了效率-准确性帕累托前沿：在使用Qwen3-VL 8B的16帧时，它优于所有竞争选择器，在使用GPT-4o时，它超过了在32-512帧上运行的代理系统，同时需要的FLOPs大约减少了10倍。

🔬 方法详解

问题定义：长视频问答任务需要从大量视频帧中选择关键帧，以便视觉-语言模型进行推理。现有方法要么基于相似性，忽略了事件的时序关系和跨模态信息；要么采用Agent方法，通过多次调用大型模型进行迭代推理，计算成本非常高。因此，如何在保证准确性的前提下，降低长视频问答的计算复杂度是一个关键问题。

核心思路：HiMu的核心思路是将复杂的查询分解为更小的、可独立处理的原子谓词，然后利用轻量级的专家模型提取多模态信息，最后通过模糊逻辑运算符将这些信息进行融合，从而得到一个连续的满足度曲线。这种方法避免了将整个查询编码成单个向量，保留了时序信息和跨模态绑定，同时降低了计算复杂度。

技术框架：HiMu框架主要包含以下几个阶段：1) 查询分解：使用LLM将复杂查询分解为分层逻辑树，叶节点为原子谓词。2) 多模态信息提取：将每个原子谓词路由到相应的专家模型，包括视觉专家（CLIP、目标检测、OCR）和音频专家（ASR、CLAP），提取多模态特征。3) 特征融合：对提取的特征进行归一化和时间平滑，然后通过模糊逻辑运算符（如AND、OR）自下而上地组合这些特征，生成连续的满足度曲线。4) 帧选择：根据满足度曲线选择关键帧。

关键创新：HiMu的关键创新在于其分层多模态帧选择机制。它通过将查询分解为原子谓词，并利用轻量级专家模型提取多模态信息，避免了将整个查询编码成单个向量，从而保留了时序信息和跨模态绑定。此外，HiMu采用模糊逻辑运算符进行特征融合，可以灵活地处理不同模态之间的关系。与现有方法相比，HiMu在保证准确性的前提下，显著降低了计算复杂度。

关键设计：HiMu的关键设计包括：1) 使用LLM进行查询分解，可以灵活地处理各种复杂的查询。2) 使用轻量级专家模型提取多模态信息，降低了计算成本。3) 采用模糊逻辑运算符进行特征融合，可以灵活地处理不同模态之间的关系。4) 对特征进行时间平滑，可以对齐不同模态的信息。

🖼️ 关键图片

📊 实验亮点

HiMu在Video-MME、LongVideoBench和HERBench-Lite等数据集上进行了评估。实验结果表明，HiMu在使用Qwen3-VL 8B的16帧时，优于所有竞争选择器。在使用GPT-4o时，HiMu超过了在32-512帧上运行的Agent系统，同时需要的FLOPs大约减少了10倍。这些结果表明，HiMu在效率和准确率上均优于现有方法。

🎯 应用场景

HiMu框架可应用于各种长视频理解任务，如视频监控、自动驾驶、智能客服等。通过高效地选择关键帧，可以显著降低计算成本，提高系统的实时性和可扩展性。此外，HiMu还可以用于视频摘要生成、视频检索等任务，具有广泛的应用前景。

📄 摘要（原文）

Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理