CoVR-R:Reason-Aware Composed Video Retrieval
作者: Omkar Thawakar, Dmitry Demidov, Vaishnav Potlapalli, Sai Prasanna Teja Reddy Bogireddy, Viswanatha Reddy Gajjala, Alaa Mostafa Lasheen, Rao Muhammad Anwer, Fahad Khan
分类: cs.CV
发布日期: 2026-03-20
备注: CVPR 2026 (findings)
🔗 代码/项目: GITHUB
💡 一句话要点
提出CoVR-R:一种基于推理的组合视频检索方法,解决现有方法忽略编辑后效应的问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合视频检索 多模态推理 零样本学习 视频理解 因果推理
📋 核心要点
- 现有组合视频检索方法忽略了文本修改带来的视觉变化后效应,如运动、状态转移等,导致检索精度下降。
- 论文提出一种零样本的推理优先方法,利用大型多模态模型推断编辑带来的因果和时间结果,并对齐候选视频。
- 提出的CoVR-Reason基准测试集包含结构化的推理轨迹和干扰项,实验表明该方法在隐式效应子集上表现优异。
📝 摘要(中文)
组合视频检索(CoVR)旨在根据参考视频和文本修改找到目标视频。先前的工作假设修改文本完全指定了视觉变化,忽略了编辑产生的后效应和隐含结果(例如,运动、状态转换、视点或持续时间线索)。我们认为,成功的CoVR需要对这些后效应进行推理。我们提出了一种推理优先的零样本方法,该方法利用大型多模态模型来(i)推断编辑所暗示的因果和时间结果,以及(ii)将由此产生的推理查询与候选视频对齐,而无需特定于任务的微调。为了评估CoVR中的推理,我们还提出了CoVR-Reason,这是一个基准,它将每个(参考、编辑、目标)三元组与结构化的内部推理轨迹和具有挑战性的干扰因素配对,这些干扰因素需要预测后效应而不是关键词匹配。实验表明,我们的零样本方法在K召回率上优于强大的检索基线,尤其是在隐式效应子集上表现出色。我们的自动和人工分析证实,我们检索到的结果具有更高的步骤一致性和效果真实性。我们的研究结果表明,将推理纳入通用多模态模型可以通过显式考虑因果和时间后效应来实现有效的CoVR。这减少了对特定于任务的监督的依赖,提高了对具有挑战性的隐式效应案例的泛化能力,并增强了检索结果的可解释性。这些结果指向了一个可扩展且有原则的可解释视频搜索框架。模型、代码和基准可在https://github.com/mbzuai-oryx/CoVR-R获得。
🔬 方法详解
问题定义:组合视频检索(CoVR)旨在根据给定的参考视频和文本修改指令,检索出经过修改后的目标视频。现有方法主要依赖于文本修改指令与视频内容的直接匹配,忽略了修改指令可能带来的隐含视觉变化,例如物体运动、状态改变、视角变化等。这种忽略导致检索结果与用户期望不符,尤其是在需要理解因果关系和时间演变的情况下。
核心思路:论文的核心思路是引入推理机制,显式地建模文本修改指令所带来的隐含视觉变化。通过利用大型多模态模型,对修改指令进行推理,预测其可能产生的因果和时间结果,从而生成更全面的查询表示。这种基于推理的查询表示能够更好地捕捉目标视频的特征,提高检索精度。
技术框架:整体框架包含以下几个主要模块:1) 推理模块:利用大型多模态模型(例如,预训练的语言模型和视觉模型),对文本修改指令进行推理,生成一系列描述修改后可能发生的视觉变化的语句。这些语句包括因果关系、时间关系以及其他隐含的视觉属性。2) 查询表示模块:将参考视频和推理模块生成的语句进行编码,得到一个综合的查询表示。这个查询表示包含了原始视频的信息以及修改指令所带来的隐含变化。3) 视频检索模块:将查询表示与候选视频进行匹配,计算相似度得分,并根据得分对候选视频进行排序。选择得分最高的视频作为检索结果。
关键创新:论文的关键创新在于将推理机制引入到组合视频检索任务中。与现有方法相比,该方法能够显式地建模文本修改指令所带来的隐含视觉变化,从而提高检索精度。此外,该方法采用零样本学习的方式,无需针对特定任务进行微调,具有更好的泛化能力。
关键设计:推理模块使用了预训练的大型多模态模型,例如CLIP或类似的模型。查询表示模块可以使用Transformer网络或其他序列模型来融合参考视频和推理语句的信息。损失函数可以使用对比学习损失或三元组损失,以鼓励相似的视频具有更高的相似度得分。CoVR-Reason基准测试集的设计考虑了推理的难度,包含了需要预测后效应的干扰项,从而更好地评估模型的推理能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在CoVR-Reason基准测试集上优于现有的检索基线,尤其是在隐式效应子集上表现出色。自动和人工分析表明,检索结果具有更高的步骤一致性和效果真实性。与现有方法相比,该方法在K召回率上取得了显著提升,证明了推理机制的有效性。
🎯 应用场景
该研究成果可应用于智能视频搜索、视频编辑辅助、内容审核等领域。例如,用户可以通过提供一个参考视频和一段修改描述,快速找到符合要求的视频片段。在视频编辑领域,该技术可以帮助用户自动生成过渡效果或添加特定视觉元素。在内容审核方面,可以用于检测视频中是否存在违规行为或不当内容。
📄 摘要(原文)
Composed Video Retrieval (CoVR) aims to find a target video given a reference video and a textual modification. Prior work assumes the modification text fully specifies the visual changes, overlooking after-effects and implicit consequences (e.g., motion, state transitions, viewpoint or duration cues) that emerge from the edit. We argue that successful CoVR requires reasoning about these after-effects. We introduce a reasoning-first, zero-shot approach that leverages large multimodal models to (i) infer causal and temporal consequences implied by the edit, and (ii) align the resulting reasoned queries to candidate videos without task-specific finetuning. To evaluate reasoning in CoVR, we also propose CoVR-Reason, a benchmark that pairs each (reference, edit, target) triplet with structured internal reasoning traces and challenging distractors that require predicting after-effects rather than keyword matching. Experiments show that our zero-shot method outperforms strong retrieval baselines on recall at K and particularly excels on implicit-effect subsets. Our automatic and human analysis confirm higher step consistency and effect factuality in our retrieved results. Our findings show that incorporating reasoning into general-purpose multimodal models enables effective CoVR by explicitly accounting for causal and temporal after-effects. This reduces dependence on task-specific supervision, improves generalization to challenging implicit-effect cases, and enhances interpretability of retrieval outcomes. These results point toward a scalable and principled framework for explainable video search. The model, code, and benchmark are available at https://github.com/mbzuai-oryx/CoVR-R.