X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning
作者: Prasanna Reddy Pulakurthi, Jiamian Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Zhiqiang Tao
分类: cs.CV
发布日期: 2025-09-25
备注: 12 pages, 7 figures. Accepted at EMNLP 2025 (Main Conference)
🔗 代码/项目: GITHUB
💡 一句话要点
提出X-CoT,利用LLM链式思考推理实现可解释的文本到视频检索
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到视频检索 可解释性 链式思考 大型语言模型 多模态学习
📋 核心要点
- 现有文本到视频检索方法依赖嵌入模型和余弦相似度,缺乏可解释性,且易受低质量数据影响。
- X-CoT利用LLM的链式思考能力,通过成对比较生成详细推理,实现可解释的检索排序。
- 实验表明,X-CoT提升了检索性能,并能提供排序理由,有助于模型行为分析和数据质量评估。
📝 摘要(中文)
现有的文本到视频检索系统主要采用嵌入模型提取特征,并通过计算余弦相似度进行排序。然而,这种设计存在两个局限性:低质量的文本-视频数据对会影响检索效果,且难以识别和检查;仅使用余弦相似度无法解释排序结果,限制了可解释性。本文旨在探究是否可以解释排序结果,从而评估检索模型并检查文本-视频数据。为此,本文提出了X-CoT,一个基于LLM链式思考(CoT)推理的可解释检索框架,替代了基于嵌入模型的相似度排序。首先,通过增加额外的视频标注来扩展现有基准,以支持语义理解并减少数据偏差。其次,设计了一种包含成对比较步骤的检索CoT,从而产生详细的推理和完整的排序。实验结果表明,X-CoT在经验上提高了检索性能,并产生了详细的理由,同时有助于模型行为和数据质量分析。代码和数据可在https://github.com/PrasannaPulakurthi/X-CoT获取。
🔬 方法详解
问题定义:现有的文本到视频检索系统依赖于嵌入模型提取文本和视频的特征,然后通过计算余弦相似度来进行排序。这种方法存在两个主要问题:一是缺乏可解释性,用户无法理解检索结果背后的原因;二是容易受到低质量文本-视频数据对的影响,导致检索性能下降,而且这些低质量数据难以识别和排除。
核心思路:X-CoT的核心思路是利用大型语言模型(LLM)的链式思考(Chain-of-Thought, CoT)能力,将检索过程转化为一个推理过程。通过让LLM逐步比较不同的视频和文本描述,并给出推理过程,从而实现可解释的检索排序。这种方法避免了直接依赖嵌入模型和余弦相似度,而是通过语义理解和推理来判断视频和文本的相关性。
技术框架:X-CoT的整体框架包括以下几个主要模块:1) 数据增强模块:通过增加视频的标注信息,提高数据的质量和语义丰富度,减少数据偏差。2) 检索CoT模块:该模块是X-CoT的核心,它将检索过程分解为一系列成对比较步骤。对于给定的文本查询,LLM会逐步比较不同的视频,并给出推理过程,最终生成完整的排序。3) 解释生成模块:该模块负责将LLM的推理过程转化为可理解的解释,帮助用户理解检索结果背后的原因。
关键创新:X-CoT最重要的技术创新点在于利用LLM的链式思考能力进行文本到视频的检索。与传统的基于嵌入模型的方法相比,X-CoT能够提供可解释的检索结果,并且能够更好地处理低质量数据。此外,X-CoT还通过数据增强和检索CoT的设计,提高了检索的准确性和效率。
关键设计:X-CoT的关键设计包括:1) 视频标注:为了提高数据的质量和语义丰富度,论文增加了视频的标注信息,例如视频的内容描述、关键帧等。2) 检索CoT:论文设计了一种包含成对比较步骤的检索CoT,LLM会逐步比较不同的视频,并给出推理过程。3) 提示工程:论文设计了合适的提示语,引导LLM进行链式思考,并生成可解释的推理过程。具体的参数设置和网络结构等技术细节在论文中没有详细描述,属于未知信息。
📊 实验亮点
X-CoT在文本到视频检索任务上取得了显著的性能提升,并提供了详细的检索理由。通过与传统嵌入模型方法对比,X-CoT在多个基准数据集上均取得了更好的检索准确率。此外,X-CoT生成的检索理由能够帮助用户理解检索结果,并有助于分析模型行为和数据质量。
🎯 应用场景
X-CoT可应用于视频搜索引擎、智能推荐系统、教育视频检索等领域。其可解释性能够帮助用户理解检索结果,提高用户信任度。同时,该方法能够分析模型行为和数据质量,有助于提升检索系统的整体性能。未来,X-CoT有望在多模态信息检索、内容审核等领域发挥重要作用。
📄 摘要(原文)
Prevalent text-to-video retrieval systems mainly adopt embedding models for feature extraction and compute cosine similarities for ranking. However, this design presents two limitations. Low-quality text-video data pairs could compromise the retrieval, yet are hard to identify and examine. Cosine similarity alone provides no explanation for the ranking results, limiting the interpretability. We ask that can we interpret the ranking results, so as to assess the retrieval models and examine the text-video data? This work proposes X-CoT, an explainable retrieval framework upon LLM CoT reasoning in place of the embedding model-based similarity ranking. We first expand the existing benchmarks with additional video annotations to support semantic understanding and reduce data bias. We also devise a retrieval CoT consisting of pairwise comparison steps, yielding detailed reasoning and complete ranking. X-CoT empirically improves the retrieval performance and produces detailed rationales. It also facilitates the model behavior and data quality analysis. Code and data are available at: https://github.com/PrasannaPulakurthi/X-CoT.