FIFA: Unified Faithfulness Evaluation Framework for Text-to-Video and Video-to-Text Generation
作者: Liqiang Jing, Viet Lai, Seunghyun Yoon, Trung Bui, Xinya Du
分类: cs.CV, cs.CL, cs.GR
发布日期: 2025-07-09
💡 一句话要点
提出FIFA框架,统一评估文本-视频和视频-文本生成任务中的事实一致性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频理解 多模态学习 事实一致性 视频生成 文本生成 幻觉检测 VideoQA
📋 核心要点
- 现有视频多模态大模型易产生幻觉,生成与视觉输入矛盾的内容,缺乏有效的评估方法。
- FIFA框架提取视频描述性事实,构建时空语义依赖图,并利用VideoQA模型进行验证。
- 实验表明,FIFA与人类判断更一致,提出的Post-Correction框架能有效提升生成内容的事实一致性。
📝 摘要(中文)
视频多模态大语言模型(VideoMLLMs)在视频到文本(V2T)和文本到视频(T2V)任务中取得了显著进展。然而,它们经常出现幻觉问题,生成与视觉输入相矛盾的内容。现有的评估方法仅限于单一任务(如V2T),并且无法评估开放式、自由形式响应中的幻觉。为了解决这个问题,我们提出了FIFA,一个统一的事实一致性评估框架,它提取全面的描述性事实,通过时空语义依赖图对它们的语义依赖关系进行建模,并使用VideoQA模型验证它们。我们进一步引入了Post-Correction,一个基于工具的校正框架,用于修改产生幻觉的内容。大量的实验表明,与现有的评估方法相比,FIFA与人类的判断更加一致,并且Post-Correction有效地提高了文本和视频生成中的事实一致性。
🔬 方法详解
问题定义:论文旨在解决视频多模态大语言模型(VideoMLLMs)在视频到文本(V2T)和文本到视频(T2V)生成任务中普遍存在的“幻觉”问题。现有评估方法的痛点在于:1) 缺乏统一性,通常只针对单一任务(如V2T);2) 无法有效评估开放式、自由形式生成内容的事实一致性,难以检测模型产生的与视频内容相悖的“幻觉”。
核心思路:论文的核心思路是构建一个统一的、可解释的事实一致性评估框架,通过显式地提取视频中的事实信息,并验证生成内容与这些事实信息的一致性,从而量化模型产生幻觉的程度。通过引入时空语义依赖图,能够更好地建模视频中各个对象和事件之间的关系,提升评估的准确性。
技术框架:FIFA框架主要包含以下几个阶段:1) 事实提取:从视频中提取全面的描述性事实信息。2) 语义依赖建模:构建时空语义依赖图(Spatio-Temporal Semantic Dependency Graph),对提取的事实信息之间的语义依赖关系进行建模。3) 事实验证:利用VideoQA模型,验证生成内容与提取的事实信息是否一致。4) 后校正(Post-Correction):引入一个基于工具的校正框架,用于修改生成内容中存在的幻觉。
关键创新:FIFA框架的关键创新在于:1) 统一性:首次提出了一个统一的框架,可以同时评估V2T和T2V任务的事实一致性。2) 可解释性:通过显式地提取和验证事实信息,使得评估过程更加透明和可解释。3) 时空语义依赖建模:引入时空语义依赖图,能够更好地建模视频中的复杂关系,提升评估的准确性。
关键设计:关于时空语义依赖图,具体构建方法未知,论文中可能涉及图神经网络等技术细节。关于VideoQA模型,具体选择和训练方法未知。Post-Correction框架的具体实现细节也未知,可能涉及到对生成文本或视频的编辑和修改。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FIFA框架与人类判断的一致性优于现有评估方法。此外,提出的Post-Correction框架能够有效提高文本和视频生成中的事实一致性,具体提升幅度未知,但证明了该框架的有效性。
🎯 应用场景
该研究成果可应用于提升视频内容生成模型的可靠性和可信度,例如在智能监控、自动驾驶、视频编辑等领域,可以减少模型产生错误或虚假信息的风险。此外,该评估框架可以帮助研究人员更好地理解和改进视频多模态大语言模型,推动相关技术的发展。
📄 摘要(原文)
Video Multimodal Large Language Models (VideoMLLMs) have achieved remarkable progress in both Video-to-Text and Text-to-Video tasks. However, they often suffer fro hallucinations, generating content that contradicts the visual input. Existing evaluation methods are limited to one task (e.g., V2T) and also fail to assess hallucinations in open-ended, free-form responses. To address this gap, we propose FIFA, a unified FaIthFulness evAluation framework that extracts comprehensive descriptive facts, models their semantic dependencies via a Spatio-Temporal Semantic Dependency Graph, and verifies them using VideoQA models. We further introduce Post-Correction, a tool-based correction framework that revises hallucinated content. Extensive experiments demonstrate that FIFA aligns more closely with human judgment than existing evaluation methods, and that Post-Correction effectively improves factual consistency in both text and video generation.