DualFact+: A Multimodal Fact Verification Framework for Procedural Video Understanding
作者: Cennet Oguz, Yasser Hamidullah, Josef van Genabith, Simon Ostermann
分类: cs.AI
发布日期: 2026-04-28
备注: ACL 2026 Findings
💡 一句话要点
提出DualFact+框架,用于程序视频理解中的多模态事实核查。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 事实核查 视频理解 程序视频 字幕生成
📋 核心要点
- 现有方法在程序视频字幕生成中,难以保证生成内容的事实完整性和角色一致性,容易出现遗漏和不一致。
- DualFact框架通过双层结构,分别评估概念事实和上下文事实,并引入隐式论元增强和对比事实集,提升评估的全面性。
- 实验表明,DualFact能更准确地反映人类对事实性的判断,并揭示现有模型在多模态事实基础方面的不足。
📝 摘要(中文)
我们提出了DualFact,一个双层、多模态的事实性评估框架,用于程序视频的字幕生成。DualFact将事实正确性分解为概念事实(捕捉抽象的语义角色,例如动作、成分、工具、位置)和上下文事实(捕捉它们在视频中具体的谓词-论元实现)。为了支持完整且角色一致的评估,DualFact整合了隐式论元增强(VIA)和对比事实集。我们在两种模式下实例化DualFact:DualFact-T,它根据文本证据验证事实;DualFact-V,它根据视频相关的视觉证据验证事实。在YouCook3-Fact和CraftBench-Fact上的实验表明,最先进的多模态语言模型生成流畅但通常在事实上不完整的字幕,存在系统性的遗漏和角色级别的不一致。DualFact比标准指标更强烈地与人类的事实性判断相关,尤其是在上下文事实方面,并且揭示了与视频相关的验证相比,仅基于字幕的评估会高估幻觉。总的来说,DualFact提供了一个可解释且与人类对齐的评估协议,突出了多模态事实基础中的持续挑战,超越了表面流畅性。
🔬 方法详解
问题定义:论文旨在解决程序视频理解中,自动生成的字幕的事实性验证问题。现有方法主要关注字幕的流畅性,忽略了事实的完整性和准确性,尤其是在多模态场景下,模型容易产生幻觉,即生成与视频内容不符的信息。此外,现有评估指标与人类的判断存在偏差,无法有效衡量模型的事实性。
核心思路:论文的核心思路是将事实性验证分解为两个层次:概念事实和上下文事实。概念事实关注抽象的语义角色,例如动作、成分等;上下文事实关注这些角色在视频中的具体实现。通过这种双层结构,可以更全面地评估字幕的事实性。同时,引入隐式论元增强和对比事实集,进一步提升评估的准确性和鲁棒性。
技术框架:DualFact框架包含以下主要模块: 1. 字幕解析:将生成的字幕解析为语义角色标注(SRL)图,提取概念事实。 2. 隐式论元增强(VIA):通过推理补充字幕中缺失的论元,提高评估的完整性。 3. 对比事实集构建:构建与正确事实相对的错误事实,用于评估模型的区分能力。 4. 事实验证:分别针对概念事实和上下文事实进行验证。DualFact提供了两种验证模式:DualFact-T(基于文本证据)和DualFact-V(基于视频证据)。 5. 事实性评估:综合概念事实和上下文事实的验证结果,给出最终的事实性评分。
关键创新:DualFact的主要创新点在于: 1. 双层事实性评估:将事实性分解为概念事实和上下文事实,更全面地评估字幕的准确性。 2. 隐式论元增强:通过推理补充缺失的论元,提高评估的完整性。 3. 对比事实集:引入对比学习的思想,评估模型的区分能力。 与现有方法相比,DualFact更关注多模态场景下的事实性验证,并提供了一种更准确、更鲁棒的评估方法。
关键设计: * 隐式论元增强(VIA):使用预训练的语言模型进行推理,补充字幕中缺失的论元。具体实现方式未知。 * 对比事实集构建:通过替换字幕中的实体或关系,生成与正确事实相对的错误事实。具体替换策略未知。 * 事实验证:使用预训练的多模态模型(例如,CLIP)进行事实验证。具体模型选择和训练方式未知。 * 损失函数:DualFact可能使用了对比学习损失函数,用于训练模型区分正确事实和错误事实。具体损失函数形式未知。
🖼️ 关键图片
📊 实验亮点
在YouCook3-Fact和CraftBench-Fact数据集上的实验表明,DualFact比标准指标更强烈地与人类的事实性判断相关,尤其是在上下文事实方面。实验结果还揭示了现有模型在多模态事实基础方面的不足,表明仅基于字幕的评估会高估幻觉。具体性能提升数据未知。
🎯 应用场景
该研究成果可应用于视频内容审核、智能客服、教育视频理解等领域。通过自动评估视频字幕的事实性,可以提高视频内容的质量和可信度,减少错误信息的传播。此外,该方法还可以用于训练更可靠的多模态语言模型,提升其在视频理解任务中的性能,具有重要的实际价值和潜在影响。
📄 摘要(原文)
We introduce DualFact, a dual-layer, multimodal factuality evaluation framework for procedural video captioning. DualFact separates factual correctness into conceptual facts, capturing abstract semantic roles (e.g., Action, Ingredient, Tool, Location), and contextual facts, capturing their grounded predicate-argument realizations in video. To support complete and role-consistent evaluation, DualFact incorporates implicit argument augmentation (VIA) and contrastive fact sets. We instantiate DualFact in two modes: DualFact-T, which verifies facts against textual evidence, and DualFact-V, which verifies facts against video-grounded visual evidence. Experiments on YouCook3-Fact and CraftBench-Fact show that state-of-the-art multimodal language models produce fluent but often factually incomplete captions, with systematic omissions and role-level inconsistencies. DualFact correlates more strongly with human factuality judgments than standard metrics, particularly for contextual facts, and reveals that caption-only evaluation overestimates hallucinations compared to video-grounded verification. Overall, DualFact offers an interpretable and human-aligned evaluation protocol that highlights persistent challenges in multimodal factual grounding, extending beyond surface-level fluency.