VMDT: Decoding the Trustworthiness of Video Foundation Models

作者: Yujin Potter, Zhun Wang, Nicholas Crispino, Kyle Montgomery, Alexander Xiong, Ethan Y. Chang, Francesco Pinto, Yuqi Chen, Rahul Gupta, Morteza Ziyadi, Christos Christodoulopoulos, Bo Li, Chenguang Wang, Dawn Song

分类: cs.CV, cs.LG

发布日期: 2025-11-07

备注: NeurIPS 2025 Datasets & Benchmarks

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出VMDT，首个视频模态基础模型可信度统一评估平台，揭示现有模型在安全性、公平性等方面的不足。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频基础模型 可信度评估 安全性 公平性 隐私 对抗鲁棒性 文本到视频 视频到文本

📋 核心要点

现有视频基础模型缺乏统一的可信度评估标准，难以全面了解其在安全性、公平性等方面的潜在风险。
VMDT平台通过构建多维度评估体系，系统性地评估文本到视频和视频到文本模型的可信度，揭示其潜在问题。
实验结果表明，现有开源文本到视频模型在安全性和公平性方面存在显著缺陷，视频到文本模型在规模增大时可能面临隐私风险。

📝 摘要（中文）

随着基础模型变得日益复杂，确保其可信度变得至关重要。然而，与文本和图像不同，视频模态仍然缺乏全面的可信度基准。我们推出了VMDT（Video-Modal DecodingTrust），这是首个统一平台，用于评估文本到视频（T2V）和视频到文本（V2T）模型在五个关键可信度维度上的表现：安全性、幻觉、公平性、隐私和对抗鲁棒性。通过使用VMDT对7个T2V模型和19个V2T模型进行广泛评估，我们发现了一些重要的见解。例如，所有评估的开源T2V模型都未能识别有害查询，并且经常生成有害视频，同时表现出比图像模态模型更高的不公平性。在V2T模型中，不公平性和隐私风险随着规模的增加而上升，而幻觉和对抗鲁棒性有所提高——尽管总体性能仍然很低。独特的是，安全性与模型大小没有相关性，这意味着规模以外的因素决定了当前的安全水平。我们的研究结果强调了开发更强大和更值得信赖的视频基础模型的迫切需求，VMDT提供了一个系统的框架来衡量和跟踪朝着这个目标取得的进展。

🔬 方法详解

问题定义：论文旨在解决视频基础模型（包括文本到视频T2V和视频到文本V2T模型）缺乏统一、全面的可信度评估标准的问题。现有方法无法有效衡量这些模型在安全性、幻觉、公平性、隐私和对抗鲁棒性等关键维度上的表现，导致难以发现和解决潜在的风险和缺陷。

核心思路：论文的核心思路是构建一个统一的评估平台VMDT，该平台能够系统性地评估T2V和V2T模型在多个可信度维度上的表现。通过设计针对每个维度的评估指标和测试用例，VMDT能够量化模型的可信度，并揭示其潜在的弱点。这种方法旨在为视频基础模型的研究和开发提供更可靠的评估工具，促进更安全、更公平和更可靠的模型设计。

技术框架：VMDT平台包含以下主要模块：1) 数据集构建模块：收集或生成用于评估各个可信度维度的数据集，包括有害查询、幻觉场景、偏见数据等。2) 评估指标定义模块：为每个可信度维度定义量化的评估指标，例如安全性评估指标、幻觉评估指标、公平性评估指标等。3) 模型评估模块：使用定义的数据集和评估指标，对T2V和V2T模型进行评估，并生成评估报告。4) 结果分析模块：对评估结果进行分析，揭示模型在各个维度上的表现，并识别潜在的风险和缺陷。

关键创新：VMDT的关键创新在于它是首个针对视频基础模型可信度进行统一评估的平台。它不仅涵盖了多个关键的可信度维度，还提供了量化的评估指标和系统性的评估流程。此外，VMDT还能够比较不同模型在各个维度上的表现，从而为模型选择和改进提供参考。

关键设计：VMDT的关键设计包括：1) 针对不同可信度维度设计特定的测试用例和评估指标，例如使用对抗样本评估模型的对抗鲁棒性，使用包含偏见的数据集评估模型的公平性。2) 采用自动化评估流程，减少人工干预，提高评估效率和客观性。3) 提供详细的评估报告，包括各个维度的评估结果、可视化分析和潜在风险提示。

🖼️ 关键图片

📊 实验亮点

实验结果显示，所有开源T2V模型在识别有害查询方面表现不佳，且生成视频存在较高不公平性。V2T模型的不公平性和隐私风险随模型规模增大而上升，但幻觉和对抗鲁棒性有所改善。安全性与模型规模无明显相关性。这些发现突显了现有视频基础模型在可信度方面的不足，并验证了VMDT平台在评估和揭示这些问题方面的有效性。

🎯 应用场景

VMDT平台可应用于视频内容安全审核、AI伦理风险评估、视频生成模型优化等领域。通过系统评估视频模型的安全性、公平性等，有助于降低有害内容传播风险，提升用户体验，并促进负责任的AI技术发展。该平台还可用于指导视频模型的设计和训练，使其更符合伦理规范和社会价值观。

📄 摘要（原文）

As foundation models become more sophisticated, ensuring their trustworthiness becomes increasingly critical; yet, unlike text and image, the video modality still lacks comprehensive trustworthiness benchmarks. We introduce VMDT (Video-Modal DecodingTrust), the first unified platform for evaluating text-to-video (T2V) and video-to-text (V2T) models across five key trustworthiness dimensions: safety, hallucination, fairness, privacy, and adversarial robustness. Through our extensive evaluation of 7 T2V models and 19 V2T models using VMDT, we uncover several significant insights. For instance, all open-source T2V models evaluated fail to recognize harmful queries and often generate harmful videos, while exhibiting higher levels of unfairness compared to image modality models. In V2T models, unfairness and privacy risks rise with scale, whereas hallucination and adversarial robustness improve -- though overall performance remains low. Uniquely, safety shows no correlation with model size, implying that factors other than scale govern current safety levels. Our findings highlight the urgent need for developing more robust and trustworthy video foundation models, and VMDT provides a systematic framework for measuring and tracking progress toward this goal. The code is available at https://sunblaze-ucb.github.io/VMDT-page/.

VMDT: Decoding the Trustworthiness of Video Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理