VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models
作者: Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
分类: cs.CV, cs.LG
发布日期: 2025-04-17
备注: Code and Data: https://github.com/HaroldChen19/VistaDPO
🔗 代码/项目: GITHUB
💡 一句话要点
VistaDPO:提出视频分层时空直接偏好优化方法,提升大型视频模型性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型视频模型 视频理解 直接偏好优化 时空对齐 视频幻觉
📋 核心要点
- 现有大型视频模型在理解视频内容时,容易产生与人类直觉不符的幻觉,缺乏细粒度的视频-语言对齐能力。
- VistaDPO通过分层时空偏好优化,在实例、时间和感知三个层级上对齐视频内容与文本描述,提升模型理解能力。
- 实验结果表明,VistaDPO能有效缓解视频幻觉问题,并在视频问答和字幕生成任务上显著提升现有大型视频模型的性能。
📝 摘要(中文)
大型视频模型(LVMs)在视频理解方面展现了潜力,但常与人类直觉不符,并存在视频幻觉问题。为了解决这些挑战,我们提出了VistaDPO,一种用于视频分层时空直接偏好优化的新框架。VistaDPO在三个层级上增强了文本-视频偏好对齐:i) 实例级,对齐整体视频内容与响应;ii) 时间级,对齐视频时序语义与事件描述;iii) 感知级,对齐空间对象与语言token。由于缺乏用于细粒度视频-语言偏好对齐的数据集,我们构建了VistaDPO-7k,一个包含7.2K QA对的数据集,标注了选择和拒绝的响应,以及时空定位信息,如时间戳、关键帧和边界框。在视频幻觉、视频问答和字幕生成等基准测试上的大量实验表明,VistaDPO显著提高了现有LVM的性能,有效缓解了视频-语言不对齐和幻觉问题。
🔬 方法详解
问题定义:现有的大型视频模型(LVMs)在视频理解方面表现出潜力,但它们经常产生与人类直觉不符的幻觉,并且缺乏细粒度的视频-语言对齐能力。现有方法难以有效对齐视频中的时空信息与文本描述,导致模型在理解视频内容时出现偏差和错误。
核心思路:VistaDPO的核心思路是通过直接偏好优化(Direct Preference Optimization, DPO)来对齐视频内容与文本描述。它不是直接预测文本,而是学习一个偏好模型,该模型能够区分哪个文本描述更符合视频内容。通过分层的方式,在实例、时间和感知三个层级上进行对齐,从而实现更细粒度的视频理解。
技术框架:VistaDPO的整体框架包含三个主要层级:实例级、时间级和感知级。在实例级,模型学习整体视频内容与响应之间的偏好关系。在时间级,模型学习视频时序语义与事件描述之间的偏好关系,例如,通过时间戳来定位事件。在感知级,模型学习空间对象与语言token之间的偏好关系,例如,通过边界框来定位对象。整个框架使用DPO进行优化,目标是最大化选择的响应的概率,同时最小化拒绝的响应的概率。
关键创新:VistaDPO的关键创新在于其分层时空偏好优化方法。与以往只关注整体视频-文本对齐的方法不同,VistaDPO将对齐过程分解为三个层级,从而能够更细粒度地捕捉视频中的时空信息。此外,VistaDPO还构建了一个新的数据集VistaDPO-7k,该数据集包含细粒度的时空标注信息,为训练和评估模型提供了支持。
关键设计:VistaDPO的关键设计包括:1) 分层对齐策略,确保模型能够从不同粒度理解视频内容;2) DPO损失函数,用于优化偏好模型,鼓励模型选择更符合视频内容的响应;3) VistaDPO-7k数据集,提供丰富的时空标注信息,用于训练和评估模型。具体来说,DPO损失函数的目标是最大化选择的响应的概率,同时最小化拒绝的响应的概率,其形式通常为交叉熵损失的变体。数据集包含时间戳、关键帧和边界框等信息,用于指导模型学习时空关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VistaDPO在视频幻觉、视频问答和字幕生成等任务上显著提升了现有大型视频模型的性能。例如,在视频幻觉任务上,VistaDPO有效降低了模型产生幻觉的概率。在视频问答任务上,VistaDPO提高了模型回答问题的准确率。在字幕生成任务上,VistaDPO生成了更符合视频内容的字幕。具体性能提升数据在论文中有详细展示。
🎯 应用场景
VistaDPO具有广泛的应用前景,可用于提升视频问答、视频字幕生成、视频内容审核等任务的性能。该研究成果有助于开发更智能、更可靠的视频理解系统,例如,可以应用于智能监控、自动驾驶、视频搜索等领域,提升用户体验和工作效率。未来,该方法还可以扩展到其他多模态任务中,例如图像-文本对齐、音频-视频对齐等。
📄 摘要(原文)
Large Video Models (LVMs) built upon Large Language Models (LLMs) have shown promise in video understanding but often suffer from misalignment with human intuition and video hallucination issues. To address these challenges, we introduce VistaDPO, a novel framework for Video Hierarchical Spatial-Temporal Direct Preference Optimization. VistaDPO enhances text-video preference alignment across three hierarchical levels: i) Instance Level, aligning overall video content with responses; ii) Temporal Level, aligning video temporal semantics with event descriptions; and iii) Perceptive Level, aligning spatial objects with language tokens. Given the lack of datasets for fine-grained video-language preference alignment, we construct VistaDPO-7k, a dataset of 7.2K QA pairs annotated with chosen and rejected responses, along with spatial-temporal grounding information such as timestamps, keyframes, and bounding boxes. Extensive experiments on benchmarks such as Video Hallucination, Video QA, and Captioning performance tasks demonstrate that VistaDPO significantly improves the performance of existing LVMs, effectively mitigating video-language misalignment and hallucination. The code and data are available at https://github.com/HaroldChen19/VistaDPO.