LoViF 2026 The First Challenge on Holistic Quality Assessment for 4D World Model (PhyScore)
作者: Wei Luo, Yiting Lu, Xin Li, Haoran Li, Fengbin Guan, Chen Gao, Xin Jin, Yong Li, Zhibo Chen, Sijing Wu, Kang Fu, Yunhao Li, Ziang Xiao, Huiyu Duan, Jing Liu, Qiang Hu, Xiongkuo Min, Guangtao Zhai, Manxi Sun, Zixuan Guo, Yun Li, Ziyang Chen, Manabu Tsukada, Zhengyang Li, Zhenglin Du, Yi Wen, Licheng Jiao, Fang Liu, Lingling Li, Yiwen Ren, Zhilong Song, Dubing Chen, Yucheng Zhou, Tianyi Yan, Huan Zheng
分类: cs.CV
发布日期: 2026-05-06
💡 一句话要点
LoViF 2026 PhyScore挑战赛:4D世界模型整体质量评估
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 世界模型 质量评估 物理真实感 时间一致性 异常检测 4D生成 视频生成 PhyScore
📋 核心要点
- 现有世界模型评估主要依赖感知质量,忽略了物理合理性、时间连贯性和条件一致性。
- PhyScore挑战赛要求构建综合指标,同时评估视频质量、物理真实感、条件对齐和时间一致性。
- 数据集包含1554个视频,涵盖动力学、光学、热力学等物理场景,并采用人工标注和自动化质控。
📝 摘要(中文)
本文介绍了LoViF 2026 PhyScore挑战赛,这是一项针对世界模型生成的视频在2D和4D生成设置下的整体质量评估竞赛。该挑战赛旨在解决当前评估实践中的一个核心问题:仅凭感知质量不足以判断生成的动态是否在物理上合理、时间上连贯以及与输入条件一致。参赛者需要构建一个指标,联合预测四个维度,即视频质量、物理真实感、条件-视频对齐和时间一致性。此外,参赛者还需要定位物理异常的时间戳,以便进行细粒度的诊断。基准数据集包含由七个代表性的世界生成模型生成的1554个视频,分为三个赛道(文本到2D、图像到4D和视频到4D),涵盖26个类别。这些类别明确涵盖了与物理相关的场景,包括动力学、光学和热力学,以及各种真实世界和创意内容。为了确保标签的可靠性,分数和异常时间戳通过经过训练的人工标注以及额外的自动化质量控制流程生成。评估基于分数预测和异常定位,采用结合TimeStamp_IOU和SRCC/PLCC的综合协议。本报告总结了挑战赛的设计,并提供了来自提交解决方案的方法层面的见解。
🔬 方法详解
问题定义:现有世界模型生成的视频评估主要集中在感知质量上,缺乏对物理合理性、时间连贯性以及与输入条件一致性的综合考量。这导致生成的视频可能在视觉上令人满意,但在物理上不合理,或者与给定的条件不符。因此,需要一种能够全面评估世界模型生成视频质量的指标。
核心思路:PhyScore挑战赛的核心思路是构建一个综合性的评估指标,该指标能够同时衡量视频的感知质量、物理真实感、条件-视频对齐以及时间一致性。通过综合考虑这些因素,可以更全面地评估世界模型生成视频的质量,并识别潜在的物理异常。
技术框架:PhyScore挑战赛的技术框架主要包括以下几个部分:1)构建包含1554个视频的基准数据集,涵盖不同的生成模型和物理场景;2)定义四个评估维度:视频质量、物理真实感、条件-视频对齐和时间一致性;3)采用人工标注和自动化质量控制相结合的方式,生成可靠的分数和异常时间戳;4)使用TimeStamp_IOU和SRCC/PLCC等指标,综合评估参赛者的分数预测和异常定位能力。
关键创新:PhyScore挑战赛的关键创新在于提出了一个综合性的世界模型生成视频质量评估框架,该框架不仅考虑了视频的感知质量,还考虑了物理真实感、条件-视频对齐和时间一致性。此外,该挑战赛还构建了一个包含丰富物理场景的基准数据集,为相关研究提供了有力支持。
关键设计:挑战赛的关键设计包括:1)数据集的构建,涵盖了多种世界模型和物理场景,保证了评估的全面性;2)评估指标的选择,综合考虑了分数预测和异常定位,能够更全面地评估参赛者的能力;3)人工标注和自动化质量控制相结合的方式,保证了标签的可靠性;4)赛道设置,区分了文本到2D、图像到4D和视频到4D三种不同的生成任务。
🖼️ 关键图片
📊 实验亮点
PhyScore挑战赛构建了一个包含1554个视频的基准数据集,涵盖了七个代表性的世界生成模型和26个类别,覆盖了动力学、光学和热力学等物理相关场景。该数据集为世界模型质量评估提供了宝贵资源,并为未来的研究奠定了基础。挑战赛的评估协议结合了TimeStamp_IOU和SRCC/PLCC,能够全面评估模型在分数预测和异常定位方面的性能。
🎯 应用场景
该研究成果可应用于各种需要高质量世界模型生成视频的领域,例如游戏开发、电影制作、机器人仿真和自动驾驶等。通过使用PhyScore挑战赛提出的评估框架,可以更好地评估和改进世界模型,从而生成更逼真、更符合物理规律的视频内容,提升用户体验和应用效果。
📄 摘要(原文)
This paper reports on the LoViF 2026 PhyScore challenge, a competition on holistic quality assessment of world-model-generated videos across both 2D and 4D generation settings. The challenge is motivated by a central gap in current evaluation practice: perceptual quality alone is insufficient to judge whether generated dynamics are physically plausible, temporally coherent, and consistent with input conditions. Participants are required to build a metric that jointly predicts four dimensions, i.e., Video Quality, Physical Realism, Condition-Video Alignment, and Temporal Consistency. Depart from that, participants also need to localize physical anomaly timestamps for fine-grained diagnosis. The benchmark dataset contains 1,554 videos generated by seven representative world generative models, organized into three tracks (text-2D, image-to-4D, and video-to-4D) and spanning 26 categories. These categories explicitly cover physics-relevant scenarios, including dynamics, optics, and thermodynamics, together with diverse real-world and creative content. To ensure label reliability, scores and anomaly timestamps are produced through trained human annotation with an additional automated quality-control pass. Evaluation is based on both score prediction and anomaly localization, with a composite protocol that combines TimeStamp_IOU and SRCC/PLCC. This report summarizes the challenge design and provides method-level insights from submitted solutions.