Do Joint Audio-Video Generation Models Understand Physics?
作者: Zijun Cui, Xiulong Liu, Hao Fang, Mingwei Xu, Jiageng Liu, Zexin Xu, Weiguo Pian, Shijian Deng, Feiyu Du, Chenming Ge, Yapeng Tian
分类: cs.SD, cs.AI, cs.CV, cs.MM
发布日期: 2026-05-08
备注: Preprint. Full abstract appears in the PDF
💡 一句话要点
提出AV-Phys Bench基准与AV-Phys Agent评估框架,揭示音视频生成模型在物理常识理解上的局限性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音视频生成 物理常识评估 多模态一致性 基准测试 智能体评估 跨模态学习
📋 核心要点
- 现有音视频生成模型虽视觉效果逼真,但缺乏对现实世界物理规律的深层理解,常产生违背物理常识的音画不匹配现象。
- 提出AV-Phys Bench基准,通过稳态、事件及环境转换场景,系统性测试模型在物理常识与跨模态一致性方面的表现。
- 引入AV-Phys Agent评估框架,利用多模态大模型与声学工具实现自动化评测,实验表明当前模型在复杂动态场景下仍存在显著瓶颈。
📝 摘要(中文)
联合音视频生成模型正趋于专业制作水准,但核心问题在于它们是真正理解物理规律,还是仅生成了看似合理但违背现实一致性的内容?本文提出了AV-Phys Bench,这是一个用于评估联合音视频生成中物理常识的基准。该基准涵盖稳态、事件转换和环境转换三类场景,并包含针对物理不一致行为的“反物理”提示词。评估维度包括视觉语义、音频语义、视觉物理、音频物理及跨模态物理常识。研究评估了7个主流模型,发现尽管Seedance 2.0表现领先,但所有模型在处理事件驱动和环境转换时性能显著下降,且在反物理提示下表现脆弱。此外,本文引入了AV-Phys Agent,这是一种结合多模态大模型与确定性声学测量工具的ReAct风格评估器,其评分与人类评价高度一致。研究指出,跨模态物理一致性与动态场景转换是当前生成模型面临的关键挑战。
🔬 方法详解
问题定义:现有音视频生成模型往往通过统计相关性而非物理因果律进行生成,导致在处理物体交互、环境变化等需要物理常识的场景时,出现音画不同步或物理逻辑错误,缺乏量化的评估手段。
核心思路:通过构建包含物理约束的基准测试集,从稳态、事件转换、环境转换三个维度对模型进行压力测试,并引入自动化评估智能体,以弥补人工评估成本高、主观性强的缺陷。
技术框架:AV-Phys Bench包含精心设计的提示词库,覆盖多种物理场景;AV-Phys Agent采用ReAct范式,通过多模态大模型进行逻辑推理,并调用确定性声学工具(如频谱分析、能量检测)对生成结果进行客观量化。
关键创新:首次将“反物理提示(Anti-AV-Physics)”引入评估体系,强制模型在违背物理常识的指令下暴露其逻辑缺陷;同时提出了一种结合AI推理与硬核声学测量工具的混合评估方法。
关键设计:评估维度细化为五大指标,涵盖语义与物理两个层面;AV-Phys Agent通过多步推理过程,将视觉动态与音频特征进行对齐校验,确保评估结果具备高度的可解释性与人类对齐度。
🖼️ 关键图片
📊 实验亮点
实验覆盖了3个闭源与4个开源模型,结果显示Seedance 2.0在综合物理理解上表现最优。然而,所有模型在事件驱动和环境转换场景下性能均出现断崖式下跌,且在反物理提示词下,即使是顶尖的闭源系统也表现出明显的逻辑崩溃,证明了当前模型对物理规律的理解仍处于浅层统计阶段。
🎯 应用场景
该研究可广泛应用于音视频生成模型的研发与质量控制,帮助开发者识别模型在物理逻辑上的短板。在影视后期制作、虚拟现实内容生成及机器人仿真训练等领域,该基准能有效筛选出具备高物理一致性的生成模型,提升生成内容的真实感与可信度。
📄 摘要(原文)
Joint audio-video generation models are rapidly approaching professional production quality, raising a central question: do they understand audio-visual physics, or merely generate plausible sounds and frames that violate real-world consistency? We introduce AV-Phys Bench, a benchmark for evaluating physical commonsense in joint audio-video generation. AV-Phys Bench tests models across three scene categories: Steady State, Event Transition, and Environment Transition. It covers physics-grounded subcategories drawn from real-world scenes, plus Anti-AV-Physics prompts that deliberately request physically inconsistent audio-video behavior. Each generation is evaluated along five dimensions: visual semantic adherence, audio semantic adherence, visual physical commonsense, audio physical commonsense, and cross-modal physical commonsense. Across three proprietary and four open-source models, we find that Seedance 2.0 performs best overall, but all models remain far from robust physical understanding. Performance drops sharply on event-driven and environment-driven transitions, and even strong proprietary systems collapse on Anti-AV-Physics prompts. We further introduce AV-Phys Agent, a ReAct-style evaluator that combines a multimodal language model with deterministic acoustic measurement tools, producing rankings that closely align with human ratings. Our results identify cross-modal physical consistency and transition-driven scene dynamics as key open challenges for joint audio-video generation.