Do Joint Audio-Video Generation Models Understand Physics?

作者: Zijun Cui, Xiulong Liu, Hao Fang, Mingwei Xu, Jiageng Liu, Zexin Xu, Weiguo Pian, Shijian Deng, Feiyu Du, Chenming Ge, Yapeng Tian

分类: cs.SD, cs.AI, cs.CV, cs.MM

发布日期: 2026-05-08

备注: Preprint. Full abstract appears in the PDF

💡 一句话要点

提出AV-Phys Bench基准与AV-Phys Agent评估框架，揭示音视频生成模型在物理常识理解上的局限性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音视频生成 物理常识评估 多模态一致性 基准测试 智能体评估 跨模态学习

📋 核心要点

现有音视频生成模型虽视觉效果逼真，但缺乏对现实世界物理规律的深层理解，常产生违背物理常识的音画不匹配现象。
提出AV-Phys Bench基准，通过稳态、事件及环境转换场景，系统性测试模型在物理常识与跨模态一致性方面的表现。
引入AV-Phys Agent评估框架，利用多模态大模型与声学工具实现自动化评测，实验表明当前模型在复杂动态场景下仍存在显著瓶颈。

📝 摘要（中文）

联合音视频生成模型正趋于专业制作水准，但核心问题在于它们是真正理解物理规律，还是仅生成了看似合理但违背现实一致性的内容？本文提出了AV-Phys Bench，这是一个用于评估联合音视频生成中物理常识的基准。该基准涵盖稳态、事件转换和环境转换三类场景，并包含针对物理不一致行为的“反物理”提示词。评估维度包括视觉语义、音频语义、视觉物理、音频物理及跨模态物理常识。研究评估了7个主流模型，发现尽管Seedance 2.0表现领先，但所有模型在处理事件驱动和环境转换时性能显著下降，且在反物理提示下表现脆弱。此外，本文引入了AV-Phys Agent，这是一种结合多模态大模型与确定性声学测量工具的ReAct风格评估器，其评分与人类评价高度一致。研究指出，跨模态物理一致性与动态场景转换是当前生成模型面临的关键挑战。

🔬 方法详解

问题定义：现有音视频生成模型往往通过统计相关性而非物理因果律进行生成，导致在处理物体交互、环境变化等需要物理常识的场景时，出现音画不同步或物理逻辑错误，缺乏量化的评估手段。

核心思路：通过构建包含物理约束的基准测试集，从稳态、事件转换、环境转换三个维度对模型进行压力测试，并引入自动化评估智能体，以弥补人工评估成本高、主观性强的缺陷。

技术框架：AV-Phys Bench包含精心设计的提示词库，覆盖多种物理场景；AV-Phys Agent采用ReAct范式，通过多模态大模型进行逻辑推理，并调用确定性声学工具（如频谱分析、能量检测）对生成结果进行客观量化。

关键创新：首次将“反物理提示（Anti-AV-Physics）”引入评估体系，强制模型在违背物理常识的指令下暴露其逻辑缺陷；同时提出了一种结合AI推理与硬核声学测量工具的混合评估方法。

关键设计：评估维度细化为五大指标，涵盖语义与物理两个层面；AV-Phys Agent通过多步推理过程，将视觉动态与音频特征进行对齐校验，确保评估结果具备高度的可解释性与人类对齐度。

🖼️ 关键图片

📊 实验亮点

实验覆盖了3个闭源与4个开源模型，结果显示Seedance 2.0在综合物理理解上表现最优。然而，所有模型在事件驱动和环境转换场景下性能均出现断崖式下跌，且在反物理提示词下，即使是顶尖的闭源系统也表现出明显的逻辑崩溃，证明了当前模型对物理规律的理解仍处于浅层统计阶段。

🎯 应用场景

该研究可广泛应用于音视频生成模型的研发与质量控制，帮助开发者识别模型在物理逻辑上的短板。在影视后期制作、虚拟现实内容生成及机器人仿真训练等领域，该基准能有效筛选出具备高物理一致性的生成模型，提升生成内容的真实感与可信度。

📄 摘要（原文）

Joint audio-video generation models are rapidly approaching professional production quality, raising a central question: do they understand audio-visual physics, or merely generate plausible sounds and frames that violate real-world consistency? We introduce AV-Phys Bench, a benchmark for evaluating physical commonsense in joint audio-video generation. AV-Phys Bench tests models across three scene categories: Steady State, Event Transition, and Environment Transition. It covers physics-grounded subcategories drawn from real-world scenes, plus Anti-AV-Physics prompts that deliberately request physically inconsistent audio-video behavior. Each generation is evaluated along five dimensions: visual semantic adherence, audio semantic adherence, visual physical commonsense, audio physical commonsense, and cross-modal physical commonsense. Across three proprietary and four open-source models, we find that Seedance 2.0 performs best overall, but all models remain far from robust physical understanding. Performance drops sharply on event-driven and environment-driven transitions, and even strong proprietary systems collapse on Anti-AV-Physics prompts. We further introduce AV-Phys Agent, a ReAct-style evaluator that combines a multimodal language model with deterministic acoustic measurement tools, producing rankings that closely align with human ratings. Our results identify cross-modal physical consistency and transition-driven scene dynamics as key open challenges for joint audio-video generation.

Do Joint Audio-Video Generation Models Understand Physics?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理