From Priors to Perception: Grounding Video-LLMs in Physical Reality

作者: Zicheng Zhao, Chaofan Gan, Shijie Li, Weiyao Lin

分类: cs.CV

发布日期: 2026-05-06

💡 一句话要点

提出PACC和VARC，提升视频大语言模型在物理现实中的推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 物理推理 对抗学习 语义先验 视觉锚定

📋 核心要点

现有Video-LLM在物理推理上存在不足，易受语义先验影响，无法有效区分视觉伪像和逻辑错误。
论文提出PACC数据集和VARC推理链，旨在解耦视觉信息和先验知识，提升模型对物理规律的理解。
实验表明，使用PACC进行LoRA微调，结合VARC推理，能显著提升模型在物理推理任务上的性能。

📝 摘要（中文）

视频大语言模型(Video-LLMs)在通用理解方面表现出色，但在细粒度的物理推理方面存在系统性缺陷。现有的干预措施不仅泛化能力有限，而且从根本上混淆了生成伪像与真实的物理谬误。研究发现，模型不仅在违反物理规律的异常情况中失效，而且在视觉事实与统计预期相矛盾的反直觉场景中也系统性地失败。因此，论文提出了统一归因理论：这种双重失败并非源于感知缺陷，而是源于语义先验主导——推理机制被内部叙事脚本深度劫持。为了解决这个问题，论文构建了程序化对抗课程(PACC)，这是第一个基于物理定律合成的高保真对抗视频数据集，彻底解耦了视觉伪像与逻辑错误。同时，设计了视觉锚定推理链(VARC)，迫使模型在逻辑判断之前，明确地将其判断建立在低级视觉事实上。实验表明，在没有侵入性架构修改的情况下，使用PACC课程的标准LoRA微调有效地消除了最先进(SOTA)模型中的先验干扰，从而在物理推理能力上实现了显著飞跃。

🔬 方法详解

问题定义：Video-LLM虽然在视频理解方面取得了进展，但在细粒度的物理推理方面表现不佳。现有方法难以区分视觉伪像和真实的物理谬误，并且容易受到语义先验的干扰，导致模型在违反物理规律或与常识相悖的情况下做出错误判断。因此，需要解决如何让模型摆脱先验知识的束缚，真正基于视觉信息进行推理的问题。

核心思路：论文的核心思路是，通过构建一个对抗性的数据集，迫使模型学习区分视觉信息和先验知识，并设计一个推理链，引导模型首先关注视觉事实，然后再进行逻辑判断。这样可以有效地减少语义先验的干扰，提高模型在物理推理任务上的准确性。

技术框架：整体框架包含两个主要部分：PACC数据集的构建和VARC推理链的设计。PACC数据集通过程序化生成，包含大量违反物理规律的视频，用于训练模型区分视觉伪像和逻辑错误。VARC推理链则强制模型首先提取视频中的视觉信息，然后基于这些信息进行推理，从而减少先验知识的影响。

关键创新：论文的关键创新在于，提出了统一归因理论，指出模型在物理推理上的失败并非源于感知缺陷，而是源于语义先验主导。基于此，论文构建了PACC数据集和VARC推理链，有效地解决了这个问题。与现有方法相比，该方法更加注重解耦视觉信息和先验知识，从而提高了模型的泛化能力。

关键设计：PACC数据集的构建采用了程序化生成的方式，可以灵活地控制视频中的物理规律。VARC推理链的设计则包括两个阶段：视觉信息提取和逻辑判断。在视觉信息提取阶段，模型需要提取视频中的关键帧，并识别其中的物体和关系。在逻辑判断阶段，模型基于提取的视觉信息，判断视频是否符合物理规律。具体参数设置和网络结构等细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用PACC数据集进行LoRA微调，并结合VARC推理链，可以显著提高模型在物理推理任务上的性能。具体提升幅度在论文中未给出明确数据，属于未知信息。该方法在不修改模型架构的情况下，有效地消除了先验干扰，证明了其有效性和通用性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、视频监控等领域。通过提高模型对物理世界的理解能力，可以使机器人在复杂环境中做出更准确的决策，例如，识别潜在的危险情况，避免碰撞等。此外，该研究还可以用于视频内容审核，自动检测违反物理规律的视频。

📄 摘要（原文）

While Video Large Language Models (Video-LLMs) excel in general understanding, they exhibit systematic deficits in fine-grained physical reasoning. Existing interventions not only suffer from limited generalization but fundamentally conflate generative artifacts with genuine physical fallacies. Furthermore, we find that models fail systematically not only in anti-physics anomalies but also in counter-intuitive scenarios where visual facts contradict statistical expectations. Accordingly, we propose the Unified Attribution Theory: this dual failure stems not from perception deficiency, but from Semantic Prior Dominance -- the reasoning mechanism is deeply hijacked by internal narrative scripts. To address this, we construct the Programmatic Adversarial Curriculum (PACC), the first high-fidelity adversarial video dataset synthesized based on physical laws, thoroughly decoupling visual artifacts from logical errors. Concurrently, we design the Visual-Anchored Reasoning Chain (VARC) to force models to explicitly ground their judgments in low-level visual facts prior to logical adjudication. Experiments demonstrate that without invasive architectural modifications, standard LoRA fine-tuning with the PACC curriculum effectively neutralizes prior interference in state-of-the-art (SOTA) models, yielding a substantial leap in physical reasoning capabilities.

From Priors to Perception: Grounding Video-LLMs in Physical Reality

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理