PhysBrain 1.0 Technical Report

作者: Shijie Lian, Bin Yu, Xiaopeng Lin, Changti Wu, Hang Yuan, Xiaolin Hu, Zhaolong Shen, Yuzhuo Miao, Haishan Liu, Yuxuan Tian, Yukun Shi, Cong Huang, Kai Chen

分类: cs.RO, cs.AI, cs.CL, cs.CV

发布日期: 2026-05-14

备注: Project Page: https://phys-brain.github.io

💡 一句话要点

PhysBrain 1.0：通过物理常识学习提升具身智能

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 物理常识 视觉-语言-动作模型 第一视角视频 机器人学习

📋 核心要点

现有VLA模型依赖机器人轨迹学习物理理解，数据覆盖范围有限，难以泛化。
PhysBrain 1.0将人类第一视角视频转化为结构化物理常识，为VLA模型提供监督信号。
实验表明，PhysBrain 1.0在多项基准测试中达到SOTA，尤其在领域外泛化能力上表现突出。

📝 摘要（中文）

PhysBrain 1.0 研究了一种互补的路径，旨在将大规模人类第一视角视频转换为结构化的物理常识监督，然后进行机器人适配，以弥补机器人轨迹在学习广泛物理理解方面的局限性。该数据引擎提取场景元素、空间动态、动作执行和深度感知关系，然后将它们转换为问答监督，用于训练 PhysBrain 视觉-语言模型（VLM）。由此产生的物理先验通过一种能力保持和语言敏感的适配设计进一步转移到视觉-语言-动作（VLA）策略。在包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa 在内的多模态问答和具身控制基准测试中，PhysBrain 1.0 取得了 SOTA 结果，并在 SimplerEnv 上表现出特别强的领域外泛化性能。这些结果表明，从人类交互视频中扩展物理常识可以为从多模态理解到机器人动作提供有效的桥梁。

🔬 方法详解

问题定义：现有视觉-语言-动作模型（VLA）依赖于机器人轨迹进行学习，但机器人轨迹数据覆盖范围有限，难以学习到广泛的物理常识，导致模型泛化能力不足。因此，如何利用更丰富的、更贴近人类经验的数据来提升VLA模型的物理常识理解能力是一个关键问题。

核心思路：PhysBrain 1.0的核心思路是从大规模人类第一视角视频中提取结构化的物理常识，并将其作为监督信号来训练VLA模型。通过将人类的视觉经验转化为可学习的知识，可以有效地提升模型对物理世界的理解和推理能力。这种方法避免了直接依赖机器人轨迹数据，从而扩展了模型的学习范围。

技术框架：PhysBrain 1.0包含一个数据引擎和一个VLA模型训练框架。数据引擎负责从人类第一视角视频中提取场景元素、空间动态、动作执行和深度感知关系，并将这些信息转化为问答形式的监督数据。然后，这些数据被用于训练PhysBrain VLM。训练好的VLM通过一种能力保持和语言敏感的适配设计，将物理先验知识迁移到VLA策略中。

关键创新：该论文的关键创新在于利用人类第一视角视频作为物理常识的来源，并设计了一个数据引擎来自动提取结构化的物理知识。这种方法避免了人工标注的成本，并且能够利用大规模的视频数据来提升模型的学习效果。此外，论文还提出了一种能力保持和语言敏感的适配方法，用于将VLM的知识迁移到VLA策略中。

关键设计：数据引擎的设计是关键。它需要能够准确地提取视频中的场景元素、空间关系、动作信息和深度信息。具体的技术细节（如使用的目标检测、姿态估计、深度估计等算法）在论文中可能没有详细描述，属于未知信息。适配方法的设计也至关重要，需要保证在知识迁移的过程中，VLA策略能够保持原有的能力，并且能够理解和利用VLM提供的语言信息。

🖼️ 关键图片

📊 实验亮点

PhysBrain 1.0 在多个基准测试中取得了 SOTA 结果，包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa。尤其值得一提的是，在 SimplerEnv 上的领域外泛化性能表现突出，表明该方法能够有效地提升模型对新环境的适应能力。具体的性能提升幅度需要参考论文中的详细数据。

🎯 应用场景

PhysBrain 1.0 的研究成果可应用于各种需要机器人与物理世界交互的场景，例如家庭服务机器人、工业自动化、医疗辅助机器人等。通过提升机器人对物理常识的理解，可以使其更好地完成各种任务，例如物体操作、环境导航、人机协作等，从而提高生产效率和服务质量。未来，该研究有望推动具身智能的发展，使机器人能够更好地适应复杂多变的环境。

📄 摘要（原文）

Vision-language-action models have advanced rapidly, but robot trajectories alone provide limited coverage for learning broad physical understanding. PhysBrain 1.0 studies a complementary route: converting large-scale human egocentric video into structured physical commonsense supervision before robot adaptation. Our data engine extracts scene elements, spatial dynamics, action execution, and depth-aware relations, then turns them into question-answer supervision for training PhysBrain VLMs. The resulting physical priors are further transferred to VLA policies through a capability-preserving and language-sensitive adaptation design. Across multimodal QA benchmarks and embodied control benchmarks, including ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, and RoboCasa, PhysBrain 1.0 achieves SOTA results and shows especially strong out-of-domain performance on SimplerEnv. These results suggest that scaling physical commonsense from human interaction video can provide an effective bridge from multimodal understanding to robot action.

PhysBrain 1.0 Technical Report

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理