Being-H0.7: A Latent World-Action Model from Egocentric Videos

作者: Hao Luo, Wanpeng Zhang, Yicheng Feng, Sipeng Zheng, Haiweng Xu, Chaoyi Xu, Ziheng Xi, Yuhui Fu, Zongqing Lu

分类: cs.RO, cs.CV, cs.LG

发布日期: 2026-04-30

💡 一句话要点

Being-H0.7：一种基于自中心视频的潜在世界-动作模型，提升机器人控制效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人控制 视觉-语言-动作模型 世界模型 潜在空间推理 未来预测

📋 核心要点

现有VLA模型依赖稀疏动作监督，易于学习捷径映射，缺乏对动力学和任务进度的有效表征。
Being-H0.7提出一种潜在世界-动作模型，通过可学习的潜在查询和未来信息双分支训练，实现未来感知推理。
实验表明，Being-H0.7在多个模拟和真实世界任务中取得了领先或可比的性能，兼顾了预测性和效率。

📝 摘要（中文）

视觉-语言-动作模型(VLA)通过将多模态观测和语言指令直接映射到动作，推动了通用机器人控制的发展。然而，稀疏的动作监督往往鼓励捷径映射，而非动力学、接触和任务进度的表征。最近的世界-动作模型通过视频展开引入了未来预测，但像素空间预测对于控制而言成本高昂且间接，因为它可能建模与动作生成无关的视觉细节，并引入大量的训练或推理开销。我们提出了Being-H0.7，一种潜在的世界-动作模型，它将未来感知推理引入VLA风格的策略，而无需生成未来帧。Being-H0.7在感知和动作之间插入可学习的潜在查询作为紧凑的推理接口，并使用未来信息双分支设计对其进行训练：一个可部署的先验分支从当前上下文中推断潜在状态，而一个仅用于训练的后验分支用来自未来观测的嵌入替换查询。在潜在推理空间中联合对齐两个分支，使先验分支能够仅从当前观测中推理出未来感知、动作有用的结构。在推理时，Being-H0.7丢弃后验分支，并且不执行视觉展开。在六个模拟基准和各种真实世界任务中的实验表明，Being-H0.7实现了最先进或可比的性能，将世界模型的预测优势与直接VLA策略的效率和可部署性相结合。

🔬 方法详解

问题定义：现有视觉-语言-动作模型(VLA)在机器人控制中面临挑战，即稀疏的动作监督导致模型学习捷径，而非理解环境动力学和任务进展。基于视频展开的世界模型虽然引入了未来预测，但像素级别的预测计算成本高，且容易建模与动作无关的视觉细节，增加训练和推理负担。

核心思路：Being-H0.7的核心思路是在VLA模型中引入未来感知推理，但避免直接进行像素级别的未来帧预测。通过引入可学习的潜在查询作为感知和动作之间的紧凑接口，模型可以在潜在空间中进行推理，从而降低计算复杂度并提高效率。

技术框架：Being-H0.7采用双分支结构进行训练。先验分支（Prior Branch）从当前上下文推断潜在状态，用于部署。后验分支（Posterior Branch）仅在训练时使用，利用未来观测的嵌入来替换潜在查询。通过在潜在空间对齐这两个分支，引导先验分支学习未来感知的、对动作有用的结构。推理时，仅使用先验分支，无需视觉展开。

关键创新：Being-H0.7的关键创新在于其潜在空间推理和双分支训练策略。它避免了昂贵的像素级未来预测，转而在潜在空间中进行推理，从而提高了效率。双分支训练策略利用未来信息来指导潜在空间的学习，使得模型能够更好地理解环境动力学和任务进展。

关键设计：Being-H0.7的关键设计包括：可学习的潜在查询，作为紧凑的推理接口；未来信息双分支训练，利用后验分支指导先验分支的学习；以及在潜在空间中对齐两个分支的损失函数。具体的网络结构和损失函数细节在论文中进一步阐述。

🖼️ 关键图片

📊 实验亮点

Being-H0.7在六个模拟基准和多个真实世界任务中取得了最先进或可比的性能。该模型在实现高性能的同时，保持了较高的效率和可部署性，克服了传统世界模型计算成本高昂的缺点。具体的性能数据和对比基线可以在论文的实验部分找到。

🎯 应用场景

Being-H0.7具有广泛的应用前景，可用于各种机器人控制任务，例如家庭服务机器人、工业机器人和自动驾驶汽车。该模型能够提高机器人在复杂环境中的适应性和泛化能力，使其能够更好地理解任务目标并执行相应的动作。此外，该模型的高效性和可部署性使其更易于在实际场景中应用。

📄 摘要（原文）

Visual-Language-Action models (VLAs) have advanced generalist robot control by mapping multimodal observations and language instructions directly to actions, but sparse action supervision often encourages shortcut mappings rather than representations of dynamics, contact, and task progress. Recent world-action models introduce future prediction through video rollouts, yet pixel-space prediction is a costly and indirect substrate for control, as it may model visual details irrelevant to action generation and introduces substantial training or inference overhead. We present Being-H0.7, a latent world-action model that brings future-aware reasoning into VLA-style policies without generating future frames. Being-H0.7 inserts learnable latent queries between perception and action as a compact reasoning interface, and trains them with a future-informed dual-branch design: a deployable prior branch infers latent states from the current context, while a training-only posterior branch replaces the queries with embeddings from future observations. Jointly aligning the two branches at the latent reasoning space leads the prior branch to reason future-aware, action-useful structure from current observations alone. At inference, Being-H0.7 discards the posterior branch and performs no visual rollout. Experiments across six simulation benchmarks and diverse real-world tasks show that Being-H0.7 achieves state-of-the-art or comparable performance, combining the predictive benefits of world models with the efficiency and deployability of direct VLA policies.

Being-H0.7: A Latent World-Action Model from Egocentric Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理