The N-Body Problem: Parallel Execution from Single-Person Egocentric Video

📄 arXiv: 2512.11393v1 📥 PDF

作者: Zhifan Zhu, Yifei Huang, Yoichi Sato, Dima Damen

分类: cs.CV

发布日期: 2025-12-12

备注: project webpage: https://zhifanzhu.github.io/ego-nbody


💡 一句话要点

提出N体问题,通过单人视角视频实现多人并行活动推理。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: N体问题 并行执行 视觉-语言模型 结构化提示 主视角视频

📋 核心要点

  1. 现有方法难以从单人视角视频中推断多人并行活动,缺乏对物理约束和逻辑关系的建模。
  2. 本文提出N体问题,利用视觉-语言模型和结构化提示,模拟多人并行执行任务,并考虑空间、对象和因果约束。
  3. 实验表明,该方法显著提升了动作覆盖率,并有效降低了碰撞、对象冲突和因果冲突等不合理现象。

📝 摘要(中文)

本文提出了N体问题:如何从单人视角视频中学习多人并行执行相同任务。目标是最大化加速比,但简单地将视频片段分配给多人可能违反现实约束,导致物理上不可能的场景。为此,本文形式化了N体问题,并提出了一套评估指标,包括性能(加速比、任务覆盖率)和可行性(空间碰撞、对象冲突和因果约束)。然后,引入了一种结构化提示策略,引导视觉-语言模型(VLM)推理3D环境、对象使用和时间依赖性,以生成可行的并行执行方案。在来自EPIC-Kitchens和HD-EPIC的100个视频上,本文方法在N=2时,相比Gemini 2.5 Pro的基线提示,动作覆盖率提高了45%,同时碰撞率、对象冲突和因果冲突分别降低了55%、45%和55%。

🔬 方法详解

问题定义:论文旨在解决如何从单个主视角视频中推断出N个人并行执行相同任务的问题,即N体问题。现有方法的痛点在于,简单地将视频片段分配给不同的人会导致违反物理定律和常识的场景,例如多人同时使用同一物体或占据同一空间,忽略了任务之间的因果关系。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)的推理能力,结合结构化的提示工程,让模型能够理解3D环境、物体使用情况以及任务之间的时间依赖关系。通过引导VLM进行推理,生成符合现实约束的并行执行方案,从而提高任务完成的效率和可行性。

技术框架:整体框架包括以下几个主要阶段:1) 输入单人视角视频;2) 使用结构化提示策略引导VLM进行推理,包括对3D环境的理解、物体使用情况的判断以及时间依赖关系的分析;3) VLM生成N个人并行执行任务的方案;4) 使用提出的评估指标(加速比、任务覆盖率、空间碰撞、对象冲突、因果约束)对生成的方案进行评估。

关键创新:最重要的技术创新点在于提出了结构化提示策略,该策略能够有效地引导VLM进行推理,从而生成符合现实约束的并行执行方案。与现有方法相比,该方法能够更好地处理空间、对象和因果约束,避免生成不合理的并行执行方案。

关键设计:结构化提示策略是关键设计之一,具体提示内容未知。评估指标的设计也至关重要,包括:加速比(Speed-up),任务覆盖率(Task Coverage),空间碰撞(Spatial Collisions),对象冲突(Object Conflicts)和因果约束(Causal Constraints)。这些指标用于量化并行执行方案的性能和可行性,并为模型的优化提供反馈。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,在N=2的情况下,该方法在EPIC-Kitchens和HD-EPIC数据集上,相比Gemini 2.5 Pro的基线提示,动作覆盖率提高了45%,同时碰撞率、对象冲突和因果冲突分别降低了55%、45%和55%。这些数据表明,该方法能够有效地提高任务完成的效率和可行性。

🎯 应用场景

该研究具有广泛的应用前景,例如可以应用于机器人协作、虚拟现实环境中的多人交互、以及自动化任务分配等领域。通过模拟多人并行执行任务,可以提高工作效率,优化资源分配,并为未来的智能系统设计提供新的思路。该研究的成果有助于开发更智能、更高效的人工智能系统。

📄 摘要(原文)

Humans can intuitively parallelise complex activities, but can a model learn this from observing a single person? Given one egocentric video, we introduce the N-Body Problem: how N individuals, can hypothetically perform the same set of tasks observed in this video. The goal is to maximise speed-up, but naive assignment of video segments to individuals often violates real-world constraints, leading to physically impossible scenarios like two people using the same object or occupying the same space. To address this, we formalise the N-Body Problem and propose a suite of metrics to evaluate both performance (speed-up, task coverage) and feasibility (spatial collisions, object conflicts and causal constraints). We then introduce a structured prompting strategy that guides a Vision-Language Model (VLM) to reason about the 3D environment, object usage, and temporal dependencies to produce a viable parallel execution. On 100 videos from EPIC-Kitchens and HD-EPIC, our method for N = 2 boosts action coverage by 45% over a baseline prompt for Gemini 2.5 Pro, while simultaneously slashing collision rates, object and causal conflicts by 55%, 45% and 55% respectively.