Continuous Locomotive Crowd Behavior Generation

📄 arXiv: 2504.04756v2 📥 PDF

作者: Inhwan Bae, Junoh Lee, Hae-Gon Jeon

分类: cs.CV, cs.LG, cs.RO

发布日期: 2025-04-07 (更新: 2025-04-21)

备注: Accepted at CVPR 2025. Project page: https://ihbae.com/publication/crowdes/

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于扩散模型的连续人群行为生成框架,解决现有方法难以模拟真实人群动态的问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 人群行为生成 扩散模型 连续轨迹 人群模拟 异构行为

📋 核心要点

  1. 传统人群行为建模方法侧重于合成瞬时场景,难以复现实世界人群的连续性。
  2. 论文提出人群发射器和模拟器交替运行的框架,利用扩散模型生成个体行为特征,并用马尔可夫链增强行为多样性。
  3. 实验表明,该方法能有效模拟多样人群行为,并在不同地理环境中泛化,同时提供基准协议评估生成人群的质量。

📝 摘要(中文)

本文提出了一种新颖的方法,用于自动生成连续、真实的人群轨迹,其中包含异构行为以及个体间的交互。首先,设计了一个人群发射器模型,该模型从单个输入图像中获取空间布局信息,包括分割图、外观图、人口密度图和人口概率,然后用于人群生成。发射器通过使用扩散模型分配独立的行为特征(如个体类型、步速和起始/结束位置)来在时间线上持续放置个体。接下来,人群模拟器产生他们的长期运动轨迹。为了模拟多样化的行为,它可以基于马尔可夫链增强他们的行为。因此,整个框架通过在提出的发射器和模拟器之间交替,用异构的人群行为填充场景。该框架中的所有组件都是用户可控的。最后,提出了一个基准协议,用于评估生成人群的真实性和质量,包括场景级的人口动态和个体级轨迹的准确性。实验证明,该方法有效地模拟了多样的人群行为模式,并且在不同的地理环境中具有良好的泛化能力。

🔬 方法详解

问题定义:现有的人群行为生成方法主要关注于生成静态的、瞬时的人群场景,缺乏对人群行为连续性的建模能力。这导致生成的场景在时间维度上不连贯,无法模拟真实世界中人群的动态变化和个体间的长期交互。此外,现有方法在控制人群行为的多样性和异构性方面也存在局限性。

核心思路:本文的核心思路是将人群行为的生成过程分解为两个阶段:人群发射和人群模拟。人群发射阶段负责在场景中持续地生成个体,并为每个个体分配独立的行为特征。人群模拟阶段则负责根据这些行为特征,模拟个体在场景中的长期运动轨迹。通过交替执行这两个阶段,可以生成连续、真实且具有异构行为的人群。使用扩散模型来生成个体的行为特征,可以增加生成行为的多样性。

技术框架:该框架包含两个主要模块:人群发射器(Crowd Emitter)和人群模拟器(Crowd Simulator)。人群发射器首先从输入的单张图像中提取空间布局信息,包括分割图、外观图、人口密度图和人口概率。然后,利用扩散模型为每个个体生成行为特征,如个体类型、步速和起始/结束位置,并在时间线上持续放置个体。人群模拟器则根据这些行为特征,模拟个体在场景中的长期运动轨迹。为了增加行为的多样性,模拟器还可以基于马尔可夫链增强个体的行为。两个模块交替运行,不断生成新的个体并模拟其行为,从而实现连续的人群行为生成。

关键创新:该方法最重要的创新点在于提出了一个连续的人群行为生成框架,能够模拟真实世界中人群的动态变化和个体间的长期交互。与传统的静态场景生成方法相比,该方法能够生成时间上连贯的人群行为序列。此外,该方法还利用扩散模型生成个体的行为特征,增加了生成行为的多样性。

关键设计:人群发射器使用扩散模型来生成个体的行为特征。扩散模型是一种生成模型,可以通过学习数据的分布来生成新的数据。在该方法中,扩散模型被用于生成个体的类型、步速和起始/结束位置等行为特征。人群模拟器使用马尔科夫链来增强个体的行为。马尔科夫链是一种随机过程,可以用于模拟个体在不同行为之间的转换。在该方法中,马尔科夫链被用于模拟个体在行走、停止、改变方向等行为之间的转换。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的方法能够生成连续且多样的人群行为,并在不同的地理环境中具有良好的泛化能力。通过与现有方法进行对比,证明了该方法在生成人群的真实性和质量方面具有显著优势。此外,论文还提出了一个基准协议,用于评估生成人群的质量,为后续研究提供了参考。

🎯 应用场景

该研究成果可应用于多个领域,包括:电影和游戏制作,用于生成逼真的人群场景;交通仿真,用于模拟行人交通流;机器人导航,用于训练机器人在人群中安全导航;以及心理学研究,用于研究人群行为的规律。该方法能够生成可控且多样的人群行为,具有很高的实际应用价值和潜力。

📄 摘要(原文)

Modeling and reproducing crowd behaviors are important in various domains including psychology, robotics, transport engineering and virtual environments. Conventional methods have focused on synthesizing momentary scenes, which have difficulty in replicating the continuous nature of real-world crowds. In this paper, we introduce a novel method for automatically generating continuous, realistic crowd trajectories with heterogeneous behaviors and interactions among individuals. We first design a crowd emitter model. To do this, we obtain spatial layouts from single input images, including a segmentation map, appearance map, population density map and population probability, prior to crowd generation. The emitter then continually places individuals on the timeline by assigning independent behavior characteristics such as agents' type, pace, and start/end positions using diffusion models. Next, our crowd simulator produces their long-term locomotions. To simulate diverse actions, it can augment their behaviors based on a Markov chain. As a result, our overall framework populates the scenes with heterogeneous crowd behaviors by alternating between the proposed emitter and simulator. Note that all the components in the proposed framework are user-controllable. Lastly, we propose a benchmark protocol to evaluate the realism and quality of the generated crowds in terms of the scene-level population dynamics and the individual-level trajectory accuracy. We demonstrate that our approach effectively models diverse crowd behavior patterns and generalizes well across different geographical environments. Code is publicly available at https://github.com/InhwanBae/CrowdES .