SIMS: Simulating Stylized Human-Scene Interactions with Retrieval-Augmented Script Generation

📄 arXiv: 2411.19921v2 📥 PDF

作者: Wenjia Wang, Liang Pan, Zhiyang Dou, Jidong Mei, Zhouyingcheng Liao, Yuke Lou, Yifan Wu, Lei Yang, Jingbo Wang, Taku Komura

分类: cs.CV, cs.AI, cs.CL, cs.GR

发布日期: 2024-11-29 (更新: 2025-03-16)


💡 一句话要点

SIMS:提出检索增强脚本生成方法,模拟风格化人-场景交互

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人-场景交互 物理仿真 运动生成 检索增强生成 大型语言模型

📋 核心要点

  1. 现有方法在模拟人-场景交互时,难以兼顾多样化的风格和物理上的合理性,限制了表达能力。
  2. SIMS框架利用检索增强生成长篇脚本,并结合多条件物理控制策略,实现风格化人-场景交互的统一解决方案。
  3. 实验结果表明,SIMS在各种任务和场景中表现出色,显著优于现有方法,并提供了新的数据集。

📝 摘要(中文)

本文提出了一种名为SIMS的层级框架,用于模拟物理环境中风格化的人-场景交互(HSI)。现有方法侧重于长期执行,但在实现多样化的风格和物理合理性方面存在不足。SIMS通过检索增强生成(RAG)的大型语言模型生成连贯且多样化的长篇脚本,为运动规划提供丰富的基础。同时,开发了一种通用的多条件、基于物理的控制策略,利用生成脚本中的文本嵌入来编码风格线索,同时感知环境几何形状并完成任务目标。通过整合检索增强的脚本生成和多条件控制器,SIMS为生成风格化的HSI运动提供了一个统一的解决方案。此外,还引入了一个由RAG生成的综合规划数据集和一个具有多样化运动和交互的风格化运动数据集。大量实验表明,SIMS在执行各种任务和泛化到不同场景方面都非常有效,显著优于以前的方法。

🔬 方法详解

问题定义:现有的人-场景交互模拟方法难以同时保证运动风格的多样性和物理环境的合理性。它们通常侧重于长期运动的执行,而忽略了对风格化交互的建模,导致生成的结果缺乏真实感和表现力。

核心思路:SIMS的核心思路是将高层脚本驱动的意图与低层控制策略相结合,从而实现更具表现力和多样化的人-场景交互。通过使用大型语言模型生成脚本,并利用这些脚本中的信息来指导物理控制策略,SIMS能够生成既符合物理规律又具有丰富风格的运动。

技术框架:SIMS框架包含两个主要模块:检索增强的脚本生成模块和多条件物理控制模块。首先,利用RAG的大型语言模型生成长篇脚本,这些脚本描述了人与场景的交互过程。然后,将这些脚本的文本嵌入输入到多条件物理控制模块中,该模块根据环境几何形状、任务目标和风格线索来生成具体的运动。

关键创新:SIMS的关键创新在于将检索增强的脚本生成与多条件物理控制相结合。通过这种方式,SIMS能够利用大型语言模型的强大生成能力来生成多样化的脚本,并利用物理控制策略来保证运动的合理性。此外,使用文本嵌入来编码风格线索也是一个重要的创新点。

关键设计:在脚本生成模块中,使用了RAG来提高生成脚本的质量和多样性。在物理控制模块中,使用了多条件控制策略,该策略可以同时考虑环境几何形状、任务目标和风格线索。具体的损失函数和网络结构等技术细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SIMS在各种人-场景交互任务中都取得了显著的性能提升,例如在不同场景下的运动泛化能力和任务完成度方面。具体的数据和对比基线在论文中有详细描述(未知),但总体而言,SIMS显著优于以前的方法,证明了其有效性和优越性。

🎯 应用场景

SIMS具有广泛的应用前景,例如虚拟现实、游戏开发、机器人仿真和电影制作等领域。它可以用于创建更逼真、更具表现力的人-场景交互动画,从而提高用户体验和内容质量。此外,SIMS还可以用于训练机器人,使其能够在复杂的环境中与人进行自然的交互。

📄 摘要(原文)

Simulating stylized human-scene interactions (HSI) in physical environments is a challenging yet fascinating task. Prior works emphasize long-term execution but fall short in achieving both diverse style and physical plausibility. To tackle this challenge, we introduce a novel hierarchical framework named SIMS that seamlessly bridges highlevel script-driven intent with a low-level control policy, enabling more expressive and diverse human-scene interactions. Specifically, we employ Large Language Models with Retrieval-Augmented Generation (RAG) to generate coherent and diverse long-form scripts, providing a rich foundation for motion planning. A versatile multicondition physics-based control policy is also developed, which leverages text embeddings from the generated scripts to encode stylistic cues, simultaneously perceiving environmental geometries and accomplishing task goals. By integrating the retrieval-augmented script generation with the multi-condition controller, our approach provides a unified solution for generating stylized HSI motions. We further introduce a comprehensive planning dataset produced by RAG and a stylized motion dataset featuring diverse locomotions and interactions. Extensive experiments demonstrate SIMS's effectiveness in executing various tasks and generalizing across different scenarios, significantly outperforming previous methods.