CHOICE: Coordinated Human-Object Interaction in Cluttered Environments for Pick-and-Place Actions

📄 arXiv: 2412.06702v2 📥 PDF

作者: Jintao Lu, He Zhang, Yuting Ye, Takaaki Shiratori, Sebastian Starke, Taku Komura

分类: cs.GR, cs.RO

发布日期: 2024-12-09 (更新: 2025-10-05)

备注: ACM Transaction on Graphics 2025;21 pages, 15 figures; Webpage: https://lujintaozju.github.io/publications/CHOICE/

DOI: 10.1145/3770746


💡 一句话要点

CHOICE:在复杂环境中协调人-物交互,实现抓取放置动作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互 抓取放置 运动规划 神经隐式表示 运动控制

📋 核心要点

  1. 现有方法难以应对复杂环境中人-物交互的稀疏运动数据和任务过渡问题。
  2. 提出一种分层目标驱动系统,包含双手动调度器、神经隐式规划器和DeepPhase控制器。
  3. 该系统能生成自然流畅的抓取放置动作,并适应不同的物体形状、容器铰接和场景布局。

📝 摘要(中文)

在复杂环境中动画化人与场景的交互,例如抓取放置任务,极具挑战性。难点在于,相对于物体和环境的广泛变化,运动数据稀疏,且不同任务之间的过渡运动难以获得,增加了泛化到任意条件的复杂性。为了解决这个问题,我们开发了一个系统,将交互合成问题作为一个分层目标驱动的任务来处理。首先,我们开发了一个双手动调度器,用于规划一系列关键帧,以同时控制双手,从而有效地从抽象目标信号(例如用户选择的目标对象)中完成抓取放置任务。接下来,我们开发了一个神经隐式规划器,用于在不同的对象形状/类型和障碍物布局下生成引导手部轨迹。最后,我们为DeepPhase控制器提出了一个线性动态模型,该模型结合了卡尔曼滤波器,以实现频域中的平滑过渡,从而实现对角色更逼真和有效的多目标控制。我们的系统可以生成各种自然的抓取放置运动,并考虑到物体的几何形状、容器的铰接以及场景中物体的布局。

🔬 方法详解

问题定义:论文旨在解决复杂环境中人与物体交互(特别是抓取放置任务)的动画生成问题。现有方法难以处理物体几何形状、容器铰接和场景布局的多样性,以及运动数据的稀疏性和任务之间的平滑过渡问题。这些问题导致难以生成自然且适应性强的交互动画。

核心思路:论文的核心思路是将交互合成问题分解为一个分层目标驱动的任务。首先,通过双手动调度器规划关键帧,然后利用神经隐式规划器生成引导手部轨迹,最后使用DeepPhase控制器结合卡尔曼滤波实现平滑过渡。这种分层结构允许系统逐步细化动作,并更好地适应不同的环境和物体。

技术框架:该系统包含三个主要模块:1) 双手动调度器:根据用户选择的目标对象,规划双手运动的关键帧。2) 神经隐式规划器:基于神经隐式表示,生成引导手部轨迹,以避开障碍物并适应不同的物体形状和类型。3) DeepPhase控制器:使用线性动态模型和卡尔曼滤波器,实现频域中的平滑过渡,从而控制角色的运动。整体流程是从抽象目标到具体动作轨迹的逐步生成和优化。

关键创新:该论文的关键创新在于将神经隐式表示与运动控制相结合,实现对复杂环境中人-物交互的有效建模和控制。神经隐式规划器能够生成适应不同物体形状和障碍物布局的手部轨迹,而DeepPhase控制器则保证了运动的平滑性和自然性。此外,双手动调度器的引入提高了任务的效率和协调性。

关键设计:神经隐式规划器使用神经网络来表示场景的几何信息,并利用梯度下降优化手部轨迹,使其避开障碍物并接近目标物体。DeepPhase控制器使用线性动态模型来描述角色的运动,并使用卡尔曼滤波器来平滑运动轨迹,减少抖动和不自然感。双手动调度器则根据任务的优先级和约束,分配双手的工作,并生成相应的关键帧。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统能够生成各种自然的抓取放置运动,并考虑到物体的几何形状、容器的铰接以及场景中物体的布局。通过结合神经隐式表示和运动控制,该系统能够有效地处理复杂环境中的人-物交互,并生成平滑自然的动画。论文未提供具体的性能数据或对比基线,但展示了系统在不同场景下的抓取放置动作。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、机器人控制等领域。例如,可以用于创建更逼真的虚拟角色交互动画,提高游戏体验;也可以用于训练机器人执行复杂的抓取放置任务,提高机器人的自主性和适应性。未来,该技术有望应用于更广泛的人机交互场景,例如智能家居、辅助生活等。

📄 摘要(原文)

Animating human-scene interactions such as pick-and-place tasks in cluttered, complex layouts is a challenging task, with objects of a wide variation of geometries and articulation under scenarios with various obstacles. The main difficulty lies in the sparsity of the motion data compared to the wide variation of the objects and environments as well as the poor availability of transition motions between different tasks, increasing the complexity of the generalization to arbitrary conditions. To cope with this issue, we develop a system that tackles the interaction synthesis problem as a hierarchical goal-driven task. Firstly, we develop a bimanual scheduler that plans a set of keyframes for simultaneously controlling the two hands to efficiently achieve the pick-and-place task from an abstract goal signal such as the target object selected by the user. Next, we develop a neural implicit planner that generates guidance hand trajectories under diverse object shape/types and obstacle layouts. Finally, we propose a linear dynamic model for our DeepPhase controller that incorporates a Kalman filter to enable smooth transitions in the frequency domain, resulting in a more realistic and effective multi-objective control of the character.Our system can produce a wide range of natural pick-and-place movements with respect to the geometry of objects, the articulation of containers and the layout of the objects in the scene.