AToM: Aligning Text-to-Motion Model at Event-Level with GPT-4Vision Reward

📄 arXiv: 2411.18654v1 📥 PDF

作者: Haonan Han, Xiangzuo Wu, Huan Liao, Zunnan Xu, Zhongyuan Hu, Ronghui Li, Yachao Zhang, Xiu Li

分类: cs.CV

发布日期: 2024-11-27


💡 一句话要点

AToM:利用GPT-4Vision奖励,提升文本到动作生成模型在事件层面的对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 文本到动作生成 GPT-4Vision 强化学习 事件级别对齐 动作生成 奖励函数 多模态学习

📋 核心要点

  1. 文本到动作生成模型面临事件级别文本描述对齐的挑战,因为文本提示与期望的动作结果之间存在复杂关系。
  2. AToM框架利用GPT-4Vision的奖励信号,通过构建数据集、设计标注范式和强化学习微调,增强了动作生成与文本提示的对齐。
  3. 实验结果表明,AToM显著提高了文本到动作生成在事件层面的对齐质量,验证了该框架的有效性。

📝 摘要(中文)

本文提出AToM框架,旨在提升文本到动作生成模型在事件层面的对齐质量。该框架利用GPT-4Vision提供的奖励信号,从而更好地将生成的动作与文本提示对齐。AToM包含三个主要阶段:首先,构建名为MotionPrefer的数据集,该数据集将三种类型的事件级别文本提示与生成的动作配对,涵盖了动作的完整性、时间关系和频率。其次,设计一种范式,利用GPT-4Vision进行详细的动作标注,包括视觉数据格式化、特定任务的指令以及每个子任务的评分规则。最后,使用强化学习,在GPT-4Vision奖励的指导下,对现有的文本到动作生成模型进行微调。实验结果表明,AToM显著提高了文本到动作生成在事件层面的对齐质量。

🔬 方法详解

问题定义:现有的文本到动作生成模型在事件层面的对齐效果不佳,难以准确捕捉文本描述中蕴含的动作完整性、时间关系和频率等信息。这导致生成的动作与用户的意图存在偏差,影响了模型的实用性。现有方法缺乏有效的事件级别的对齐机制和高质量的奖励信号。

核心思路:AToM的核心思路是利用GPT-4Vision强大的视觉理解能力,将其作为奖励函数,指导文本到动作生成模型的训练。通过GPT-4Vision对生成动作的质量进行评估,并根据评估结果调整模型的参数,从而提高生成动作与文本描述的对齐程度。这种方法将复杂的动作评估任务转化为一个可学习的奖励信号,简化了训练过程。

技术框架:AToM框架包含三个主要阶段:1) MotionPrefer数据集构建:收集包含事件级别文本提示和对应生成动作的数据对,涵盖动作的完整性、时间关系和频率。2) GPT-4Vision标注范式设计:设计一套利用GPT-4Vision进行动作标注的流程,包括视觉数据格式化、任务特定指令和评分规则。3) 强化学习微调:使用GPT-4Vision提供的奖励信号,通过强化学习算法对现有的文本到动作生成模型进行微调。

关键创新:AToM的关键创新在于利用GPT-4Vision作为奖励函数,指导文本到动作生成模型的训练。与传统的基于人工设计的奖励函数相比,GPT-4Vision能够更准确地评估生成动作的质量,并提供更有效的奖励信号。此外,AToM还提出了一个针对事件级别文本提示的标注范式,为GPT-4Vision提供了清晰的任务指令和评分标准。

关键设计:在MotionPrefer数据集构建中,需要精心设计文本提示,使其能够充分描述动作的完整性、时间关系和频率。在GPT-4Vision标注范式设计中,需要针对不同的动作类型和文本提示,设计不同的任务指令和评分规则。在强化学习微调中,需要选择合适的强化学习算法和奖励函数权重,以平衡生成动作的质量和多样性。具体的损失函数和网络结构细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AToM框架显著提高了文本到动作生成在事件层面的对齐质量。具体性能提升数据和对比基线信息在摘要中未给出,属于未知信息。但结论明确指出,AToM在事件级别的对齐方面取得了显著的改进。

🎯 应用场景

AToM框架可应用于虚拟现实、游戏开发、动画制作等领域,实现更自然、更符合用户意图的动作生成。该研究有助于提升人机交互的自然性和效率,并为开发更智能的虚拟角色和动画角色提供技术支持。未来,该技术有望应用于机器人控制领域,实现基于文本指令的机器人动作生成。

📄 摘要(原文)

Recently, text-to-motion models have opened new possibilities for creating realistic human motion with greater efficiency and flexibility. However, aligning motion generation with event-level textual descriptions presents unique challenges due to the complex relationship between textual prompts and desired motion outcomes. To address this, we introduce AToM, a framework that enhances the alignment between generated motion and text prompts by leveraging reward from GPT-4Vision. AToM comprises three main stages: Firstly, we construct a dataset MotionPrefer that pairs three types of event-level textual prompts with generated motions, which cover the integrity, temporal relationship and frequency of motion. Secondly, we design a paradigm that utilizes GPT-4Vision for detailed motion annotation, including visual data formatting, task-specific instructions and scoring rules for each sub-task. Finally, we fine-tune an existing text-to-motion model using reinforcement learning guided by this paradigm. Experimental results demonstrate that AToM significantly improves the event-level alignment quality of text-to-motion generation.