Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations

📄 arXiv: 2503.20105v1 📥 PDF

作者: Ran Tian, Kratarth Goel

分类: cs.AI, cs.RO

发布日期: 2025-03-25

备注: ICLR 2025 Spotlight


💡 一句话要点

提出基于预训练隐式反馈的多智能体运动生成模型后训练偏好对齐方法

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 运动生成 多智能体 偏好对齐 隐式反馈 后训练

📋 核心要点

  1. 现有运动生成模型token预测目标与人类偏好存在差异,导致生成行为不符合人类期望,后训练偏好对齐至关重要。
  2. 利用预训练数据中蕴含的隐式偏好信息,构建模型自身生成结果的偏好排序,为后训练提供更细致的指导。
  3. 实验表明,该方法能有效提升模型生成行为的真实性,使轻量级模型性能媲美大型模仿学习模型,且无需额外人工标注。

📝 摘要(中文)

近年来,大型语言模型(LLM)的进步彻底改变了具身应用中的运动生成模型。虽然LLM类型的自回归运动生成模型受益于训练的可扩展性,但其token预测目标与人类偏好之间仍然存在差异。因此,仅使用token预测目标进行预训练的模型通常会生成偏离人类偏好的行为,这使得后训练偏好对齐对于生成人类偏好的运动至关重要。不幸的是,后训练对齐需要对预训练模型生成的运动进行大量的偏好排序,这标注成本很高,尤其是在多智能体环境中。最近,人们越来越关注利用预训练演示来可扩展地生成用于后训练对齐的偏好数据。然而,这些方法通常采用对抗性假设,将所有预训练模型生成的样本视为非偏好示例。这种对抗性方法忽略了模型自身生成结果之间的偏好排序所提供的有价值的信号,最终降低了对齐效果,并可能导致未对齐的行为。在这项工作中,我们没有将所有生成的样本视为同样糟糕,而是利用预训练演示中编码的隐式偏好来构建预训练模型生成结果之间的偏好排序,从而以零人工成本提供更细致的偏好对齐指导。我们将我们的方法应用于大规模交通模拟,并证明了其在提高预训练模型生成行为的真实性方面的有效性,通过仅依赖于预训练演示的隐式反馈,而无需额外的后训练人类偏好注释或高计算成本,使轻量级的1M运动生成模型与SOTA大型基于模仿的模型相媲美。

🔬 方法详解

问题定义:现有基于LLM的运动生成模型,虽然具备良好的扩展性,但其训练目标(token预测)与人类对运动的偏好存在差异,导致模型生成的运动不符合人类期望。直接进行人工标注偏好数据成本高昂,尤其是在多智能体场景下。现有利用预训练数据进行偏好对齐的方法,通常将模型生成的所有样本视为负例,忽略了预训练数据中蕴含的隐式偏好信息。

核心思路:论文的核心思路是利用预训练数据中蕴含的隐式偏好信息,构建模型自身生成结果之间的偏好排序。预训练数据可以反映环境的真实分布和智能体的行为模式,因此可以作为一种隐式的偏好信号。通过分析预训练数据,可以判断模型生成的不同运动片段的优劣,从而为后训练偏好对齐提供更有效的指导。

技术框架:该方法主要包含以下几个阶段:1) 使用token预测目标预训练运动生成模型;2) 利用预训练模型生成多个运动片段;3) 从预训练数据中提取隐式偏好信息,构建生成运动片段之间的偏好排序;4) 使用偏好排序数据,对预训练模型进行后训练偏好对齐。

关键创新:该方法最重要的创新点在于,它没有将模型生成的所有样本视为负例,而是充分利用了预训练数据中蕴含的隐式偏好信息,构建了模型自身生成结果之间的偏好排序。这种方法能够更准确地反映人类对运动的偏好,从而提高后训练偏好对齐的效果。与现有方法相比,该方法无需额外的人工标注,降低了成本,并且能够更有效地利用预训练数据。

关键设计:论文的关键设计在于如何从预训练数据中提取隐式偏好信息。具体来说,论文分析了预训练数据中不同运动片段的上下文关系,例如,如果一个运动片段出现在另一个运动片段之后,并且能够更好地完成任务,那么就认为前者优于后者。此外,论文还考虑了运动片段的流畅性、自然性等因素,以更准确地评估运动片段的质量。论文使用pairwise ranking loss进行训练,鼓励模型生成更符合预训练数据隐式偏好的运动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够有效提升模型生成运动的真实性,使轻量级的1M运动生成模型性能媲美SOTA大型基于模仿的模型。具体来说,在交通仿真任务中,该方法能够显著提高模型生成车辆行为的真实性,例如车辆的换道行为、跟车行为等。通过仅依赖于预训练演示的隐式反馈,而无需额外的后训练人类偏好注释或高计算成本,实现了性能的显著提升。

🎯 应用场景

该研究成果可广泛应用于多智能体运动生成领域,例如自动驾驶、机器人导航、交通仿真、游戏AI等。通过提升模型生成运动的真实性和符合人类偏好的程度,可以提高系统的安全性、效率和用户体验。该方法无需额外的人工标注,降低了成本,具有很高的实际应用价值。未来,可以将该方法扩展到更复杂的场景和任务中,例如人机协作、社交机器人等。

📄 摘要(原文)

Recent advancements in LLMs have revolutionized motion generation models in embodied applications. While LLM-type auto-regressive motion generation models benefit from training scalability, there remains a discrepancy between their token prediction objectives and human preferences. As a result, models pre-trained solely with token-prediction objectives often generate behaviors that deviate from what humans would prefer, making post-training preference alignment crucial for producing human-preferred motions. Unfortunately, post-training alignment requires extensive preference rankings of motions generated by the pre-trained model, which are costly to annotate, especially in multi-agent settings. Recently, there has been growing interest in leveraging pre-training demonstrations to scalably generate preference data for post-training alignment. However, these methods often adopt an adversarial assumption, treating all pre-trained model-generated samples as unpreferred examples. This adversarial approach overlooks the valuable signal provided by preference rankings among the model's own generations, ultimately reducing alignment effectiveness and potentially leading to misaligned behaviors. In this work, instead of treating all generated samples as equally bad, we leverage implicit preferences encoded in pre-training demonstrations to construct preference rankings among the pre-trained model's generations, offering more nuanced preference alignment guidance with zero human cost. We apply our approach to large-scale traffic simulation and demonstrate its effectiveness in improving the realism of pre-trained model's generated behaviors, making a lightweight 1M motion generation model comparable to SOTA large imitation-based models by relying solely on implicit feedback from pre-training demonstrations, without additional post-training human preference annotations or high computational costs.