SoPo: Text-to-Motion Generation Using Semi-Online Preference Optimization
作者: Xiaofeng Tan, Hongsong Wang, Xin Geng, Pan Zhou
分类: cs.CV
发布日期: 2024-12-06 (更新: 2025-10-20)
期刊: Advances in Neural Information Processing Systems, 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出SoPo:一种半在线偏好优化的文本到动作生成方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 文本到动作生成 偏好优化 DPO 半在线学习 动作生成 人工智能 机器学习
📋 核心要点
- 现有文本到动作生成模型难以保证生成动作的一致性和真实性,尤其是在符合人类偏好方面存在不足。
- SoPo方法利用半在线数据对,结合在线和离线DPO的优势,弥补各自的局限性,从而更好地对齐人类偏好。
- 实验结果表明,SoPo在多个指标上显著优于现有偏好对齐方法,并在MLD和MDM模型上取得了SOTA性能。
📝 摘要(中文)
文本到动作生成对于推动创意产业至关重要,但常常面临生成一致且逼真动作的挑战。为了解决这个问题,我们专注于微调文本到动作模型,使其持续偏好高质量、符合人类偏好的动作,这是一个关键但很大程度上未被探索的问题。本文从理论上研究了在线和离线环境下的DPO,并揭示了它们各自的局限性:离线DPO中的过拟合和在线DPO中的有偏采样。基于我们的理论见解,我们提出了一种基于DPO的半在线偏好优化(SoPo)方法,用于使用“半在线”数据对训练文本到动作模型,该数据对由在线分布中不优选的动作和离线数据集中优选的动作组成。该方法利用在线和离线DPO,允许彼此弥补对方的局限性。大量实验表明,SoPo优于其他偏好对齐方法,在MLD模型上的MM-Dist为3.25%(例如,MoDiPO为0.76%),在MDM模型上为2.91%(例如,MoDiPO为0.66%)。此外,通过我们的SoPo微调的MLD模型在R-precision和MM Dist方面超过了SoTA模型。可视化结果也显示了我们的SoPo在偏好对齐方面的有效性。
🔬 方法详解
问题定义:论文旨在解决文本到动作生成任务中,模型难以生成符合人类偏好的高质量动作的问题。现有方法,如直接使用离线数据进行偏好优化(离线DPO)容易过拟合,而仅依赖在线数据进行优化(在线DPO)则可能存在采样偏差,导致模型性能受限。
核心思路:论文的核心思路是结合在线和离线DPO的优点,提出一种半在线偏好优化(SoPo)方法。通过使用“半在线”数据对,即从在线分布中采样得到的不优选动作和离线数据集中获取的优选动作,来训练文本到动作模型,从而避免了单一在线或离线DPO的局限性。
技术框架:SoPo方法基于DPO框架,其主要流程如下:1)从在线分布中采样生成动作;2)从离线数据集中获取人类偏好的动作;3)构建半在线数据对(不优选的在线动作,优选的离线动作);4)使用DPO损失函数对文本到动作模型进行微调,使其学习人类偏好。
关键创新:SoPo的关键创新在于提出了“半在线”数据对的概念,并将其应用于DPO框架中。这种方法有效地结合了在线采样的多样性和离线数据的质量,使得模型能够更好地学习人类偏好,从而生成更符合人类期望的动作。与现有方法相比,SoPo能够避免离线DPO的过拟合问题和在线DPO的采样偏差问题。
关键设计:SoPo方法使用标准的DPO损失函数进行优化。关键在于数据对的构建方式,即如何选择在线生成的不优选动作和离线数据集中的优选动作。论文中可能涉及一些关于如何平衡在线和离线数据比例的策略,以及如何选择合适的离线数据集等技术细节,但具体细节未知。
🖼️ 关键图片
📊 实验亮点
SoPo方法在MLD和MDM模型上均取得了显著的性能提升。在MLD模型上,SoPo的MM-Dist指标为3.25%,相比MoDiPO的0.76%有显著提升。在MDM模型上,SoPo的MM-Dist指标为2.91%,相比MoDiPO的0.66%也有明显提升。此外,通过SoPo微调的MLD模型在R-precision和MM Dist方面超过了SoTA模型,证明了SoPo的有效性。
🎯 应用场景
SoPo方法在文本到动作生成领域具有广泛的应用前景,例如虚拟现实、游戏开发、动画制作等。它可以帮助开发者更轻松地创建逼真且符合人类偏好的角色动作,从而提升用户体验和内容质量。未来,该方法还可以扩展到其他生成式任务中,例如文本到图像、文本到语音等。
📄 摘要(原文)
Text-to-motion generation is essential for advancing the creative industry but often presents challenges in producing consistent, realistic motions. To address this, we focus on fine-tuning text-to-motion models to consistently favor high-quality, human-preferred motions, a critical yet largely unexplored problem. In this work, we theoretically investigate the DPO under both online and offline settings, and reveal their respective limitation: overfitting in offline DPO, and biased sampling in online DPO. Building on our theoretical insights, we introduce Semi-online Preference Optimization (SoPo), a DPO-based method for training text-to-motion models using "semi-online" data pair, consisting of unpreferred motion from online distribution and preferred motion in offline datasets. This method leverages both online and offline DPO, allowing each to compensate for the other's limitations. Extensive experiments demonstrate that SoPo outperforms other preference alignment methods, with an MM-Dist of 3.25% (vs e.g. 0.76% of MoDiPO) on the MLD model, 2.91% (vs e.g. 0.66% of MoDiPO) on MDM model, respectively. Additionally, the MLD model fine-tuned by our SoPo surpasses the SoTA model in terms of R-precision and MM Dist. Visualization results also show the efficacy of our SoPo in preference alignment. Project page: https://xiaofeng-tan.github.io/projects/SoPo/ .