Implicit Preference Alignment for Human Image Animation
作者: Yuanzhi Wang, Xuhua Ren, Jiaxiang Cheng, Bing Ma, Kai Yu, Tianxiang Zheng, Qinglin Lu, Zhen Cui
分类: cs.CV, cs.AI
发布日期: 2026-05-08
备注: Accepted by ICML 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出隐式偏好对齐(IPA)框架,解决人体图像动画中手部动作生成质量难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人体图像动画 隐式偏好对齐 生成式模型 手部动作生成 后训练优化 计算机视觉
📋 核心要点
- 现有方法在处理高自由度手部动作时,因缺乏高质量成对偏好数据,难以实现精细化的动作对齐与质量提升。
- 提出隐式偏好对齐(IPA)框架,通过最大化自生成样本似然并约束预训练先验,无需显式偏好数据即可实现模型优化。
- 引入手部感知局部优化机制,实验证明该方法显著改善了手部生成质量,并大幅降低了数据构建的复杂性与成本。
📝 摘要(中文)
人体图像动画领域虽进展显著,但由于手部动作具有高自由度和运动复杂性,生成高保真手部动作仍是核心挑战。尽管基于人类反馈的强化学习(如直接偏好优化DPO)提供了潜在方案,但其依赖严格的偏好对齐数据对,而针对动态手部区域构建此类数据不仅成本高昂,且常因帧间不一致性而难以实施。本文提出隐式偏好对齐(IPA),这是一种数据高效的后训练框架,无需成对偏好数据。IPA在隐式奖励最大化的理论基础上,通过最大化自生成高质量样本的似然性,同时惩罚对预训练先验的偏离来实现模型对齐。此外,本文引入了手部感知局部优化机制,显式引导对齐过程关注手部区域。实验表明,该方法有效提升了手部生成质量,并显著降低了偏好数据构建的门槛。
🔬 方法详解
问题定义:人体图像动画中,手部动作因高自由度和复杂时序变化,导致生成模型难以保持动作的连贯性与保真度。现有基于DPO的方法依赖人工标注的偏好对齐数据,但在动态手部区域,构建此类高质量、帧间一致的偏好对数据极其困难且成本高昂。
核心思路:IPA的核心思想是利用隐式奖励最大化(Implicit Reward Maximization)替代显式的成对偏好学习。通过引导模型最大化自身生成的高质量样本概率,同时利用KL散度惩罚项防止模型偏离预训练先验,从而在无需外部标注的情况下实现性能优化。
技术框架:该框架包含两个核心阶段:首先是基于预训练模型的自采样过程,生成一批高质量的候选动作序列;其次是IPA对齐阶段,通过引入手部感知掩码,将优化目标聚焦于关键的手部区域,进行局部参数更新。
关键创新:最大的创新在于消除了对成对偏好数据的依赖,将偏好对齐问题转化为一种基于自生成样本的分布优化问题,极大提升了训练的数据效率和灵活性。
关键设计:引入了“手部感知局部优化(Hand-Aware Local Optimization)”机制,通过在损失函数中加入空间权重掩码,确保梯度更新集中在手部区域,避免对身体其他部位产生不必要的干扰,从而实现更精细的动作控制。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IPA在手部动作生成的保真度与连贯性上均优于基线模型。通过手部感知局部优化,模型在手部区域的生成质量提升显著,且在无需人工标注偏好数据的情况下,达到了与传统DPO相当甚至更优的对齐效果,验证了该方法在数据受限场景下的鲁棒性。
🎯 应用场景
该技术广泛适用于数字人生成、影视特效制作、虚拟现实(VR)交互及远程呈现等领域。通过提升手部动作的生成质量,能够显著增强虚拟角色的真实感与交互表现力,在低成本高质量的动画制作流程中具有极高的应用价值。
📄 摘要(原文)
Human image animation has witnessed significant advancements, yet generating high-fidelity hand motions remains a persistent challenge due to their high degrees of freedom and motion complexity. While reinforcement learning from human feedback, particularly direct preference optimization, offers a potential solution, it necessitates the construction of strict preference pairs. However, curating such pairs for dynamic hand regions is prohibitively expensive and often impractical due to frame-wise inconsistencies. In this paper, we propose Implicit Preference Alignment (IPA), a data-efficient post-training framework that eliminates the need for paired preference data. Theoretically grounded in implicit reward maximization, IPA aligns the model by maximizing the likelihood of self-generated high-quality samples while penalizing deviations from the pretrained prior. Furthermore, we introduce a Hand-Aware Local Optimization mechanism to explicitly steer the alignment process toward hand regions. Experiments demonstrate that our method achieves effective preference optimization to enhance hand generation quality, while significantly lowering the barrier for constructing preference data. Codes are released at https://github.com/mdswyz/IPA