OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization
作者: Keane Ong, Sabri Boughorbel, Luwei Xiao, Chanakya Ekbote, Wei Dai, Ao Qu, Jingyao Wu, Rui Mao, Ehsan Hoque, Erik Cambria, Gianmarco Mengaldo, Paul Pu Liang
分类: cs.AI, cs.LG
发布日期: 2026-02-11
💡 一句话要点
提出HARPO算法,训练社交行为处理基础模型Omnisapiens,提升异构数据学习能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社交行为处理 基础模型 强化学习 异构数据 策略优化 人机交互 Omnisapiens
📋 核心要点
- 现有社交智能AI模型通常孤立地建模人类行为维度,泛化能力受限且训练成本高昂。
- 论文提出异构感知相对策略优化(HARPO)算法,平衡异构任务和样本的学习,避免单一任务过度影响。
- 基于HARPO训练的Omnisapiens-7B 2.0在多任务和保留设置中分别提升+16.85%和+9.37%。
📝 摘要(中文)
为了开发具有社交智能的AI,现有方法通常孤立地建模人类行为维度(例如,情感、认知或社会属性)。虽然有用,但特定于任务的建模通常会增加训练成本并限制跨行为环境的泛化。最近的推理强化学习方法促进了跨多个行为任务的单个统一模型的训练,但没有明确解决跨不同异构行为数据的学习问题。为了解决这个差距,我们引入了异构感知相对策略优化(HARPO),这是一种强化学习方法,可以平衡跨异构任务和样本的学习。这是通过调节优势来实现的,以确保没有单个任务或样本在策略优化过程中产生不成比例的影响。使用HARPO,我们开发并发布了Omnisapiens-7B 2.0,这是一个用于社交行为处理的基础模型。相对于现有的行为基础模型,Omnisapiens-7B 2.0在行为任务中实现了最强的性能,在多任务和保留设置中分别获得了高达+16.85%和+9.37%的收益,同时产生了更明确和稳健的推理轨迹。我们还针对最近的强化学习方法验证了HARPO,它在行为任务中实现了最一致的强大性能。
🔬 方法详解
问题定义:现有社交行为处理模型通常针对特定任务设计,缺乏跨任务的泛化能力,并且难以处理异构的训练数据。不同任务和样本对模型训练的贡献度不同,如果处理不当,会导致模型偏向某些特定任务或样本,影响整体性能。
核心思路:论文的核心思路是提出一种异构感知的强化学习方法,即HARPO,通过调节不同任务和样本的优势函数,来平衡它们对策略优化的影响。这样可以避免模型过度拟合某些特定任务或样本,从而提高模型的泛化能力和鲁棒性。
技术框架:HARPO算法基于强化学习框架,整体流程如下:首先,收集来自不同任务和样本的训练数据;然后,使用这些数据训练一个策略模型;在训练过程中,HARPO会根据任务和样本的异构性,动态地调整优势函数;最后,使用调整后的优势函数来更新策略模型。通过迭代这个过程,可以训练出一个能够有效处理异构数据的社交行为处理模型。
关键创新:HARPO算法的关键创新在于提出了异构感知的优势函数调节机制。传统的强化学习方法通常假设所有任务和样本都是同等重要的,而HARPO则考虑了任务和样本之间的差异,并根据这些差异来调整优势函数。这种方法可以更有效地利用异构数据,从而提高模型的性能。
关键设计:HARPO算法的关键设计包括:1) 如何衡量任务和样本的异构性;2) 如何根据异构性来调整优势函数;3) 如何保证策略优化的稳定性。论文中具体采用了何种方法来衡量异构性以及调整优势函数,需要查阅原文以获取更详细的信息。损失函数的设计也需要根据具体的任务和数据进行调整。
📊 实验亮点
Omnisapiens-7B 2.0在多任务和保留设置中分别取得了显著的性能提升,分别达到+16.85%和+9.37%。这表明HARPO算法能够有效地处理异构数据,并提高模型的泛化能力。此外,Omnisapiens-7B 2.0还产生了更明确和稳健的推理轨迹,有助于提高模型的可解释性。
🎯 应用场景
Omnisapiens模型可应用于多个领域,如社交机器人、虚拟助手、情感分析、人机交互等。该模型能够更好地理解和预测人类的社交行为,从而实现更自然、更智能的人机交互。未来,该模型有望在心理健康、教育、娱乐等领域发挥重要作用。
📄 摘要(原文)
To develop socially intelligent AI, existing approaches typically model human behavioral dimensions (e.g., affective, cognitive, or social attributes) in isolation. Although useful, task-specific modeling often increases training costs and limits generalization across behavioral settings. Recent reasoning RL methods facilitate training a single unified model across multiple behavioral tasks, but do not explicitly address learning across different heterogeneous behavioral data. To address this gap, we introduce Heterogeneity-Aware Relative Policy Optimization (HARPO), an RL method that balances leaning across heterogeneous tasks and samples. This is achieved by modulating advantages to ensure that no single task or sample carries disproportionate influence during policy optimization. Using HARPO, we develop and release Omnisapiens-7B 2.0, a foundation model for social behavior processing. Relative to existing behavioral foundation models, Omnisapiens-7B 2.0 achieves the strongest performance across behavioral tasks, with gains of up to +16.85% and +9.37% on multitask and held-out settings respectively, while producing more explicit and robust reasoning traces. We also validate HARPO against recent RL methods, where it achieves the most consistently strong performance across behavioral tasks.