One Model for All: Multi-Objective Controllable Language Models

📄 arXiv: 2604.04497 📥 PDF

作者: Qiang He, Yucheng Yang, Tianyi Zhou, Meng Fang, Mykola Pechenizkiy, Setareh Maghsudi

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出多目标控制(MOC)方法,训练单个LLM以实现用户偏好控制的个性化输出。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多目标优化 强化学习 人类反馈 大型语言模型 个性化 可控生成 帕累托最优

📋 核心要点

  1. 现有RLHF方法依赖固定奖励,难以适应用户个性化偏好,限制了LLM的控制性和泛化性。
  2. 提出多目标控制(MOC)方法,将多目标优化融入RLHF,训练偏好条件策略网络,实现帕累托最优。
  3. 实验表明,MOC在用户偏好控制、输出质量和多样性以及对未见偏好的泛化能力方面均优于基线。

📝 摘要(中文)

为了提升大型语言模型(LLM)的安全性、有用性、幽默感和忠实性等,使其与人类偏好对齐至关重要。现有的基于人类反馈的强化学习(RLHF)主要关注从平均人类评分中学习到的固定奖励,这可能会削弱LLM适应不同偏好和进行可控调整的能力。然而,创建个性化的LLM需要使LLM与个体人类偏好对齐,这极具挑战性,因为每个用户的数据稀缺,且用户偏好在多目标权衡中存在多样性。本文提出了多目标控制(MOC)方法,训练单个LLM以直接生成帕累托前沿上偏好定义的区域中的响应。MOC将多目标优化(MOO)原则引入RLHF,以训练LLM作为偏好条件策略网络。通过在策略层面应用MOO,提高了MOC的计算效率,从而能够在单个A6000 GPU上微调一个70亿参数的模型。大量实验表明,MOC在以下三个方面优于基线:(i)LLM输出在多个奖励之间的权衡方面对用户偏好的可控性;(ii)LLM输出的质量和多样性,通过实现的多个解决方案的超体积来衡量;(iii)对未见偏好的泛化能力。这些结果突显了MOC在需要可扩展和可定制LLM的实际应用中的潜力。

🔬 方法详解

问题定义:现有基于人类反馈的强化学习(RLHF)方法主要依赖于从平均人类评分中学习到的固定奖励,无法很好地适应不同用户的个性化偏好。这导致了LLM在多目标优化问题中,难以根据用户需求进行灵活调整,从而限制了其可控性和泛化能力。此外,为每个用户训练单独的LLM成本高昂,不具备实际应用的可行性。

核心思路:论文的核心思路是将多目标优化(MOO)的原则引入到RLHF中,将LLM训练成一个偏好条件策略网络。通过这种方式,LLM可以根据不同的用户偏好,在多个目标(例如,安全性、有用性、幽默感等)之间进行权衡,生成帕累托最优的输出。这样,单个LLM就可以适应不同用户的需求,实现个性化的输出。

技术框架:MOC方法的技术框架主要包括以下几个步骤:1) 定义多个奖励函数,分别对应不同的目标(例如,安全性、有用性等);2) 使用RLHF训练LLM,使其能够根据不同的用户偏好,生成相应的输出;3) 在训练过程中,使用多目标优化算法,找到帕累托最优的策略;4) 通过偏好条件策略网络,将用户偏好作为输入,控制LLM的输出。

关键创新:MOC方法最重要的技术创新点在于将多目标优化引入到RLHF中,从而实现了对LLM输出的细粒度控制。与现有方法相比,MOC方法不需要为每个用户训练单独的LLM,而是通过单个LLM来实现个性化的输出。此外,MOC方法还能够生成帕累托最优的输出,从而在多个目标之间实现最佳的权衡。

关键设计:为了提高MOC方法的计算效率,论文在策略层面应用MOO。具体来说,论文使用了一个70亿参数的模型,并在单个A6000 GPU上进行了微调。此外,论文还设计了一种新的损失函数,用于衡量LLM输出的质量和多样性。该损失函数基于超体积(hyper-volume)的概念,能够有效地评估LLM在多个目标上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MOC方法在用户偏好控制、输出质量和多样性以及对未见偏好的泛化能力方面均优于基线方法。具体来说,MOC方法能够生成帕累托最优的输出,并在多个目标之间实现最佳的权衡。此外,MOC方法还能够在单个A6000 GPU上微调一个70亿参数的模型,证明了其具有良好的可扩展性。

🎯 应用场景

MOC方法具有广泛的应用前景,例如,可以用于构建个性化的聊天机器人、智能助手和内容生成系统。在医疗领域,可以根据患者的个人情况和偏好,生成个性化的健康建议。在教育领域,可以根据学生的学习风格和需求,生成个性化的学习材料。MOC方法还可以用于提高LLM的安全性,例如,可以根据用户的偏好,过滤掉不安全或不适当的内容。

📄 摘要(原文)

Aligning large language models (LLMs) with human preferences is critical for enhancing LLMs' safety, helpfulness, humor, faithfulness, etc. Current reinforcement learning from human feedback (RLHF) mainly focuses on a fixed reward learned from average human ratings, which may weaken the adaptability and controllability of varying preferences. However, creating personalized LLMs requires aligning LLMs with individual human preferences, which is non-trivial due to the scarce data per user and the diversity of user preferences in multi-objective trade-offs, varying from emphasizing empathy in certain contexts to demanding efficiency and precision in others. Can we train one LLM to produce personalized outputs across different user preferences on the Pareto front? In this paper, we introduce Multi-Objective Control (MOC), which trains a single LLM to directly generate responses in the preference-defined regions of the Pareto front. Our approach introduces multi-objective optimization (MOO) principles into RLHF to train an LLM as a preference-conditioned policy network. We improve the computational efficiency of MOC by applying MOO at the policy level, enabling us to fine-tune a 7B-parameter model on a single A6000 GPU. Extensive experiments demonstrate the advantages of MOC over baselines in three aspects: (i) controllability of LLM outputs w.r.t. user preferences on the trade-off among multiple rewards; (ii) quality and diversity of LLM outputs, measured by the hyper-volume of multiple solutions achieved; and (iii) generalization to unseen preferences. These results highlight MOC's potential for real-world applications requiring scalable and customizable LLMs.