MATO: Multi-objective Personalized Alignment with Test-time Optimization for Large Language Models

📄 arXiv: 2605.25342v1 📥 PDF

作者: Linhao Luo, Thuy-Trang Vu, Van-Anh Nguyen, Junae Kim, Gholamreza Haffari, Dinh Phung

分类: cs.CL

发布日期: 2026-05-25

备注: Preprint


💡 一句话要点

提出MATO:一种基于测试时优化的多目标个性化对齐大语言模型框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 个性化对齐 多目标优化 测试时优化 奖励学习

📋 核心要点

  1. 现有方法在多目标对齐大语言模型时,依赖昂贵的训练或需要为每个偏好预训练奖励模型,难以适应不断变化的偏好。
  2. MATO框架通过测试时优化,在不修改模型参数或使用外部奖励模型的情况下,通过可控权重调整多个目标的重要性。
  3. 实验结果表明,MATO在多目标对齐和可操纵性方面优于现有基线方法,验证了测试时优化在个性化对齐方面的潜力。

📝 摘要(中文)

本文提出MATO,一个无需训练的框架,用于通过测试时优化实现多目标个性化对齐大语言模型。MATO将个性化视为一个测试时优化问题,通过在解码过程中控制权重来调整多个目标的重要性,无需修改模型参数或外部奖励模型。具体而言,奖励发现模块直接从主干LLM中恢复自然语言指定的不同目标的偏好奖励,而权重优化模块根据用户的初始偏好和部分生成的响应动态调整目标权重,以平衡生成过程中的竞争目标。由此产生的奖励和权重共同指导token分布的在线优化过程,从而更好地与目标对齐。在多个数据集和主干LLM上的大量实验表明,MATO始终优于强大的基线,实现了帕累托改进的多目标对齐和更强的可操纵性。这些结果突出了测试时优化作为可扩展、可控和模型无关的个性化对齐的有希望的方向。

🔬 方法详解

问题定义:现有方法在对齐大型语言模型以适应多样化和多方面的用户偏好时面临挑战。多目标对齐方法要么依赖于代价高昂的训练,要么需要为每个偏好预训练奖励模型,这使得它们难以适应不断变化的偏好。提示工程提供了一种无需训练的替代方案,但提示本身提供的可操纵性有限,因为LLM可能过度强调或忽略某些偏好,并且无法在出现冲突时为用户提供对不同目标相对重要性的可靠控制,从而导致次优对齐。

核心思路:MATO的核心思路是将个性化对齐问题转化为一个测试时优化问题。通过在解码过程中动态调整不同目标的权重,从而在不修改模型参数或依赖外部奖励模型的情况下,实现对多个目标的平衡和优化。这种方法允许模型在生成文本时,根据用户的偏好和已生成的内容,实时调整生成策略。

技术框架:MATO框架主要包含两个模块:奖励发现模块和权重优化模块。奖励发现模块负责从预训练的LLM中提取不同目标的奖励信号,这些目标以自然语言形式指定。权重优化模块则根据用户的初始偏好和部分生成的响应,动态调整各个目标的权重。最终,这些奖励和权重共同指导一个在线优化过程,从而优化token的分布,使生成的文本更好地与目标对齐。

关键创新:MATO的关键创新在于其测试时优化方法。与传统的训练或微调方法不同,MATO无需修改模型参数,而是通过在推理阶段动态调整目标权重来实现个性化对齐。这种方法具有更高的灵活性和可扩展性,可以适应不断变化的用户偏好和目标。

关键设计:奖励发现模块利用LLM的zero-shot能力,直接从模型中提取奖励信号。权重优化模块采用在线优化算法,根据用户的初始偏好和已生成的内容,动态调整目标权重。具体的优化算法和权重调整策略需要根据具体的应用场景进行设计和调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MATO在多个数据集和不同的LLM上均优于现有的基线方法,实现了帕累托改进的多目标对齐。具体而言,MATO在多个指标上取得了显著的提升,例如,在生成文本的质量、相关性和可控性方面均有明显改善。这些结果表明,MATO是一种有效的多目标个性化对齐方法。

🎯 应用场景

MATO框架具有广泛的应用前景,可用于构建更个性化和可控的大语言模型应用。例如,在智能客服、内容生成、教育辅导等领域,可以利用MATO根据用户的偏好和需求,生成更符合用户期望的文本。此外,MATO还可以用于提高LLM的安全性,通过调整目标权重,避免生成有害或不当的内容。

📄 摘要(原文)

Aligning large language models (LLMs) with diverse and multifaceted user preferences is a fundamental challenge in personalized AI systems. Existing multi-objective alignment methods either rely on costly training or require pre-trained reward models for each preference, making it difficult for them to adapt to evolving preferences. Prompt-based personalization offers a training-free alternative, but prompting alone often provides limited steerability, as LLMs may overemphasize or overlook certain preferences and fail to give users reliable control over the relative importance of different objectives when conflicts arise, leading to suboptimal alignment. In this paper, we introduce MATO, a training-free framework for Multi-objective personalized Alignment with Test-time Optimization. MATO formulates personalization as a test-time optimization problem that steers the relative importance of multiple objectives through controllable weights during decoding, without modifying model parameters or requiring external reward models. Specifically, a reward discovery module recovers preference rewards directly from the backbone LLM for diverse objectives specified in natural language, while a weight optimization module dynamically adjusts objective weights based on the user's initial preferences and the partially generated response to balance competing objectives during generation. The resulting rewards and weights jointly guide an online optimization procedure over the token distribution, enabling better alignment with the target objectives. Extensive experiments across multiple datasets and backbone LLMs show that MATO consistently outperforms strong baselines, achieving Pareto-improving multi-objective alignment and stronger steerability. These results highlight test-time optimization as a promising direction for scalable, controllable, and model-agnostic personalized alignment.