Benchmarking and Improving LLM Robustness for Personalized Generation
作者: Chimaobi Okite, Naihao Deng, Kiran Bodipati, Huaidian Hou, Joyce Chai, Rada Mihalcea
分类: cs.CL, cs.AI
发布日期: 2025-09-18
备注: First draft. First camera-ready version
💡 一句话要点
提出PERG框架与Pref-Aligner方法,提升LLM在个性化生成中的事实性与鲁棒性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 个性化生成 鲁棒性 事实性 用户偏好
📋 核心要点
- 现有LLM个性化评估主要关注用户偏好对齐,忽略了事实准确性这一关键维度,导致模型鲁棒性不足。
- 论文提出PERG框架与Pref-Aligner方法,PERG用于评估LLM在个性化生成中的鲁棒性,Pref-Aligner旨在提升模型的事实性和用户偏好对齐。
- 实验结果表明,现有LLM在鲁棒个性化方面存在挑战,Pref-Aligner方法能够有效提升模型鲁棒性,平均提升幅度达25%。
📝 摘要(中文)
近年来,大型语言模型(LLM)的个性化响应受到越来越多的关注。现有评估主要关注响应是否符合用户偏好,但我们认为事实性是一个同样重要但经常被忽视的维度。在个性化背景下,如果模型响应在符合用户偏好的同时保持事实准确,则认为该模型具有鲁棒性。为了评估这一点,我们引入了PERG,这是一个用于评估LLM鲁棒性的可扩展框架,以及一个新的数据集PERGData。我们使用不同的提示方法评估了来自五个不同模型系列的十四个模型。我们的研究结果表明,当前的LLM在鲁棒个性化方面存在困难:即使是最强大的模型(GPT-4.1、LLaMA3-70B)在没有个性化的情况下,也会在5%的先前成功案例中无法保持正确性,而较小的模型(例如7B规模)可能会失败超过20%的时间。进一步的分析表明,鲁棒性受到查询性质和用户偏好类型的显着影响。为了减轻这些失败,我们提出了一种两阶段方法Pref-Aligner,该方法平均提高了所有模型的鲁棒性25%。我们的工作突出了当前评估实践中的关键差距,并引入了工具和指标,以支持更可靠、用户对齐的LLM部署。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在个性化生成任务中,既要满足用户偏好,又要保证生成内容的事实准确性这一问题。现有方法主要关注用户偏好对齐,忽略了事实性验证,导致模型在个性化过程中容易产生错误或不准确的信息,降低了模型的鲁棒性。
核心思路:论文的核心思路是构建一个评估框架(PERG)来衡量LLM在个性化生成中的鲁棒性,并提出一种新的训练方法(Pref-Aligner)来提升模型的鲁棒性。PERG框架通过引入新的数据集和评估指标,能够更全面地评估模型在个性化场景下的事实准确性和用户偏好对齐能力。Pref-Aligner方法则通过两阶段训练,首先保证模型的事实准确性,然后再进行用户偏好对齐,从而避免模型在个性化过程中牺牲事实性。
技术框架:论文的技术框架主要包含两个部分:PERG评估框架和Pref-Aligner训练方法。PERG框架包含一个新的数据集PERGData,该数据集包含多个个性化生成任务,每个任务都包含用户偏好信息和事实性验证信息。PERG框架还定义了一系列评估指标,用于衡量模型在个性化生成中的事实准确性和用户偏好对齐能力。Pref-Aligner训练方法包含两个阶段:第一阶段是事实对齐阶段,该阶段使用事实性数据训练模型,使其能够生成准确的信息;第二阶段是偏好对齐阶段,该阶段使用用户偏好数据训练模型,使其能够生成符合用户偏好的信息。
关键创新:论文的关键创新点在于:1) 提出了PERG框架,用于评估LLM在个性化生成中的鲁棒性,弥补了现有评估方法的不足;2) 提出了Pref-Aligner方法,通过两阶段训练,有效提升了模型在个性化生成中的事实准确性和用户偏好对齐能力。与现有方法相比,PERG框架能够更全面地评估模型的鲁棒性,Pref-Aligner方法能够更有效地提升模型的鲁棒性。
关键设计:Pref-Aligner方法的关键设计在于两阶段训练策略。第一阶段的事实对齐阶段,可以使用各种事实性数据进行训练,例如知识图谱、维基百科等。第二阶段的偏好对齐阶段,可以使用用户反馈数据或奖励模型进行训练。具体的损失函数和网络结构可以根据具体的任务和数据集进行调整。论文中没有详细说明具体的参数设置、损失函数和网络结构,这些细节可能需要根据实际情况进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的LLM在鲁棒个性化方面存在显著的不足,即使是GPT-4.1和LLaMA3-70B等最强大的模型,在没有个性化的情况下,也会在5%的先前成功案例中无法保持正确性。而较小的模型(例如7B规模)可能会失败超过20%的时间。通过应用Pref-Aligner方法,模型的鲁棒性平均提升了25%。
🎯 应用场景
该研究成果可应用于各种需要个性化生成内容的场景,例如个性化推荐、对话系统、内容创作等。通过提升LLM在个性化生成中的鲁棒性,可以提高用户体验,减少错误信息的传播,并为用户提供更可靠、更符合其偏好的信息服务。未来,该研究可以进一步扩展到多模态个性化生成、长期用户偏好建模等领域。
📄 摘要(原文)
Recent years have witnessed a growing interest in personalizing the responses of large language models (LLMs). While existing evaluations primarily focus on whether a response aligns with a user's preferences, we argue that factuality is an equally important yet often overlooked dimension. In the context of personalization, we define a model as robust if its responses are both factually accurate and align with the user preferences. To assess this, we introduce PERG, a scalable framework for evaluating robustness in LLMs, along with a new dataset, PERGData. We evaluate fourteen models from five different model families using different prompting methods. Our findings show that current LLMs struggle with robust personalization: even the strongest models (GPT-4.1, LLaMA3-70B) fail to maintain correctness in 5% of previously successful cases without personalization, while smaller models (e.g., 7B-scale) can fail more than 20% of the time. Further analysis reveals that robustness is significantly affected by the nature of the query and the type of user preference. To mitigate these failures, we propose Pref-Aligner, a two-stage approach that improves robustness by an average of 25% across models. Our work highlights critical gaps in current evaluation practices and introduces tools and metrics to support more reliable, user-aligned LLM deployments.