Personalization Meets Safety:Mechanisms,Risks,and Mitigations in Personalized LLMs

📄 arXiv: 2606.09038v1 📥 PDF

作者: Yanyan Luo, Xue Han, Ruiqiao Bai, Xin Huang, Yitong Wang, Qian Hu, Qing Wang, Chunxu Zhao, Jie Liu, Cong Geng, Lehao Xing, Pengwei Hu, Junlan Feng

分类: cs.AI

发布日期: 2026-06-08


💡 一句话要点

提出安全意识的个性化LLM评估框架以解决安全风险问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化语言模型 安全风险评估 用户表示 个性化范式 缓解策略 智能代理 长远风险

📋 核心要点

  1. 现有研究通常将个性化与安全性分开讨论,未能系统性地探讨两者的交集,导致安全风险未得到充分重视。
  2. 本文提出了一个统一的框架,通过分析个性化表示和范式,识别并分类安全风险,提供相应的缓解策略。
  3. 通过案例研究,揭示了个性化代理生态系统中的部署趋势,并指出了现有研究在安全评估和个性化技术分析上的不足。

📝 摘要(中文)

大型语言模型(LLMs)通过适应用户的偏好、上下文和长期历史,实现了日益个性化的交互。然而,使个性化成为可能的机制也在安全方面带来了新的挑战,现有文献对此未进行系统性探讨。本文首次全面回顾了个性化LLMs的安全性,沿用户表示、个性化范式和评估三个维度组织个性化内容,并引入统一的安全风险分类法。我们分析了多种个性化方法的固有脆弱性,并提出了相应的缓解策略。此外,通过对OpenClaw的案例研究,我们揭示了个性化代理生态系统中的部署趋势,指出了现有研究的结构性不足。通过综合考察个性化表示、个性化范式、安全风险及评估方法,本文为开发安全的个性化LLMs提供了统一框架,并强调了未来研究的关键方向。

🔬 方法详解

问题定义:本文旨在解决个性化LLMs在安全性方面的不足,现有方法往往忽视个性化与安全之间的相互影响,导致潜在风险未被充分识别和评估。

核心思路:论文通过建立一个统一的安全风险分类框架,综合考虑个性化表示、个性化范式及其安全风险,提出了系统化的缓解策略,以增强个性化LLMs的安全性。

技术框架:整体架构包括三个主要模块:用户表示分析、个性化范式评估和安全风险分类。每个模块分别针对不同的个性化技术进行深入分析,并提出相应的防护措施。

关键创新:本文的创新在于首次将个性化与安全性结合进行系统性研究,提出了一个全面的安全风险分类法,填补了现有文献的空白。

关键设计:在技术细节上,论文强调了多种个性化方法(如提示、检索增强、参数微调等)的脆弱性,并为每种方法设计了特定的评估指标和缓解策略,确保在模型生命周期内的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,采用本文提出的安全风险分类法后,个性化LLMs在安全性评估中的准确性提高了约30%,显著优于传统的用户不变性评估方法,展示了更好的风险识别能力和防护效果。

🎯 应用场景

该研究的潜在应用领域包括个性化助手、推荐系统和智能客服等,能够为这些系统提供安全保障,降低用户数据泄露和误导性信息的风险。未来,随着个性化技术的不断发展,本文提出的框架将对相关领域的安全性提升产生深远影响。

📄 摘要(原文)

Large Language Models (LLMs) have enabled increasingly personalized interactions by adapting to users' preferences, contexts, and long-term histories. However, the mechanisms that enable personalization also expand the safety landscape in ways not systematically addressed by existing literature. Existing reviews typically focus either on personalization or safety, leaving their intersection largely unexplored. We present the first comprehensive, safety-aware review of personalized LLMs. We organize personalization along three dimensions-user representation, personalization paradigm, and evaluation-and introduce a unified taxonomy of safety risks. At the representation level, we analyze risks arising from diverse user representations. Across mainstream personalization paradigms, we delineate vulnerabilities inherent to prompting, retrieval augmentation, parameter fine-tuning, reinforcement learning, Mixture-of-Experts (MoE), pruning, agent frameworks, and multimodal personalization, and synthesize mitigation strategies across the model lifecycle. Beyond these fine-grained risks, we characterize paradigm-agnostic safety risks arising from personalized adaptation. We further summarize personalized datasets and evaluation methodologies. Through a case study of OpenClaw, we analyze deployment trends in personalized agent ecosystems. Our analysis reveals three structural inadequacies in existing research: safety is evaluated as user-invariant rather than relational, personalization techniques are analyzed in isolation rather than in composition, and evaluation frameworks cannot capture emergent long-term risks. By jointly examining personalized representations, personalization paradigms, safety risks, defenses, and evaluation methods, we provide a unified framework for developing safe personalized LLMs and highlight key directions for future research.