Challenges of Evaluating LLM Safety for User Welfare
作者: Manon Kempermann, Sai Suresh Macharla Vasu, Mahalakshmi Raveenthiran, Theo Farrell, Ingmar Weber
分类: cs.AI, cs.CY
发布日期: 2025-12-11
备注: Paper accepted at IASEAI'26; please cite that peer-reviewed version instead
💡 一句话要点
针对用户福祉,提出考虑用户情境的LLM安全评估方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM安全评估 用户福祉 情境感知 用户画像 脆弱性分析
📋 核心要点
- 现有LLM安全评估侧重通用风险,忽略了用户在财务、健康等场景下的个性化风险。
- 论文提出一种情境感知的LLM安全评估方法,考虑用户画像的脆弱性,评估LLM建议的安全性。
- 实验表明,仅提供用户自述情境不足以提升评估效果,评估者需具备丰富的用户情境知识。
📝 摘要(中文)
大型语言模型(LLM)的安全评估通常侧重于通用风险,如危险能力或不良倾向。然而,数百万用户使用LLM获取关于财务和健康等高风险话题的个人建议,在这些领域,危害是依赖于情境的,而非普遍存在的。尽管OECD的AI分类等框架认识到评估个体风险的必要性,但用户福祉安全评估仍不完善。我们认为,开发此类评估并非易事,因为在评估设计中考虑用户情境存在根本性问题。在这项探索性研究中,我们评估了GPT-5、Claude Sonnet 4和Gemini 2.5 Pro在不同脆弱性用户画像下的财务和健康建议。首先,我们证明了评估者必须能够访问丰富的用户情境:对用户情况不知情的评估者对相同的LLM响应的评分明显高于知情者,高脆弱性用户的安全评分从安全(5/7)降至略微不安全(3/7)。有人可能认为,可以通过创建包含关键情境信息的真实用户提示来解决这一差距。然而,我们的第二项研究对此提出了挑战:我们对包含用户报告他们会披露的情境的提示重新进行了评估,发现没有显著改善。我们的工作表明,有效的用户福祉安全评估需要评估者根据不同的用户画像评估响应,因为仅靠真实的用户情境披露是不够的,特别是对于弱势群体。通过展示一种情境感知的评估方法,本研究为这类评估提供了一个起点,并为评估个体福祉需要不同于现有通用风险框架的方法提供了基础证据。我们发布了我们的代码和数据集,以帮助未来的发展。
🔬 方法详解
问题定义:现有LLM安全评估主要关注通用风险,如生成有害内容或被用于恶意目的,而忽略了用户在使用LLM获取个人建议时,由于自身背景、经济状况、健康状况等因素的差异,面临的个性化风险。例如,对财务状况不佳的用户提出的投资建议,即使在普遍情况下是合理的,也可能对其造成损害。现有方法缺乏对用户情境的有效建模和评估,导致LLM在提供个性化建议时可能损害用户福祉。
核心思路:论文的核心思路是引入用户情境信息,特别是用户的脆弱性信息,来评估LLM生成的建议是否安全。通过模拟不同用户画像,并让评估者了解这些用户的具体情况,从而更准确地判断LLM的建议是否适合该用户,是否可能对其造成潜在的伤害。这种方法强调了安全评估的相对性,即相同的建议对于不同用户可能具有不同的安全等级。
技术框架:该研究的技术框架主要包含以下几个步骤:1. 定义用户画像:创建具有不同脆弱性程度的用户画像,包括财务状况、健康状况、教育程度等信息。2. 生成用户提示:根据用户画像,构建包含用户情境信息的提示,用于向LLM提问。3. LLM生成建议:使用不同的LLM(如GPT-5、Claude Sonnet 4、Gemini 2.5 Pro)对用户提示生成相应的建议。4. 安全评估:由评估者根据用户画像和LLM的建议,判断该建议对于该用户是否安全,并给出安全评分。5. 结果分析:比较不同LLM在不同用户画像下的安全评分,分析用户情境信息对安全评估的影响。
关键创新:该研究的关键创新在于提出了情境感知的LLM安全评估方法,强调了用户情境信息在安全评估中的重要性。与传统的通用风险评估方法不同,该方法关注LLM建议的个性化风险,即针对特定用户可能造成的潜在伤害。此外,该研究还发现,仅提供用户自述的情境信息不足以提升评估效果,评估者需要更深入地了解用户画像,才能做出更准确的判断。
关键设计:在用户画像设计方面,研究人员需要仔细考虑哪些因素会影响用户的脆弱性,并尽可能全面地收集相关信息。在安全评估方面,需要设计合理的评分标准,以便评估者能够客观地判断LLM建议的安全性。此外,还需要控制评估者的主观偏差,例如通过提供详细的评估指南和进行一致性检验。
🖼️ 关键图片
📊 实验亮点
实验结果表明,知情用户情境的评估者对LLM建议的安全评分明显低于不知情者,高脆弱性用户的安全评分从安全(5/7)降至略微不安全(3/7)。此外,仅提供用户自述的情境信息并不能显著改善评估效果,表明评估者需要更深入地了解用户画像才能做出准确判断。
🎯 应用场景
该研究成果可应用于LLM安全评估、个性化推荐系统、智能客服等领域。通过考虑用户情境,可以提高LLM在提供个性化建议时的安全性,避免对弱势群体造成潜在伤害。未来,可以进一步研究如何自动提取和利用用户情境信息,实现更智能、更安全的LLM应用。
📄 摘要(原文)
Safety evaluations of large language models (LLMs) typically focus on universal risks like dangerous capabilities or undesirable propensities. However, millions use LLMs for personal advice on high-stakes topics like finance and health, where harms are context-dependent rather than universal. While frameworks like the OECD's AI classification recognize the need to assess individual risks, user-welfare safety evaluations remain underdeveloped. We argue that developing such evaluations is non-trivial due to fundamental questions about accounting for user context in evaluation design. In this exploratory study, we evaluated advice on finance and health from GPT-5, Claude Sonnet 4, and Gemini 2.5 Pro across user profiles of varying vulnerability. First, we demonstrate that evaluators must have access to rich user context: identical LLM responses were rated significantly safer by context-blind evaluators than by those aware of user circumstances, with safety scores for high-vulnerability users dropping from safe (5/7) to somewhat unsafe (3/7). One might assume this gap could be addressed by creating realistic user prompts containing key contextual information. However, our second study challenges this: we rerun the evaluation on prompts containing context users report they would disclose, finding no significant improvement. Our work establishes that effective user-welfare safety evaluation requires evaluators to assess responses against diverse user profiles, as realistic user context disclosure alone proves insufficient, particularly for vulnerable populations. By demonstrating a methodology for context-aware evaluation, this study provides both a starting point for such assessments and foundational evidence that evaluating individual welfare demands approaches distinct from existing universal-risk frameworks. We publish our code and dataset to aid future developments.