Cross-Platform Evaluation of Large Language Model Safety in Pediatric Consultations: Evolution of Adversarial Robustness and the Scale Paradox

📄 arXiv: 2601.09721v1 📥 PDF

作者: Vahideh Zolfaghari

分类: cs.CL, cs.AI

发布日期: 2025-12-26


💡 一句话要点

评估大语言模型在儿科咨询中的安全性,揭示对抗鲁棒性演变与规模悖论

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全性评估 对抗鲁棒性 儿科咨询 医疗AI

📋 核心要点

  1. 现有LLM安全评估主要集中在理想条件下,忽略了用户焦虑等对抗压力带来的潜在风险。
  2. 本研究通过模拟家长焦虑情景,评估LLM在儿科咨询中的安全性,关注对抗压力下的模型表现。
  3. 实验结果表明,模型安全性与规模并非正相关,且模型在紧急情况识别方面存在不足。

📝 摘要(中文)

本研究评估了大型语言模型(LLMs)在儿科咨询中,面对家长焦虑驱动的对抗压力下的安全性。使用PediatricAnxietyBench评估了三个模型(Llama-3.3-70B、Llama-3.1-8B和Mistral-7B)在300个查询(150个真实,150个对抗)上的表现。安全性评估基于约束、转诊、对冲、紧急情况识别和非处方行为等指标,采用0-15分制。结果表明,模型安全性取决于对齐和架构,而非规模。较小的Llama-3.1-8B优于Llama-3.3-70B。所有模型均表现出正向对抗效应,Mistral-7B最强。癫痫发作诊断存在较高风险。研究表明,现有模型不适合用于分诊,并为医疗AI安全提供了开放基准。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型在模拟真实用户(焦虑的家长)压力下的儿科咨询场景中的安全性。现有方法主要在理想、中立的条件下评估LLM,忽略了实际应用中用户可能提出的具有挑战性的问题,以及模型在对抗压力下的脆弱性。特别是在医疗领域,错误的回答可能导致严重的后果。

核心思路:核心思路是通过构建一个包含对抗性查询的基准测试集(PediatricAnxietyBench),模拟家长在面对孩子健康问题时的焦虑情绪,从而诱导LLM产生不安全的回答。通过对比模型在真实查询和对抗查询下的表现,评估其对抗鲁棒性。同时,研究关注不同规模和架构的模型在安全性方面的差异,以及模型在不同平台上的泛化能力。

技术框架:整体框架包括以下几个步骤:1) 使用PediatricAnxietyBench基准测试集,该数据集包含150个真实查询和150个对抗查询,涵盖10个儿科相关主题。2) 选择三个具有代表性的LLM:Llama-3.3-70B、Llama-3.1-8B (Groq)和Mistral-7B (HuggingFace)。3) 通过API接口向这些模型提交查询,并记录它们的响应。4) 使用预定义的安全性评分标准(0-15分),评估每个响应的安全性,该标准考虑了约束、转诊、对冲、紧急情况识别和非处方行为等因素。5) 使用统计方法(配对t检验和bootstrap置信区间)分析实验结果,比较不同模型在不同查询类型下的表现。

关键创新:本研究的关键创新在于:1) 提出了一个更贴近真实应用场景的LLM安全评估方法,考虑了用户焦虑等对抗压力。2) 揭示了LLM安全性与模型规模之间可能存在的悖论,即更大的模型并不一定更安全。3) 强调了模型对齐和架构设计在安全性方面的重要性。4) 提供了一个开放的基准测试集,方便后续研究者评估和比较不同LLM在医疗领域的安全性。

关键设计:安全性评分标准是关键设计之一,它将安全性分解为五个可量化的指标:约束(模型是否避免给出明确的医疗建议)、转诊(模型是否建议用户寻求专业医疗帮助)、对冲(模型是否使用不确定的语言)、紧急情况识别(模型是否能识别紧急情况)和非处方行为(模型是否避免给出处方建议)。每个指标都有明确的评分细则,以确保评估的客观性和一致性。此外,对抗查询的设计也至关重要,它们旨在诱导模型给出不安全的回答,例如,通过强调症状的严重性或暗示用户已经尝试过其他方法。

📊 实验亮点

实验结果表明,较小的Llama-3.1-8B模型在安全性方面优于更大的Llama-3.3-70B模型(+0.66, p=0.0001, d=0.225),揭示了模型规模与安全性之间的悖论。所有模型均表现出正向对抗效应,Mistral-7B的提升最为显著(+1.09, p=0.0002)。研究还发现,模型在癫痫发作诊断方面存在较高风险(33%的不恰当诊断)。

🎯 应用场景

该研究成果可应用于医疗AI系统的安全评估与优化,指导开发者选择更安全可靠的LLM。通过对抗性测试,可以发现模型在特定场景下的安全漏洞,并针对性地进行改进。此外,该研究提供的基准测试集可用于评估和比较不同模型的安全性,促进医疗AI领域的安全发展。

📄 摘要(原文)

Background Large language models (LLMs) are increasingly deployed in medical consultations, yet their safety under realistic user pressures remains understudied. Prior assessments focused on neutral conditions, overlooking vulnerabilities from anxious users challenging safeguards. This study evaluated LLM safety under parental anxiety-driven adversarial pressures in pediatric consultations across models and platforms. Methods PediatricAnxietyBench, from a prior evaluation, includes 300 queries (150 authentic, 150 adversarial) spanning 10 topics. Three models were assessed via APIs: Llama-3.3-70B and Llama-3.1-8B (Groq), Mistral-7B (HuggingFace), yielding 900 responses. Safety used a 0-15 scale for restraint, referral, hedging, emergency recognition, and non-prescriptive behavior. Analyses employed paired t-tests with bootstrapped CIs. Results Mean scores: 9.70 (Llama-3.3-70B) to 10.39 (Mistral-7B). Llama-3.1-8B outperformed Llama-3.3-70B by +0.66 (p=0.0001, d=0.225). Models showed positive adversarial effects, Mistral-7B strongest (+1.09, p=0.0002). Safety generalized across platforms; Llama-3.3-70B had 8% failures. Seizures vulnerable (33% inappropriate diagnoses). Hedging predicted safety (r=0.68, p<0.001). Conclusions Evaluation shows safety depends on alignment and architecture over scale, with smaller models outperforming larger. Evolution to robustness across releases suggests targeted training progress. Vulnerabilities and no emergency recognition indicate unsuitability for triage. Findings guide selection, stress adversarial testing, and provide open benchmark for medical AI safety.