The Age of Curiosity Meets the Age of AI: Benchmarking Child Safety in Large Language Models
作者: Samee Arif, Angana Borah, Rada Mihalcea
分类: cs.CL
发布日期: 2026-05-25
💡 一句话要点
KIDBench:评估大语言模型在儿童安全方面的基准测试与安全模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 儿童安全 大型语言模型 基准测试 发展心理学 AI安全 多轮对话 提示工程
📋 核心要点
- 现有LLM安全评估缺乏对儿童特定安全问题的关注,无法有效防止不适宜内容。
- 提出KIDBench基准,利用发展心理学评估标准,模拟真实儿童查询,评估LLM的儿童安全性。
- 实验表明,加入年龄提示可显著提升模型安全性,但跨语言和文化表现存在差异,多轮对话安全性会下降。
📝 摘要(中文)
儿童越来越多地接触到大型语言模型(LLM),这可能使他们接触到在发展上不适当或需要年龄敏感的安全、指导和界限的回应。现有的LLM安全评估主要集中在有害内容规避上,并没有明确针对面向儿童的安全。我们引入了KIDBench,这是一个用于评估7-11岁儿童的LLM安全性的基准,它使用基于发展心理学的LLM-as-a-Judge评估标准。KIDBench包含十个类别的真实儿童查询,包括单轮提示和多轮儿童角色模拟。我们将没有儿童上下文的无提示提示、暗示儿童说话者的隐式提示和显式年龄指令进行了比较。隐式提示将分数提高了9-47%,而显式年龄进一步增加了10-30%。跨语言和文化评估显示,不同语言和国家背景下的安全行为不一致。多轮模拟表明,面向儿童的响应质量从第一轮到最差的一轮可能会下降6-24%。除了评估之外,我们还引入了儿童安全评估器KIDGuardLlama和面向儿童的响应模型KIDLlama,展示了KIDBench如何支持更安全的面向儿童的AI。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)安全评估主要集中在有害内容的规避,而忽略了儿童特定年龄段的安全需求。儿童在使用LLM时,可能会接触到不适合其年龄段的内容,或者缺乏必要的指导和安全保障。因此,如何评估和提升LLM在面向儿童场景下的安全性是一个亟待解决的问题。
核心思路:该论文的核心思路是构建一个专门针对儿童的LLM安全评估基准KIDBench,并基于该基准评估现有LLM的安全性。同时,论文还提出了KIDGuardLlama安全评估器和KIDLlama面向儿童的响应模型,以展示如何利用KIDBench来提升LLM在儿童场景下的安全性。这种设计思路旨在弥补现有LLM安全评估的不足,为儿童提供更安全的AI体验。
技术框架:KIDBench包含以下几个主要组成部分: 1. 查询数据集:包含十个类别的真实儿童查询,涵盖了儿童可能感兴趣或遇到的各种问题。 2. 评估标准:基于发展心理学,设计了一套适用于评估儿童安全性的LLM-as-a-Judge评估标准。 3. 评估方法:包括单轮提示和多轮儿童角色模拟,以评估LLM在不同场景下的安全性。 4. 安全模型:KIDGuardLlama用于评估LLM的安全性,KIDLlama用于生成面向儿童的响应。
关键创新:该论文的关键创新在于: 1. KIDBench基准:首次提出了一个专门针对儿童的LLM安全评估基准,填补了该领域的空白。 2. 发展心理学评估标准:基于发展心理学设计了一套适用于评估儿童安全性的评估标准,更加贴合儿童的实际需求。 3. KIDGuardLlama和KIDLlama:展示了如何利用KIDBench来构建更安全的面向儿童的AI模型。
关键设计: 1. 提示工程:论文尝试了不同的提示方式,包括无提示、隐式提示(暗示儿童说话者)和显式年龄指令,以评估不同提示方式对LLM安全性的影响。 2. 多轮对话模拟:通过多轮儿童角色模拟,评估LLM在多轮对话中的安全性,发现响应质量会随着对话轮数的增加而下降。 3. 跨语言和文化评估:评估了LLM在不同语言和文化背景下的安全性,发现存在差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在提示中加入年龄信息可以显著提高LLM在儿童安全方面的表现,隐式提示提升9-47%,显式年龄提示进一步提升10-30%。然而,跨语言和文化评估显示,不同语言和国家背景下的安全行为不一致。多轮模拟表明,面向儿童的响应质量从第一轮到最差的一轮可能会下降6-24%。
🎯 应用场景
该研究成果可应用于开发更安全的儿童陪伴型AI产品,例如儿童教育机器人、智能玩具等。通过KIDBench基准,开发者可以评估和改进其产品在儿童安全方面的性能,从而为儿童提供更健康、更有益的AI体验。此外,该研究也为制定儿童AI安全标准提供了参考。
📄 摘要(原文)
Children increasingly have access to Large Language Models (LLMs), which may expose them to responses that are developmentally inappropriate or require age-sensitive safety, guidance, and boundaries. Existing LLM safety evaluations largely focus on harmful-content avoidance and do not explicitly target child-facing safety. We introduce KIDBench, a benchmark for evaluating child-facing LLM safety for ages 7--11 using a developmental-psychology-grounded LLM-as-a-Judge rubric. KIDBench contains realistic child queries across ten categories, with single-turn prompts and multi-turn child-actor simulations. We compare no-cues prompts with no child context, implicit-cues prompts that suggest a child speaker, and explicit age instructions. Implicit-cues improve scores by 9--47% across models, while explicit age adds a further 10--30% gain. Cross-lingual and cultural evaluations show uneven safety behavior across languages and country contexts. Multi-turn simulations show that child-facing response quality can degrade by 6--24% from the first to worst turn. Beyond evaluation, we introduce KIDGuardLlama, a child-safety evaluator, and KIDLlama, a child-oriented response model, showing how KIDBench supports safer child-facing AI