The Age of Curiosity Meets the Age of AI: Benchmarking Child Safety in Large Language Models

作者: Samee Arif, Angana Borah, Rada Mihalcea

分类: cs.CL

发布日期: 2026-05-25

💡 一句话要点

KIDBench：评估大语言模型在儿童安全方面的基准测试与安全模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 儿童安全 大型语言模型 基准测试 发展心理学 AI安全 多轮对话 提示工程

📋 核心要点

现有LLM安全评估缺乏对儿童特定安全问题的关注，无法有效防止不适宜内容。
提出KIDBench基准，利用发展心理学评估标准，模拟真实儿童查询，评估LLM的儿童安全性。
实验表明，加入年龄提示可显著提升模型安全性，但跨语言和文化表现存在差异，多轮对话安全性会下降。

📝 摘要（中文）

儿童越来越多地接触到大型语言模型（LLM），这可能使他们接触到在发展上不适当或需要年龄敏感的安全、指导和界限的回应。现有的LLM安全评估主要集中在有害内容规避上，并没有明确针对面向儿童的安全。我们引入了KIDBench，这是一个用于评估7-11岁儿童的LLM安全性的基准，它使用基于发展心理学的LLM-as-a-Judge评估标准。KIDBench包含十个类别的真实儿童查询，包括单轮提示和多轮儿童角色模拟。我们将没有儿童上下文的无提示提示、暗示儿童说话者的隐式提示和显式年龄指令进行了比较。隐式提示将分数提高了9-47%，而显式年龄进一步增加了10-30%。跨语言和文化评估显示，不同语言和国家背景下的安全行为不一致。多轮模拟表明，面向儿童的响应质量从第一轮到最差的一轮可能会下降6-24%。除了评估之外，我们还引入了儿童安全评估器KIDGuardLlama和面向儿童的响应模型KIDLlama，展示了KIDBench如何支持更安全的面向儿童的AI。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）安全评估主要集中在有害内容的规避，而忽略了儿童特定年龄段的安全需求。儿童在使用LLM时，可能会接触到不适合其年龄段的内容，或者缺乏必要的指导和安全保障。因此，如何评估和提升LLM在面向儿童场景下的安全性是一个亟待解决的问题。

核心思路：该论文的核心思路是构建一个专门针对儿童的LLM安全评估基准KIDBench，并基于该基准评估现有LLM的安全性。同时，论文还提出了KIDGuardLlama安全评估器和KIDLlama面向儿童的响应模型，以展示如何利用KIDBench来提升LLM在儿童场景下的安全性。这种设计思路旨在弥补现有LLM安全评估的不足，为儿童提供更安全的AI体验。

技术框架：KIDBench包含以下几个主要组成部分： 1. 查询数据集：包含十个类别的真实儿童查询，涵盖了儿童可能感兴趣或遇到的各种问题。 2. 评估标准：基于发展心理学，设计了一套适用于评估儿童安全性的LLM-as-a-Judge评估标准。 3. 评估方法：包括单轮提示和多轮儿童角色模拟，以评估LLM在不同场景下的安全性。 4. 安全模型：KIDGuardLlama用于评估LLM的安全性，KIDLlama用于生成面向儿童的响应。

关键创新：该论文的关键创新在于： 1. KIDBench基准：首次提出了一个专门针对儿童的LLM安全评估基准，填补了该领域的空白。 2. 发展心理学评估标准：基于发展心理学设计了一套适用于评估儿童安全性的评估标准，更加贴合儿童的实际需求。 3. KIDGuardLlama和KIDLlama：展示了如何利用KIDBench来构建更安全的面向儿童的AI模型。

关键设计： 1. 提示工程：论文尝试了不同的提示方式，包括无提示、隐式提示（暗示儿童说话者）和显式年龄指令，以评估不同提示方式对LLM安全性的影响。 2. 多轮对话模拟：通过多轮儿童角色模拟，评估LLM在多轮对话中的安全性，发现响应质量会随着对话轮数的增加而下降。 3. 跨语言和文化评估：评估了LLM在不同语言和文化背景下的安全性，发现存在差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在提示中加入年龄信息可以显著提高LLM在儿童安全方面的表现，隐式提示提升9-47%，显式年龄提示进一步提升10-30%。然而，跨语言和文化评估显示，不同语言和国家背景下的安全行为不一致。多轮模拟表明，面向儿童的响应质量从第一轮到最差的一轮可能会下降6-24%。

🎯 应用场景

该研究成果可应用于开发更安全的儿童陪伴型AI产品，例如儿童教育机器人、智能玩具等。通过KIDBench基准，开发者可以评估和改进其产品在儿童安全方面的性能，从而为儿童提供更健康、更有益的AI体验。此外，该研究也为制定儿童AI安全标准提供了参考。

📄 摘要（原文）

Children increasingly have access to Large Language Models (LLMs), which may expose them to responses that are developmentally inappropriate or require age-sensitive safety, guidance, and boundaries. Existing LLM safety evaluations largely focus on harmful-content avoidance and do not explicitly target child-facing safety. We introduce KIDBench, a benchmark for evaluating child-facing LLM safety for ages 7--11 using a developmental-psychology-grounded LLM-as-a-Judge rubric. KIDBench contains realistic child queries across ten categories, with single-turn prompts and multi-turn child-actor simulations. We compare no-cues prompts with no child context, implicit-cues prompts that suggest a child speaker, and explicit age instructions. Implicit-cues improve scores by 9--47% across models, while explicit age adds a further 10--30% gain. Cross-lingual and cultural evaluations show uneven safety behavior across languages and country contexts. Multi-turn simulations show that child-facing response quality can degrade by 6--24% from the first to worst turn. Beyond evaluation, we introduce KIDGuardLlama, a child-safety evaluator, and KIDLlama, a child-oriented response model, showing how KIDBench supports safer child-facing AI

The Age of Curiosity Meets the Age of AI: Benchmarking Child Safety in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理