ChildEval: When large language models meet children's personalities
作者: Yanyan Luo, Xue Han, Chunxu Zhao, Ruiqiao Bai, Yaxing Zhang, Qian Hu, Lijun Mei, Junlan Feng
分类: cs.CL, cs.AI
发布日期: 2026-05-27
备注: 8 pages of main text (ACL Findings format), with references and appendix
🔗 代码/项目: GITHUB
💡 一句话要点
提出ChildEval基准,评估LLM在儿童个性化对话中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 儿童个性化 大型语言模型 对话系统 评估基准 ChildEval
📋 核心要点
- 现有LLM在儿童个性化对话中表现评估不足,缺乏针对儿童偏好的系统性评测。
- ChildEval基准通过合成儿童角色档案和对话,显式及隐式地表达儿童偏好。
- 实验表明,个性化表示影响LLM响应,ChildEval微调可提升儿童中心性能。
📝 摘要(中文)
大型语言模型(LLM)虽然能够实现个性化聊天机器人,但它们在以儿童为中心的个性化方面的有效性尚不明确,因为对儿童特定偏好的系统评估仍然缺乏。为了解决这一差距,我们推出了ChildEval,这是一个用于评估LLM在长上下文对话中推断和遵循以儿童为中心的偏好的能力的基准。ChildEval包含2.9万个3-6岁儿童的合成角色档案,提供相对静态的背景信息。每个人物都与一个儿童偏好相关联——这种偏好可能与人物一致、冲突或独立——通过单句明确表达或通过6-10轮对话隐式表达。显式和隐式偏好旨在反映相同的潜在偏好,但在表达上有所不同,捕捉偏好表达的动态方面,而不是静态人物的变化。该基准涵盖儿童日常生活和发展的五个顶层和十四个子层类别。我们进一步提出了细粒度的、以儿童为中心的评估协议,以系统地评估开源LLM。实验结果表明,不同的个性化表示如何影响LLM的响应,并表明在ChildEval上进行微调可以提高以儿童为中心的性能。我们的代码和数据集可在https://github.com/ziyanluo/ChildEval获得。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在儿童个性化对话中表现评估不足的问题。现有方法缺乏针对儿童特定偏好的系统性评测基准,难以有效评估和提升LLM在儿童场景下的个性化能力。
核心思路:论文的核心思路是构建一个包含大量合成儿童角色档案和对话的基准数据集ChildEval,用于评估LLM在理解和遵循儿童偏好方面的能力。通过显式和隐式两种方式表达儿童偏好,模拟真实对话场景,从而更全面地评估LLM的性能。
技术框架:ChildEval基准包含以下几个主要组成部分:1) 2.9万个3-6岁儿童的合成角色档案,提供静态背景信息;2) 与角色相关的儿童偏好,通过单句(显式)或6-10轮对话(隐式)表达;3) 五个顶层和十四个子层类别,覆盖儿童日常生活和发展;4) 细粒度的、以儿童为中心的评估协议,用于系统评估LLM。
关键创新:该论文的关键创新在于构建了一个专门针对儿童个性化对话的评估基准ChildEval。与现有通用对话评估基准相比,ChildEval更关注儿童的特定偏好和表达方式,能够更准确地评估LLM在儿童场景下的表现。此外,显式和隐式偏好的设计,能够捕捉偏好表达的动态性。
关键设计:ChildEval的数据生成过程涉及多个步骤,包括角色档案的合成、偏好的生成和对话的构建。为了保证数据的质量和多样性,论文采用了多种技术,例如,使用预训练语言模型生成对话,并人工进行筛选和修改。评估协议的设计也考虑了儿童的特点,例如,使用易于理解的指标和评估方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同的个性化表示方式会显著影响LLM的响应。通过在ChildEval上进行微调,可以有效提升LLM在儿童个性化对话中的表现。具体性能数据和对比基线未在摘要中明确给出,但强调了微调带来的性能提升。
🎯 应用场景
该研究成果可应用于开发更智能、更个性化的儿童陪伴型聊天机器人,为儿童提供更优质的教育、娱乐和心理支持服务。同时,ChildEval基准的发布,将促进LLM在儿童领域的应用研究,推动相关技术的进步。
📄 摘要(原文)
While LLMs enable personalized chatbots, their effectiveness in child-centered personalization remains unclear, as systematic evaluation of child-specific preferences is still lacking. To address this gap, we introduce ChildEval, a benchmark for evaluating LLMs' ability to infer and follow child-centered preferences in long-context conversations. ChildEval contains 29K synthesized persona profiles of children aged 3-6, providing relatively static background information. Each persona is associated with a child preference-which may align with, conflict with, or be independent of the persona-expressed either explicitly in a single sentence or implicitly through 6-10 turn dialogues. Explicit and implicit preferences are designed to reflect the same underlying preference but differ in expression, capturing dynamic aspects of preference expression rather than changes in the static persona. The benchmark spans five top-level and fourteen sub-level categories covering children's daily lives and development. We further propose fine-grained, child-centric evaluation protocols to systematically assess open-source LLMs. Experimental results demonstrate how different personalized representations affect LLM responses and suggest that finetuning on ChildEval can enhance child-centered performance. Our code and dataset are available at https://github.com/ziyanluo/ChildEval.