DinoCompanion: An Attachment-Theory Informed Multimodal Robot for Emotionally Responsive Child-AI Interaction

📄 arXiv: 2506.12486v1 📥 PDF

作者: Boyang Wang, Yuhao Song, Jinyuan Cao, Peng Yu, Hongcheng Guo, Zhoujun Li

分类: cs.AI

发布日期: 2025-06-14


💡 一句话要点

DinoCompanion:基于依恋理论的多模态机器人,用于情感响应式儿童-AI互动

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 儿童AI交互 依恋理论 多模态机器人 情感响应 风险感知 CARPO训练 AttachSecure-Bench

📋 核心要点

  1. 现有AI伙伴缺乏基于依恋理论的情感支持,无法满足儿童发展需求,存在安全风险。
  2. 提出DinoCompanion,一个基于依恋理论的多模态机器人,通过CARPO训练目标平衡参与度和安全性。
  3. DinoCompanion在AttachSecure-Bench上超越GPT-4o和Claude-3.7-Sonnet,在安全基地行为上接近人类水平。

📝 摘要(中文)

儿童的情感发展主要依赖于安全的依恋关系,但目前的人工智能伙伴缺乏提供发展适宜性情感支持的理论基础。我们介绍了DinoCompanion,这是第一个基于依恋理论的多模态机器人,用于情感响应式儿童-AI互动。我们解决了儿童-AI系统中的三个关键挑战:缺乏发展知情的AI架构、需要在参与度和安全性之间取得平衡,以及缺乏用于基于依恋能力的标准评估框架。我们的贡献包括:(i)一个包含128个照护者-儿童二元组的多模态数据集,其中包含125,382个带有配对偏好-风险标签的注释片段,(ii)CARPO(儿童感知风险校准偏好优化),一种新颖的训练目标,可在应用认知不确定性加权风险惩罚的同时最大化参与度,以及(iii)AttachSecure-Bench,一个全面的评估基准,涵盖十项以依恋为中心的能力,并具有强大的专家共识(κ=0.81)。DinoCompanion实现了最先进的性能(57.15%),优于GPT-4o(50.29%)和Claude-3.7-Sonnet(53.43%),具有出色的安全基地行为(72.99%,接近人类专家水平的78.4%)和卓越的依恋风险检测(69.73%)。消融实验验证了多模态融合、不确定性感知风险建模和分层记忆对于连贯、情感协调互动的关键重要性。

🔬 方法详解

问题定义:现有儿童AI交互系统缺乏发展心理学理论指导,尤其是在依恋理论方面,导致无法提供适当的情感支持,同时难以平衡儿童的参与度和潜在风险。现有方法通常缺乏标准化的评估框架来衡量基于依恋关系的能力。

核心思路:论文的核心思路是构建一个基于依恋理论的儿童AI交互机器人,通过多模态感知和情感建模,实现情感响应式的互动。通过引入CARPO训练目标,在最大化儿童参与度的同时,考虑并减轻潜在的风险。

技术框架:DinoCompanion系统的整体框架包括以下几个主要模块:1) 多模态数据采集模块,用于收集照护者-儿童互动数据,包括视频、音频等;2) 数据标注模块,对数据进行偏好-风险标签的标注;3) CARPO训练模块,使用标注数据训练机器人,优化其行为策略;4) AttachSecure-Bench评估模块,使用标准化的评估基准评估机器人的依恋相关能力。

关键创新:论文的关键创新在于:1) 将依恋理论引入儿童AI交互系统设计;2) 提出了CARPO训练目标,该目标在优化参与度的同时,考虑了认知不确定性加权风险惩罚,从而平衡了参与度和安全性;3) 构建了AttachSecure-Bench评估基准,为评估儿童AI系统的依恋相关能力提供了标准化的工具。

关键设计:CARPO训练目标的关键设计在于使用认知不确定性来加权风险惩罚。具体来说,对于模型预测不确定的行为,给予更高的风险惩罚,从而鼓励模型学习更安全的行为。此外,论文还使用了分层记忆来保持对话的连贯性,并使用了多模态融合来提高情感识别的准确性。数据集包含128个caregiver-child dyads,包含125,382个clips,并标注了preference-risk labels。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DinoCompanion在AttachSecure-Bench评估基准上取得了57.15%的性能,超越了GPT-4o (50.29%) 和 Claude-3.7-Sonnet (53.43%)。在安全基地行为方面,DinoCompanion达到了72.99%,接近人类专家水平的78.4%。依恋风险检测准确率达到69.73%。消融实验验证了多模态融合、不确定性感知风险建模和分层记忆的关键作用。

🎯 应用场景

该研究成果可应用于儿童陪伴机器人、儿童教育、心理健康干预等领域。通过提供情感支持和安全的互动环境,DinoCompanion有助于促进儿童的情感发展和心理健康。未来,该技术有望应用于更广泛的儿童AI交互场景,例如远程教育、儿童娱乐等。

📄 摘要(原文)

Children's emotional development fundamentally relies on secure attachment relationships, yet current AI companions lack the theoretical foundation to provide developmentally appropriate emotional support. We introduce DinoCompanion, the first attachment-theory-grounded multimodal robot for emotionally responsive child-AI interaction. We address three critical challenges in child-AI systems: the absence of developmentally-informed AI architectures, the need to balance engagement with safety, and the lack of standardized evaluation frameworks for attachment-based capabilities. Our contributions include: (i) a multimodal dataset of 128 caregiver-child dyads containing 125,382 annotated clips with paired preference-risk labels, (ii) CARPO (Child-Aware Risk-calibrated Preference Optimization), a novel training objective that maximizes engagement while applying epistemic-uncertainty-weighted risk penalties, and (iii) AttachSecure-Bench, a comprehensive evaluation benchmark covering ten attachment-centric competencies with strong expert consensus (\k{appa}=0.81). DinoCompanion achieves state-of-the-art performance (57.15%), outperforming GPT-4o (50.29%) and Claude-3.7-Sonnet (53.43%), with exceptional secure base behaviors (72.99%, approaching human expert levels of 78.4%) and superior attachment risk detection (69.73%). Ablations validate the critical importance of multimodal fusion, uncertainty-aware risk modeling, and hierarchical memory for coherent, emotionally attuned interactions.