DinoCompanion: An Attachment-Theory Informed Multimodal Robot for Emotionally Responsive Child-AI Interaction

作者: Boyang Wang, Yuhao Song, Jinyuan Cao, Peng Yu, Hongcheng Guo, Zhoujun Li

分类: cs.AI

发布日期: 2025-06-14

💡 一句话要点

DinoCompanion：基于依恋理论的多模态机器人，用于情感响应式儿童-AI互动

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 儿童AI交互 依恋理论 多模态机器人 情感响应 风险感知 CARPO训练 AttachSecure-Bench

📋 核心要点

现有AI伙伴缺乏基于依恋理论的情感支持，无法满足儿童发展需求，存在安全风险。
提出DinoCompanion，一个基于依恋理论的多模态机器人，通过CARPO训练目标平衡参与度和安全性。
DinoCompanion在AttachSecure-Bench上超越GPT-4o和Claude-3.7-Sonnet，在安全基地行为上接近人类水平。

📝 摘要（中文）

儿童的情感发展主要依赖于安全的依恋关系，但目前的人工智能伙伴缺乏提供发展适宜性情感支持的理论基础。我们介绍了DinoCompanion，这是第一个基于依恋理论的多模态机器人，用于情感响应式儿童-AI互动。我们解决了儿童-AI系统中的三个关键挑战：缺乏发展知情的AI架构、需要在参与度和安全性之间取得平衡，以及缺乏用于基于依恋能力的标准评估框架。我们的贡献包括：（i）一个包含128个照护者-儿童二元组的多模态数据集，其中包含125,382个带有配对偏好-风险标签的注释片段，（ii）CARPO（儿童感知风险校准偏好优化），一种新颖的训练目标，可在应用认知不确定性加权风险惩罚的同时最大化参与度，以及（iii）AttachSecure-Bench，一个全面的评估基准，涵盖十项以依恋为中心的能力，并具有强大的专家共识（κ=0.81）。DinoCompanion实现了最先进的性能（57.15%），优于GPT-4o（50.29%）和Claude-3.7-Sonnet（53.43%），具有出色的安全基地行为（72.99%，接近人类专家水平的78.4%）和卓越的依恋风险检测（69.73%）。消融实验验证了多模态融合、不确定性感知风险建模和分层记忆对于连贯、情感协调互动的关键重要性。

🔬 方法详解

问题定义：现有儿童AI交互系统缺乏发展心理学理论指导，尤其是在依恋理论方面，导致无法提供适当的情感支持，同时难以平衡儿童的参与度和潜在风险。现有方法通常缺乏标准化的评估框架来衡量基于依恋关系的能力。

核心思路：论文的核心思路是构建一个基于依恋理论的儿童AI交互机器人，通过多模态感知和情感建模，实现情感响应式的互动。通过引入CARPO训练目标，在最大化儿童参与度的同时，考虑并减轻潜在的风险。

技术框架：DinoCompanion系统的整体框架包括以下几个主要模块：1) 多模态数据采集模块，用于收集照护者-儿童互动数据，包括视频、音频等；2) 数据标注模块，对数据进行偏好-风险标签的标注；3) CARPO训练模块，使用标注数据训练机器人，优化其行为策略；4) AttachSecure-Bench评估模块，使用标准化的评估基准评估机器人的依恋相关能力。

关键创新：论文的关键创新在于：1) 将依恋理论引入儿童AI交互系统设计；2) 提出了CARPO训练目标，该目标在优化参与度的同时，考虑了认知不确定性加权风险惩罚，从而平衡了参与度和安全性；3) 构建了AttachSecure-Bench评估基准，为评估儿童AI系统的依恋相关能力提供了标准化的工具。

关键设计：CARPO训练目标的关键设计在于使用认知不确定性来加权风险惩罚。具体来说，对于模型预测不确定的行为，给予更高的风险惩罚，从而鼓励模型学习更安全的行为。此外，论文还使用了分层记忆来保持对话的连贯性，并使用了多模态融合来提高情感识别的准确性。数据集包含128个caregiver-child dyads，包含125,382个clips，并标注了preference-risk labels。

🖼️ 关键图片

📊 实验亮点

DinoCompanion在AttachSecure-Bench评估基准上取得了57.15%的性能，超越了GPT-4o (50.29%) 和 Claude-3.7-Sonnet (53.43%)。在安全基地行为方面，DinoCompanion达到了72.99%，接近人类专家水平的78.4%。依恋风险检测准确率达到69.73%。消融实验验证了多模态融合、不确定性感知风险建模和分层记忆的关键作用。

🎯 应用场景

该研究成果可应用于儿童陪伴机器人、儿童教育、心理健康干预等领域。通过提供情感支持和安全的互动环境，DinoCompanion有助于促进儿童的情感发展和心理健康。未来，该技术有望应用于更广泛的儿童AI交互场景，例如远程教育、儿童娱乐等。

📄 摘要（原文）

Children's emotional development fundamentally relies on secure attachment relationships, yet current AI companions lack the theoretical foundation to provide developmentally appropriate emotional support. We introduce DinoCompanion, the first attachment-theory-grounded multimodal robot for emotionally responsive child-AI interaction. We address three critical challenges in child-AI systems: the absence of developmentally-informed AI architectures, the need to balance engagement with safety, and the lack of standardized evaluation frameworks for attachment-based capabilities. Our contributions include: (i) a multimodal dataset of 128 caregiver-child dyads containing 125,382 annotated clips with paired preference-risk labels, (ii) CARPO (Child-Aware Risk-calibrated Preference Optimization), a novel training objective that maximizes engagement while applying epistemic-uncertainty-weighted risk penalties, and (iii) AttachSecure-Bench, a comprehensive evaluation benchmark covering ten attachment-centric competencies with strong expert consensus (\k{appa}=0.81). DinoCompanion achieves state-of-the-art performance (57.15%), outperforming GPT-4o (50.29%) and Claude-3.7-Sonnet (53.43%), with exceptional secure base behaviors (72.99%, approaching human expert levels of 78.4%) and superior attachment risk detection (69.73%). Ablations validate the critical importance of multimodal fusion, uncertainty-aware risk modeling, and hierarchical memory for coherent, emotionally attuned interactions.

DinoCompanion: An Attachment-Theory Informed Multimodal Robot for Emotionally Responsive Child-AI Interaction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理