Learning When to Ask: Simulation-Trained Humanoids for Mental-Health Diagnosis

📄 arXiv: 2512.08952v1 📥 PDF

作者: Filippo Cenacchi, Deborah Richards, Longbing Cao

分类: cs.LG, cs.AI, cs.HC, cs.RO

发布日期: 2025-11-28


💡 一句话要点

提出基于模拟训练的人形机器人心理健康诊断方法,提升对话式诊断效率与安全性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 心理健康诊断 模拟训练 对话系统 强化学习 TD3算法 人机交互 非语言交流

📋 核心要点

  1. 现有方法在人形机器人心理健康诊断中,存在测试成本高、迭代慢、难以泛化等问题。
  2. 该论文提出了一种基于模拟环境的人形机器人训练方法,关注非语言交流和对话时机等因素。
  3. 实验表明,定制的TD3控制器在对话完整性、社交时机和决策质量方面优于PPO和CEM。

📝 摘要(中文)

与用户进行人形机器人测试速度慢、损耗大,且迭代和多样性受限。然而,筛查代理必须掌握对话时机、韵律、反馈以及面部和语音的关注点,以诊断抑郁症和创伤后应激障碍。大多数模拟器忽略了非语言动态的策略学习;许多控制器追求任务准确性,而低估了信任、节奏和融洽关系。我们虚拟化人形机器人作为对话代理,以避免硬件负担地进行训练。我们以代理为中心、模拟优先的流程将访谈数据转换为276个Unreal Engine MetaHuman患者,具有同步的语音、注视/面部和头部-躯干姿势,以及PHQ-8和PCL-C流程。感知-融合-策略循环决定了说什么和何时说、何时反馈以及如何避免中断,并受到安全保护。训练使用反事实重放(有界非语言扰动)和一个不确定性感知的回合管理器,该管理器进行探测以减少诊断模糊性。结果仅为模拟;人形机器人是转移目标。在比较三个控制器时,定制的TD3(Twin Delayed DDPG)优于PPO和CEM,在可比奖励下实现了接近上限的覆盖率和更稳定的节奏。决策质量分析显示可忽略不计的回合重叠、对齐的切割时序、更少的澄清提示和更短的等待时间。性能在模态dropout和渲染器交换下保持稳定,并且排名在保留的患者分割上保持不变。贡献包括:(1)一个以代理为中心的模拟器,将访谈转换为276个具有有界非语言反事实的交互式患者;(2)一个安全的学习循环,将时机和融洽关系视为一流的控制变量;(3)一项比较研究(TD3 vs PPO/CEM),在完整性和社交时机方面有明显的优势;(4)消融和鲁棒性分析,解释了这些优势并支持临床医生监督的人形机器人试验。

🔬 方法详解

问题定义:现有的人形机器人心理健康诊断研究,依赖于真实世界的人机交互测试,存在成本高昂、迭代缓慢、难以获取多样化数据等问题。此外,现有方法往往侧重于任务的准确性,而忽略了对话中的信任、节奏和融洽关系等重要因素,导致诊断效果不佳。

核心思路:该论文的核心思路是构建一个逼真的模拟环境,将真实访谈数据转化为虚拟患者,从而在虚拟环境中训练人形机器人,学习对话策略和非语言交流技巧。通过模拟训练,可以降低测试成本,加快迭代速度,并获得多样化的训练数据。同时,该方法将对话时机和融洽关系作为重要的控制变量,从而提高诊断效果。

技术框架:该论文提出的技术框架主要包括以下几个模块:1) 数据转换模块:将真实访谈数据转换为Unreal Engine MetaHuman患者,包括同步的语音、面部表情、头部姿势等信息。2) 感知-融合-策略循环:该循环决定了机器人何时说话、何时反馈以及如何避免中断。3) 安全保护机制:用于防止机器人在对话中出现不当行为。4) 训练模块:使用反事实重放和不确定性感知的回合管理器进行训练,以提高诊断准确性和鲁棒性。

关键创新:该论文的关键创新在于:1) 提出了一个以代理为中心的模拟器,可以将真实访谈数据转化为交互式患者,并生成有界非语言反事实数据。2) 提出了一个安全的学习循环,将对话时机和融洽关系作为重要的控制变量。3) 提出了一种不确定性感知的回合管理器,可以减少诊断模糊性。

关键设计:在训练过程中,使用了定制的TD3算法,并将其与PPO和CEM算法进行了比较。TD3算法在奖励函数中考虑了对话完整性、社交时机和决策质量等因素。此外,还使用了反事实重放技术,通过对非语言行为进行有界扰动,来提高模型的鲁棒性。不确定性感知的回合管理器通过探测来减少诊断模糊性,具体实现方式未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,定制的TD3控制器在模拟环境中表现出色,实现了接近上限的覆盖率和更稳定的节奏。与PPO和CEM相比,TD3在对话完整性、社交时机和决策质量方面均有显著提升。决策质量分析显示,TD3控制器具有可忽略不计的回合重叠、对齐的切割时序、更少的澄清提示和更短的等待时间。

🎯 应用场景

该研究成果可应用于心理健康筛查、远程医疗、人机交互等领域。通过虚拟化人形机器人,可以降低心理健康诊断的成本,提高诊断效率,并为患者提供更个性化的服务。未来,该技术有望应用于临床实践,辅助医生进行诊断和治疗。

📄 摘要(原文)

Testing humanoid robots with users is slow, causes wear, and limits iteration and diversity. Yet screening agents must master conversational timing, prosody, backchannels, and what to attend to in faces and speech for Depression and PTSD. Most simulators omit policy learning with nonverbal dynamics; many controllers chase task accuracy while underweighting trust, pacing, and rapport. We virtualise the humanoid as a conversational agent to train without hardware burden. Our agent-centred, simulation-first pipeline turns interview data into 276 Unreal Engine MetaHuman patients with synchronised speech, gaze/face, and head-torso poses, plus PHQ-8 and PCL-C flows. A perception-fusion-policy loop decides what and when to speak, when to backchannel, and how to avoid interruptions, under a safety shield. Training uses counterfactual replay (bounded nonverbal perturbations) and an uncertainty-aware turn manager that probes to reduce diagnostic ambiguity. Results are simulation-only; the humanoid is the transfer target. In comparing three controllers, a custom TD3 (Twin Delayed DDPG) outperformed PPO and CEM, achieving near-ceiling coverage with steadier pace at comparable rewards. Decision-quality analyses show negligible turn overlap, aligned cut timing, fewer clarification prompts, and shorter waits. Performance stays stable under modality dropout and a renderer swap, and rankings hold on a held-out patient split. Contributions: (1) an agent-centred simulator that turns interviews into 276 interactive patients with bounded nonverbal counterfactuals; (2) a safe learning loop that treats timing and rapport as first-class control variables; (3) a comparative study (TD3 vs PPO/CEM) with clear gains in completeness and social timing; and (4) ablations and robustness analyses explaining the gains and enabling clinician-supervised humanoid pilots.