Evaluating Speech-in-Speech Perception via a Humanoid Robot
作者: Luke Meyer, Gloria Araiza-Illan, Laura Rachman, Etienne Gaudrain, Deniz Baskent
分类: eess.AS, cs.RO, cs.SD
发布日期: 2023-12-19
备注: 25 pages (single spaced), 6 figures (at the end of the manuscript), 88 references, under revision with Frontiers
DOI: 10.3389/fnins.2024.1293120
💡 一句话要点
利用NAO机器人评估语音掩蔽下的语音感知能力,验证其在心理声学测试中的潜力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 语音感知 语音掩蔽 心理声学 人机交互 NAO机器人
📋 核心要点
- 语音掩蔽下的语音感知研究面临测试耗时和参与者注意力难以维持的挑战。
- 本研究探索使用NAO机器人作为交互媒介,以期提高参与者在心理声学测试中的参与度。
- 实验结果表明,NAO在语音清晰度方面与计算机设置具有功能相似性,并能提高参与度。
📝 摘要(中文)
本研究旨在探索使用交互式人形机器人NAO进行语音掩蔽下语音感知心理声学测试的可能性。语音掩蔽是日常生活中常见的听觉场景,理解其潜在机制通常需要耗时且繁琐的心理声学测试。引入NAO机器人作为社交媒介,可能有助于维持受试者的参与度和注意力。然而,机器人可能存在音质或处理速度的限制。本研究比较了正常听力成年人在使用标准计算机界面和使用NAO机器人呈现测试和刺激时的表现。目标语句包含颜色和数字关键词,并在不同目标-掩蔽比下与竞争性掩蔽语音一同呈现。目标语句和掩蔽语音由同一说话者生成,但通过语音合成引入了声音差异。通过比较计算机和NAO设置下的语音清晰度和数据收集时长来评估测试性能。使用机器人负面态度量表(NARS)和行为线索(反馈语)量化来评估人机交互。结果表明,计算机和NAO设置在语音清晰度方面具有功能相似性,但使用NAO时数据收集时间更长。NARS结果显示,参与者在与NAO交互前对其持有更积极的态度。使用NAO时出现更多积极的反馈语,表明与计算机相比,机器人具有更高的参与度。总体而言,该研究展示了NAO在呈现语音材料和收集语音掩蔽下语音感知心理声学测量方面的潜力。
🔬 方法详解
问题定义:本研究旨在评估使用NAO机器人进行语音掩蔽下语音感知测试的可行性。现有心理声学测试通常使用计算机界面,存在测试过程耗时、参与者容易疲劳和注意力分散等问题。NAO机器人的引入旨在通过其社交属性来提高参与者的参与度和兴趣,从而改善测试效果。
核心思路:核心思路是利用NAO机器人作为测试的呈现媒介,替代传统的计算机界面。通过NAO机器人呈现语音刺激,并观察参与者在语音清晰度、数据收集时长以及人机交互方面的表现。如果NAO机器人能够提供与计算机界面相似的语音清晰度,并且能够提高参与者的参与度,则证明其在心理声学测试中具有潜力。
技术框架:整体框架包括以下几个步骤:1) 招募正常听力成年人作为受试者;2) 设计语音掩蔽下的语音感知测试,包括目标语句和掩蔽语音的生成;3) 分别使用计算机界面和NAO机器人呈现测试刺激;4) 测量受试者的语音清晰度、数据收集时长以及人机交互指标(NARS量表和反馈语);5) 对比分析两种设置下的测试结果,评估NAO机器人的可行性。
关键创新:本研究的关键创新在于将人形机器人NAO引入到语音掩蔽下的语音感知测试中。以往的研究主要集中在使用计算机界面进行测试,而本研究探索了使用社交机器人作为测试媒介的可能性。这种方法有望提高参与者的参与度,并为心理声学测试提供新的思路。
关键设计:关键设计包括:1) 目标语句和掩蔽语音的生成,使用语音合成方法引入声音差异;2) 目标-掩蔽比的设置,选择不同的信噪比以评估语音清晰度;3) 人机交互指标的测量,使用NARS量表评估参与者对机器人的态度,并量化反馈语以评估参与度;4) 数据收集时长的记录,用于评估NAO机器人的效率。
📊 实验亮点
实验结果表明,使用NAO机器人进行语音掩蔽下的语音感知测试,在语音清晰度方面与传统的计算机界面具有功能相似性。同时,参与者在使用NAO机器人时表现出更高的参与度,体现在更多的积极反馈语上。虽然数据收集时长略有增加,但NAO机器人作为一种更具吸引力的测试媒介,具有潜在的应用价值。
🎯 应用场景
该研究成果可应用于听力学、语音治疗和人机交互等领域。NAO机器人可用于辅助听力障碍患者的诊断和康复训练,提高患者的参与度和治疗效果。此外,该研究也为开发更具吸引力和互动性的心理声学测试系统提供了借鉴,促进人机交互技术在医疗领域的应用。
📄 摘要(原文)
Underlying mechanisms of speech perception masked by background speakers, a common daily listening condition, are often investigated using various and lengthy psychophysical tests. The presence of a social agent, such as an interactive humanoid NAO robot, may help maintain engagement and attention. However, such robots potentially have limited sound quality or processing speed. As a first step towards the use of NAO in psychophysical testing of speech-in-speech perception, we compared normal-hearing young adults' performance when using the standard computer interface to that when using a NAO robot to introduce the test and present all corresponding stimuli. Target sentences were presented with colour and number keywords in the presence of competing masker speech at varying target-to-masker ratios. Sentences were produced by the same speaker, but voice differences between the target and masker were introduced using speech synthesis methods. To assess test performance, speech intelligibility and data collection duration were compared between the computer and NAO setups. Human-robot interaction was assessed using the Negative Attitude Towards Robot Scale (NARS) and quantification of behavioural cues (backchannels). Speech intelligibility results showed functional similarity between the computer and NAO setups. Data collection durations were longer when using NAO. NARS results showed participants had a more positive attitude toward robots prior to their interaction with NAO. The presence of more positive backchannels when using NAO suggest higher engagement with the robot in comparison to the computer. Overall, the study presents the potential of the NAO for presentingspeech materials and collecting psychophysical measurements for speech-in-speech perception.