Evaluating AI Counseling in Japanese: Counselor, Client, and Evaluator Roles Assessed by Motivational Interviewing Criteria
作者: Keita Kiuchi, Yoshikazu Fujimoto, Hideyuki Goto, Tomonori Hosokawa, Makoto Nishimura, Yosuke Sato, Izumi Sezai
分类: cs.CL, cs.AI, cs.HC
发布日期: 2025-06-28 (更新: 2025-07-08)
备注: 70 pages, 0 figures, 9 tables; data and code at https://osf.io/p8c39/files/2e58c42f-a7ba-45f2-aa60-265e107e36db
💡 一句话要点
评估日语AI咨询:基于动机式访谈标准评估咨询师、来访者和评估者角色
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI咨询 日语 大型语言模型 动机式访谈 多角色评估
📋 核心要点
- 现有AI咨询方法在非英语环境,特别是日语中,缺乏系统性的多角色评估和基准。
- 本研究通过构建咨询师、来访者和评估者三种AI角色,并使用动机式访谈标准进行评估,提供了一种全面的评估框架。
- 实验表明,结构化多步对话提示(SMDP)显著提升了咨询师AI的表现,并揭示了不同AI模型在评估中存在的偏差。
📝 摘要(中文)
本研究首次全面评估了大型语言模型(LLM)在日语治疗环境中三个咨询角色中的表现。我们同时评估了咨询师AI系统(使用零样本提示的GPT-4-turbo或结构化多步对话提示(SMDP),Claude-3-Opus-SMDP)、来访者AI模拟以及评估AI系统(o3,Claude-3.7-Sonnet,Gemini-2.5-pro)。15位具有丰富咨询经验的人类专家使用动机式访谈治疗完整性(MITI)编码手册4.2.1评估了AI生成的对话。值得注意的是,与零样本提示相比,SMDP的实施显著提高了咨询师AI在所有MITI全局评分中的表现,GPT-SMDP和Opus-SMDP之间没有显著差异。评估AI在培养改变意愿方面表现与人类评估者相当,但系统性地高估了软化持续性谈话和整体质量指标。模型特定的偏差显现:Gemini强调权力共享,o3侧重于技术熟练程度,而Sonnet优先考虑情感表达。来访者AI模拟表现出有限的情感范围和不自然的顺从性,表明需要增强真实感。这些发现为非英语环境中的AI辅助咨询建立了基准,并确定了通过高级提示工程、检索增强生成和有针对性的微调来改进的关键领域,对开发具有文化敏感性的AI心理健康工具具有重要意义。
🔬 方法详解
问题定义:论文旨在解决在日语环境下,如何全面评估AI在心理咨询中的有效性和可靠性的问题。现有方法主要集中在英语环境,缺乏对日语等非英语环境的系统性评估。此外,现有方法通常只关注咨询师的角色,忽略了来访者和评估者的角色,导致评估结果不够全面和客观。
核心思路:论文的核心思路是构建一个包含咨询师、来访者和评估者三种AI角色的完整评估体系,并使用动机式访谈治疗完整性(MITI)编码手册作为评估标准。通过让人类专家评估AI生成的对话,可以全面了解AI在不同角色中的表现,并识别其优势和不足。
技术框架:整体框架包括三个主要模块:1) 咨询师AI系统:使用GPT-4-turbo和Claude-3-Opus,分别采用零样本提示和结构化多步对话提示(SMDP)两种方法。2) 来访者AI模拟:模拟来访者的行为和反应。3) 评估AI系统:使用o3,Claude-3.7-Sonnet和Gemini-2.5-pro评估AI生成的对话。人类专家也参与评估,作为基准。
关键创新:本研究的关键创新在于:1) 首次在日语环境下对AI咨询进行多角色评估。2) 引入结构化多步对话提示(SMDP)来提高咨询师AI的表现。3) 比较了不同AI模型在评估中的偏差。
关键设计:SMDP的设计旨在引导AI咨询师进行更结构化和有效的对话。MITI编码手册4.2.1被用作评估标准,包括全局评分和行为计数。人类专家使用MITI编码手册对AI生成的对话进行评分,并与评估AI的评分进行比较。来访者AI模拟的设计目标是模拟真实来访者的行为和反应,但实验结果表明其情感范围有限,需要进一步改进。
📊 实验亮点
实验结果表明,结构化多步对话提示(SMDP)显著提高了咨询师AI在所有MITI全局评分中的表现。GPT-SMDP和Opus-SMDP之间没有显著差异。评估AI在培养改变意愿方面表现与人类评估者相当,但在软化持续性谈话和整体质量指标方面存在系统性高估。不同AI模型在评估中存在偏差,例如Gemini强调权力共享,o3侧重于技术熟练程度,而Sonnet优先考虑情感表达。
🎯 应用场景
该研究成果可应用于开发更有效、更具文化敏感性的AI心理健康工具,例如AI咨询助手、心理健康筛查工具等。通过不断改进AI在咨询中的表现,可以为更多人提供便捷、可负担的心理健康服务,尤其是在心理健康资源匮乏的地区。
📄 摘要(原文)
This study provides the first comprehensive evaluation of large language model (LLM) performance across three counseling roles in Japanese-language therapeutic contexts. We simultaneously assessed counselor artificial intelligence (AI) systems (GPT-4-turbo with zeroshot prompting or Structured Multi-step Dialogue Prompts (SMDP), Claude-3-Opus-SMDP), client AI simulations, and evaluation AI systems (o3, Claude-3.7-Sonnet, Gemini-2.5-pro). Human experts (n = 15) with extensive counseling experience evaluated AI-generated dialogues using the Motivational Interviewing Treatment Integrity (MITI) Coding Manual 4.2.1. Notably, SMDP implementation significantly enhanced counselor AI performance across all MITI global ratings compared with zeroshot prompting, with no significant differences between GPT-SMDP and Opus-SMDP. Evaluation AIs showed comparable performance to human raters for Cultivating Change Talk but systematically overestimated Softening Sustain Talk and the overall quality metrics. Model-specific biases emerged: Gemini emphasized power-sharing, o3 focused on technical proficiency, and Sonnet prioritized emotional expression. Client AI simulations exhibited a limited emotional range and unnaturally high compliance, indicating the need for enhanced realism. These findings establish benchmarks for AI-assisted counseling in non-English contexts and identify critical areas for improvement through advanced prompt engineering, retrieval-augmented generation, and targeted fine-tuning, with important implications for developing culturally sensitive AI mental health tools.