Toward expert-level motivational interviewing for health behavior improvement with LLMs

作者: Run-ze Hu, Yang Yang, Yi-hang Yang, Jing-qi Kong, Jia-hui Luo, Wen-yu Yang, Jing Chen, Jing-yao Liu, Hui-qun Zeng, Lei Zhang, Zheng Liu

分类: cs.CL

发布日期: 2025-12-17

备注: 26 pages, 3 figures

💡 一句话要点

利用大型语言模型实现专家级动机访谈，促进健康行为改善

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 动机访谈 大型语言模型 健康行为改变 心理咨询 AI辅助咨询

📋 核心要点

动机访谈(MI)在健康行为改变中有效，但依赖于专业咨询师，成本高昂且难以规模化。
本研究通过在MI风格对话数据上微调通用LLM，构建MI-LLM，使其具备MI咨询能力。
实验表明，微调显著提升了LLM的MI相关指标，使其在技术和关系层面接近人类咨询师。

📝 摘要（中文）

背景：动机访谈(MI)是一种有效的咨询方法，可以促进健康行为的改变，但其影响受到训练有素的人工咨询师需求的限制。目的：本研究旨在通过开发和评估用于动机访谈的大型语言模型(MI-LLMs)来探索一种可扩展的替代方案。方法：我们首先整理了五个中文心理咨询语料库，并使用带有MI提示的GPT-4将来自两个最高质量数据集(CPsyCounD和PsyDTCorpus)的多轮对话转录为2040个MI风格的咨询对话，其中2000个用于训练，40个用于测试。三个具有中文能力的开源LLM(Baichuan2-7B-Chat, ChatGLM-4-9B-Chat和Llama-3-8B-Chinese-Chat-v2)在此语料库上进行了微调，并被命名为MI-LLM。我们使用基于轮次的自动指标和专家手动编码(使用动机访谈治疗完整性(MITI)编码手册4.2.1)评估了MI-LLM。结果：在所有三个模型中，与基础模型相比，微调显著提高了BLEU-4和ROUGE分数，手动编码表明MI-LLM实现了接近真实MI对话的技术和关系全局分数以及MI一致性比率，尽管复杂反思和反思-问题比率仍然较低。结论：这些发现提供了初步证据，表明面向MI的微调可以赋予通用LLM核心的MI一致的咨询行为，这表明了一种可扩展的AI辅助健康行为改变支持途径，同时也强调了需要在数据规模、复杂MI技能和真实干预试验方面做进一步的工作。

🔬 方法详解

问题定义：本研究旨在解决健康行为改变领域中，专业动机访谈咨询师资源稀缺且成本高昂的问题。现有方法依赖于人工咨询师，难以大规模推广和应用，限制了动机访谈在改善大众健康方面的潜力。

核心思路：核心思路是利用大型语言模型(LLM)强大的自然语言理解和生成能力，通过在高质量的动机访谈对话数据上进行微调，使LLM能够模拟人类咨询师的对话风格和技巧，从而提供可扩展的AI辅助动机访谈服务。这样设计的目的是降低成本，提高可及性，并最终促进更多人的健康行为改变。

技术框架：整体框架包括以下几个主要阶段：1) 数据收集与整理：收集并整理五个中文心理咨询语料库，筛选出高质量的数据集。2) 数据增强：使用GPT-4生成MI风格的咨询对话，扩充训练数据。3) 模型选择与微调：选择三个具有中文能力的开源LLM(Baichuan2-7B-Chat, ChatGLM-4-9B-Chat和Llama-3-8B-Chinese-Chat-v2)，并在增强后的数据集上进行微调，得到MI-LLM。4) 模型评估：使用自动指标(BLEU-4, ROUGE)和人工评估(MITI编码手册)对MI-LLM进行评估。

关键创新：最重要的技术创新点在于，通过MI-oriented的微调，成功地将通用LLM转化为具备MI咨询能力的AI助手。与直接使用通用LLM进行咨询相比，微调后的MI-LLM在MI相关指标上表现更佳，更接近人类咨询师的水平。

关键设计：在数据增强阶段，使用了带有MI提示的GPT-4来生成MI风格的对话，保证了训练数据的质量和多样性。在模型评估阶段，使用了MITI编码手册进行人工评估，从技术和关系两个层面全面评估MI-LLM的咨询能力。具体参数设置和损失函数等细节在论文中未明确说明，属于未知信息。

📊 实验亮点

实验结果表明，经过MI-oriented微调的LLM在BLEU-4和ROUGE等自动指标上显著优于基线模型。人工评估显示，MI-LLM在技术和关系全局评分以及MI一致性比率上接近真实MI对话水平，证明了微调的有效性。

🎯 应用场景

该研究成果可应用于在线健康咨询、个性化健康管理、慢性病管理等领域。通过AI辅助的动机访谈，可以降低咨询成本，提高服务覆盖面，帮助更多人改变不良生活习惯，改善健康状况。未来，该技术有望成为公共卫生领域的重要工具。

📄 摘要（原文）

Background: Motivational interviewing (MI) is an effective counseling approach for promoting health behavior change, but its impact is constrained by the need for highly trained human counselors. Objective: This study aimed to explore a scalable alternative by developing and evaluating Large Language Models for Motivational Interviewing (MI-LLMs). Methods: We first curated five Chinese psychological counseling corpora and, using GPT-4 with an MI-informed prompt, transcribed multi-turn dialogues from the two highest-quality datasets (CPsyCounD and PsyDTCorpus) into 2,040 MI-style counseling conversations, of which 2,000 were used for training and 40 for testing. Three Chinese-capable open-source LLMs (Baichuan2-7B-Chat, ChatGLM-4-9B-Chat and Llama-3-8B-Chinese-Chat-v2) were fine-tuned on this corpus and were named as MI-LLMs. We evaluated MI-LLMs using round-based automatic metrics and expert manual coding with the Motivational Interviewing Treatment Integrity (MITI) Coding Manual 4.2.1. Results: Across all three models, fine-tuning substantially improved BLEU-4 and ROUGE scores compared with the base models, and manual coding showed that MI-LLMs achieved technical and relational global scores, and MI-adherent ratios that approached those of real MI dialogues, although complex reflections and reflection-to-question ratios remained less frequent. Conclusions: These findings provide initial evidence that MI-oriented fine-tuning can endow general-purpose LLMs with core MI-consistent counseling behaviors, suggesting a scalable pathway toward AI-assisted health behavior change support while underscoring the need for further work on data scale, complex MI skills and real-world intervention trials.

Toward expert-level motivational interviewing for health behavior improvement with LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理