Toward expert-level motivational interviewing for health behavior improvement with LLMs

📄 arXiv: 2512.15446v1 📥 PDF

作者: Run-ze Hu, Yang Yang, Yi-hang Yang, Jing-qi Kong, Jia-hui Luo, Wen-yu Yang, Jing Chen, Jing-yao Liu, Hui-qun Zeng, Lei Zhang, Zheng Liu

分类: cs.CL

发布日期: 2025-12-17

备注: 26 pages, 3 figures


💡 一句话要点

利用大型语言模型实现专家级动机访谈,促进健康行为改善

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动机访谈 大型语言模型 健康行为改变 心理咨询 AI辅助咨询

📋 核心要点

  1. 动机访谈(MI)在健康行为改变中有效,但依赖于专业咨询师,成本高昂且难以规模化。
  2. 本研究通过在MI风格对话数据上微调通用LLM,构建MI-LLM,使其具备MI咨询能力。
  3. 实验表明,微调显著提升了LLM的MI相关指标,使其在技术和关系层面接近人类咨询师。

📝 摘要(中文)

背景:动机访谈(MI)是一种有效的咨询方法,可以促进健康行为的改变,但其影响受到训练有素的人工咨询师需求的限制。目的:本研究旨在通过开发和评估用于动机访谈的大型语言模型(MI-LLMs)来探索一种可扩展的替代方案。方法:我们首先整理了五个中文心理咨询语料库,并使用带有MI提示的GPT-4将来自两个最高质量数据集(CPsyCounD和PsyDTCorpus)的多轮对话转录为2040个MI风格的咨询对话,其中2000个用于训练,40个用于测试。三个具有中文能力的开源LLM(Baichuan2-7B-Chat, ChatGLM-4-9B-Chat和Llama-3-8B-Chinese-Chat-v2)在此语料库上进行了微调,并被命名为MI-LLM。我们使用基于轮次的自动指标和专家手动编码(使用动机访谈治疗完整性(MITI)编码手册4.2.1)评估了MI-LLM。结果:在所有三个模型中,与基础模型相比,微调显著提高了BLEU-4和ROUGE分数,手动编码表明MI-LLM实现了接近真实MI对话的技术和关系全局分数以及MI一致性比率,尽管复杂反思和反思-问题比率仍然较低。结论:这些发现提供了初步证据,表明面向MI的微调可以赋予通用LLM核心的MI一致的咨询行为,这表明了一种可扩展的AI辅助健康行为改变支持途径,同时也强调了需要在数据规模、复杂MI技能和真实干预试验方面做进一步的工作。

🔬 方法详解

问题定义:本研究旨在解决健康行为改变领域中,专业动机访谈咨询师资源稀缺且成本高昂的问题。现有方法依赖于人工咨询师,难以大规模推广和应用,限制了动机访谈在改善大众健康方面的潜力。

核心思路:核心思路是利用大型语言模型(LLM)强大的自然语言理解和生成能力,通过在高质量的动机访谈对话数据上进行微调,使LLM能够模拟人类咨询师的对话风格和技巧,从而提供可扩展的AI辅助动机访谈服务。这样设计的目的是降低成本,提高可及性,并最终促进更多人的健康行为改变。

技术框架:整体框架包括以下几个主要阶段:1) 数据收集与整理:收集并整理五个中文心理咨询语料库,筛选出高质量的数据集。2) 数据增强:使用GPT-4生成MI风格的咨询对话,扩充训练数据。3) 模型选择与微调:选择三个具有中文能力的开源LLM(Baichuan2-7B-Chat, ChatGLM-4-9B-Chat和Llama-3-8B-Chinese-Chat-v2),并在增强后的数据集上进行微调,得到MI-LLM。4) 模型评估:使用自动指标(BLEU-4, ROUGE)和人工评估(MITI编码手册)对MI-LLM进行评估。

关键创新:最重要的技术创新点在于,通过MI-oriented的微调,成功地将通用LLM转化为具备MI咨询能力的AI助手。与直接使用通用LLM进行咨询相比,微调后的MI-LLM在MI相关指标上表现更佳,更接近人类咨询师的水平。

关键设计:在数据增强阶段,使用了带有MI提示的GPT-4来生成MI风格的对话,保证了训练数据的质量和多样性。在模型评估阶段,使用了MITI编码手册进行人工评估,从技术和关系两个层面全面评估MI-LLM的咨询能力。具体参数设置和损失函数等细节在论文中未明确说明,属于未知信息。

📊 实验亮点

实验结果表明,经过MI-oriented微调的LLM在BLEU-4和ROUGE等自动指标上显著优于基线模型。人工评估显示,MI-LLM在技术和关系全局评分以及MI一致性比率上接近真实MI对话水平,证明了微调的有效性。

🎯 应用场景

该研究成果可应用于在线健康咨询、个性化健康管理、慢性病管理等领域。通过AI辅助的动机访谈,可以降低咨询成本,提高服务覆盖面,帮助更多人改变不良生活习惯,改善健康状况。未来,该技术有望成为公共卫生领域的重要工具。

📄 摘要(原文)

Background: Motivational interviewing (MI) is an effective counseling approach for promoting health behavior change, but its impact is constrained by the need for highly trained human counselors. Objective: This study aimed to explore a scalable alternative by developing and evaluating Large Language Models for Motivational Interviewing (MI-LLMs). Methods: We first curated five Chinese psychological counseling corpora and, using GPT-4 with an MI-informed prompt, transcribed multi-turn dialogues from the two highest-quality datasets (CPsyCounD and PsyDTCorpus) into 2,040 MI-style counseling conversations, of which 2,000 were used for training and 40 for testing. Three Chinese-capable open-source LLMs (Baichuan2-7B-Chat, ChatGLM-4-9B-Chat and Llama-3-8B-Chinese-Chat-v2) were fine-tuned on this corpus and were named as MI-LLMs. We evaluated MI-LLMs using round-based automatic metrics and expert manual coding with the Motivational Interviewing Treatment Integrity (MITI) Coding Manual 4.2.1. Results: Across all three models, fine-tuning substantially improved BLEU-4 and ROUGE scores compared with the base models, and manual coding showed that MI-LLMs achieved technical and relational global scores, and MI-adherent ratios that approached those of real MI dialogues, although complex reflections and reflection-to-question ratios remained less frequent. Conclusions: These findings provide initial evidence that MI-oriented fine-tuning can endow general-purpose LLMs with core MI-consistent counseling behaviors, suggesting a scalable pathway toward AI-assisted health behavior change support while underscoring the need for further work on data scale, complex MI skills and real-world intervention trials.