CALM-IT: Generating Realistic Long-Form Motivational Interviewing Dialogues with Dual-Actor Conversational Dynamics Tracking

📄 arXiv: 2601.10085v1 📥 PDF

作者: Viet Cuong Nguyen, Nhi Yen Nguyen, Kristin A. Candan, Mary Conlon, Vanessa Rumie, Kristen Risola, Srijan Kumar, Munmun De Choudhury

分类: cs.CL

发布日期: 2026-01-15

备注: 46 pages


💡 一句话要点

CALM-IT:通过双角色会话动态跟踪生成逼真的长程动机访谈对话

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动机访谈 对话生成 心理健康 双角色建模 长程对话

📋 核心要点

  1. 现有大型语言模型在心理健康对话中缺乏长期连贯性,难以维持治疗目标。
  2. CALM-IT通过建模治疗师和客户的双向状态空间过程,显式跟踪会话动态。
  3. 实验表明,CALM-IT在有效性和目标对齐方面优于基线,并提高了客户接受率。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于心理健康相关场景,但它们难以在扩展的交互中维持逼真的、目标导向的对话。虽然LLMs可以生成流畅的回复,但它们针对下一个turn进行局部优化,而不是维护治疗进展的连贯模型,导致脆弱性和长程漂移。我们引入CALM-IT,一个用于生成和评估长程动机访谈(MI)对话的框架,该框架显式地建模了双角色会话动态。CALM-IT将治疗师-客户交互表示为一个双向状态空间过程,其中两个agent持续更新推断的对齐、心理状态和短期目标,以指导策略选择和话语生成。在大规模评估中,CALM-IT在有效性和目标对齐方面始终优于强大的基线,并且随着对话长度的增加,保持了显著的稳定性。尽管CALM-IT发起的治疗师重定向较少,但它实现了最高的客户接受率(64.3%),表明更精确和治疗对齐的干预时机。总体而言,CALM-IT为建模不断发展的会话状态对于生成高质量长程合成对话至关重要提供了证据。

🔬 方法详解

问题定义:现有的大型语言模型在生成心理健康领域的长程对话时,难以保持对话的连贯性和治疗目标的一致性。它们通常只关注生成流畅的下一个回复,而忽略了对话的整体进展和治疗关系的建立,导致对话内容偏离主题或无效。

核心思路:CALM-IT的核心思路是将治疗师和客户之间的对话建模为一个双向状态空间过程。在这个过程中,双方不断更新彼此的心理状态、目标和对齐程度,并根据这些信息来选择合适的策略和生成话语。通过显式地跟踪和建模会话动态,CALM-IT能够更好地维持对话的连贯性和治疗目标。

技术框架:CALM-IT框架包含以下主要模块:1) 状态编码器:用于编码对话历史,提取治疗师和客户的心理状态、目标和对齐程度。2) 策略选择器:根据当前的状态信息,选择合适的治疗策略。3) 话语生成器:根据选择的策略和状态信息,生成治疗师或客户的回复。4) 状态更新器:根据生成的回复,更新治疗师和客户的心理状态、目标和对齐程度。整个框架通过迭代执行这些模块,生成长程对话。

关键创新:CALM-IT最重要的技术创新点在于显式地建模了双角色会话动态。与传统的对话生成模型不同,CALM-IT不仅关注生成流畅的回复,还关注维护对话的连贯性和治疗目标。通过双向状态空间过程,CALM-IT能够更好地跟踪和建模治疗师和客户之间的互动,从而生成更有效和逼真的对话。

关键设计:CALM-IT的关键设计包括:1) 使用Transformer网络作为状态编码器和话语生成器。2) 使用强化学习来训练策略选择器,使其能够选择最有效的治疗策略。3) 使用对比学习来训练状态更新器,使其能够准确地更新治疗师和客户的心理状态、目标和对齐程度。4) 采用多任务学习,同时优化对话的流畅性、连贯性和治疗效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CALM-IT在长程动机访谈对话生成任务中,在有效性和目标对齐方面显著优于基线模型。实验结果表明,CALM-IT实现了64.3%的客户接受率,表明其干预时机更精确和治疗对齐。此外,CALM-IT在对话长度增加时保持了更高的稳定性,证明了其在长程对话生成方面的优势。

🎯 应用场景

CALM-IT可应用于心理健康咨询、治疗机器人、心理健康教育等领域。它可以帮助治疗师进行培训,提供个性化的治疗方案,并为患者提供随时随地的心理支持。该研究的未来影响在于推动AI在心理健康领域的应用,提高心理健康服务的可及性和质量。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used in mental health-related settings, yet they struggle to sustain realistic, goal-directed dialogue over extended interactions. While LLMs generate fluent responses, they optimize locally for the next turn rather than maintaining a coherent model of therapeutic progress, leading to brittleness and long-horizon drift. We introduce CALM-IT, a framework for generating and evaluating long-form Motivational Interviewing (MI) dialogues that explicitly models dual-actor conversational dynamics. CALM-IT represents therapist-client interaction as a bidirectional state-space process, in which both agents continuously update inferred alignment, mental states, and short-term goals to guide strategy selection and utterance generation. Across large-scale evaluations, CALM-IT consistently outperforms strong baselines in Effectiveness and Goal Alignment and remains substantially more stable as conversation length increases. Although CALM-IT initiates fewer therapist redirections, it achieves the highest client acceptance rate (64.3%), indicating more precise and therapeutically aligned intervention timing. Overall, CALM-IT provides evidence for modeling evolving conversational state being essential for generating high-quality long-form synthetic conversations.