Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction

作者: Guangzeng Han, James G. Murphy, Benjamin O. Ladd, Xiaolei Huang, Brian Borsari

分类: cs.CL

发布日期: 2026-05-13

备注: DOI: 10.1093/milmed/usag224

💡 一句话要点

提出基于多模态自洽性推理的酒精使用干预自动编码方法，提升编码鲁棒性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 动机访谈 自动编码 多模态学习 自洽性推理 音频-语言模型

📋 核心要点

动机访谈(MI)编码对于理解客户行为和预测结果至关重要，但需要大量时间和专业人员的劳动。
论文提出一种基于音频-语言模型(ALM)的多模态自洽性推理方法，通过整合多个推理轨迹来提高编码的鲁棒性。
实验结果表明，该方法在准确率、精确率、召回率和宏F1分数上均优于基线方法，证明了其有效性。

📝 摘要（中文）

本研究旨在开发一种基于音频-语言模型(ALM)的自动动机访谈(MI)编码方法，该方法分析原始音频输入，并整合来自多个推理轨迹的预测，利用自洽性来提高编码的鲁棒性。我们使用了来自匿名MI录音带的五个会话进行实验。我们部署了带有四个互补分析提示的ALM，以支持话语级别的推理：用于言语线索的分析提示、用于声学线索的韵律感知提示、用于定量假设检验的证据评分提示以及用于对比推理的比较提示。为每个提示抽取三个随机样本，从而为每个话语生成12个独立的推理轨迹。最终预测由所有轨迹中的多数投票决定。结果表明，所提出的多模态自洽性方法实现了52.56%的准确率、54.03%的精确率、47.45%的召回率和46.40%的宏F1分数，超过了基线方法。移除单个模块的系统性消融实验始终降低了主要指标的性能。结论是，多模态自洽性优于用于MI编码的单次基线提示方法。这些发现表明，结合客户所说的内容和他们说话的方式可以支持更可靠的自动MI编码。

🔬 方法详解

问题定义：动机访谈（MI）编码旨在分析访谈内容，识别客户的行为模式和预测治疗效果。然而，传统的MI编码依赖于训练有素的专业人员手动完成，耗时且成本高昂。现有方法难以有效利用音频中的多模态信息，例如语音语调等，导致编码结果不够准确和鲁棒。

核心思路：论文的核心思路是利用音频-语言模型（ALM）自动分析MI会话，并引入多模态自洽性推理来提高编码的准确性和鲁棒性。通过设计不同的提示策略，ALM可以从音频中提取言语和非言语线索，并进行多角度的推理。然后，通过自洽性机制整合多个推理结果，减少噪声干扰，提高编码的可靠性。

技术框架：整体框架包括以下几个主要模块：1) 音频输入：接收原始MI会话音频。2) ALM推理：使用带有不同提示策略的ALM进行推理，包括分析提示、韵律感知提示、证据评分提示和比较提示。3) 多重采样：为每个提示抽取多个随机样本，生成多个独立的推理轨迹。4) 自洽性整合：通过多数投票的方式整合所有推理轨迹的预测结果，得到最终的编码结果。

关键创新：最重要的技术创新点在于多模态自洽性推理机制。与传统的单次推理方法不同，该方法通过设计多个提示策略，从音频中提取不同的信息，并进行多角度的推理。然后，通过自洽性机制整合多个推理结果，减少噪声干扰，提高编码的可靠性。这种方法能够更全面地利用音频中的信息，提高编码的准确性和鲁棒性。

关键设计：论文设计了四种互补的分析提示：1) 分析提示：用于提取言语线索。2) 韵律感知提示：用于提取声学线索，例如语调、语速等。3) 证据评分提示：用于定量假设检验。4) 比较提示：用于对比推理。此外，论文还采用了多重采样技术，为每个提示抽取三个随机样本，以增加推理的多样性。最终的预测结果通过多数投票的方式确定。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的多模态自洽性方法在MI编码任务上取得了显著的性能提升。具体而言，该方法实现了52.56%的准确率、54.03%的精确率、47.45%的召回率和46.40%的宏F1分数，超过了基线方法。消融实验表明，移除任何一个模块都会导致性能下降，验证了各个模块的有效性。

🎯 应用场景

该研究成果可应用于心理健康咨询、酒精依赖治疗等领域，实现MI会话的自动编码和分析，降低人工成本，提高效率。此外，该技术还可以用于评估咨询师的技能水平，为培训提供反馈，并为个性化治疗方案的制定提供依据。未来，该技术有望推广到其他类型的访谈和对话分析中。

📄 摘要（原文）

BACKGROUND: Coding Motivational Interviewing (MI) sessions is essential for understanding client behaviors and predicting outcomes, but it requires substantial time and labor from trained MI professionals. Recent advances in audio-language models (ALMs) offer new opportunities to automate MI coding by capturing multimodal behavioral signals. OBJECTIVE: This study aims to develop an automatic MI coding approach based on ALMs that analyzes raw audio input and integrates predictions from multiple reasoning trajectories using self-consistency to improve coding robustness. METHODS: We experimented with five recorded sessions from de-identified MI audio tapes. We deployed ALMs with four complementary analytic prompts to support utterance-level reasoning: analytic prompting for verbal cues, prosody-aware prompting for acoustic cues, evidence-scoring prompting for quantitative hypothesis testing, and comparative prompting for contrastive reasoning. Three stochastic samples were drawn for each prompt, generating 12 independent reasoning trajectories per utterance. Final predictions were determined by majority voting across all trajectories. RESULTS: Performance was evaluated using accuracy, precision, recall, and macro-F1 scores. The proposed multimodal self-consistency approach achieved 52.56% accuracy, 54.03% precision, 47.45% recall, and a macro-F1 score of 46.40%, exceeding baseline methods. Systematic ablation experiments that removed individual modules consistently degraded performance on the primary metrics. CONCLUSIONS: Multimodal self-consistency outperforms single-pass baseline prompting approaches for MI coding. These findings suggest that incorporating both what clients say and how they say it can support more reliable automatic MI coding.

Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理