Ambivalence/Hesitancy Recognition in Videos for Personalized Digital Health Interventions

作者: Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan, Masoumeh Sharafi, Muhammad Haseeb Aslam, Lorenzo Sia, Nicolas Richet, Marco Pedersoli, Alessandro Lameiras Koerich, Simon L Bacon, Eric Granger

分类: cs.CV, cs.HC, cs.LG

发布日期: 2026-04-13

备注: 13 pages, 3 figures. arXiv admin note: substantial text overlap with arXiv:2505.19328

💡 一句话要点

探索深度学习在视频中识别矛盾/犹豫情绪，用于个性化数字健康干预

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数字健康干预 矛盾犹豫识别 多模态学习 深度学习 视频分析

📋 核心要点

现有数字健康干预在自动识别患者的矛盾/犹豫(A/H)情绪方面存在不足，这阻碍了个性化干预的有效实施。
该研究探索了使用深度学习模型，特别是针对视频中的多模态信息，来自动识别A/H情绪，以期提升数字健康干预的个性化程度。
实验结果表明，现有模型在BAH视频数据集上的表现有限，暗示需要更先进的多模态模型和融合策略来提升A/H识别的准确性。

📝 摘要（中文）

本研究探索了利用行为科学的健康干预方法，该方法通过提供框架来帮助患者获得并保持健康的习惯，从而改善医疗效果。由于面对面干预成本高昂且难以扩展，尤其是在资源有限的地区，数字健康干预提供了一种经济高效的方法，有可能支持独立生活和自我管理。通过机器学习自动执行此类干预已引起广泛关注。矛盾和犹豫(A/H)在个体延迟、避免或放弃健康干预方面起着主要作用。A/H是微妙且冲突的情绪，使人处于对行为的积极和消极评价之间，或处于接受和拒绝参与行为之间。它们表现为跨模态或模态内的情感不一致，例如语言、面部、声音表达和肢体语言。虽然专家可以接受培训来识别A/H，但将它们集成到数字健康干预中成本高昂且效果较差。因此，自动A/H识别对于个性化和具有成本效益的数字健康干预至关重要。本文探索了深度学习模型在视频中进行A/H识别的应用，这本质上是一项多模态任务。特别是，本文涵盖了三种学习设置：监督学习、用于个性化的无监督领域自适应以及通过大型语言模型(LLM)的零样本推理。我们的实验是在最近发布的用于A/H识别的BAH视频数据集上进行的。结果表明性能有限，表明需要更适合的多模态模型才能准确识别A/H。需要更好的方法来建模时空和多模态融合，以利用模态内部/之间的冲突。

🔬 方法详解

问题定义：论文旨在解决数字健康干预中自动识别患者在视频中表现出的矛盾和犹豫(A/H)情绪的问题。现有方法，特别是依赖人工识别或简单规则的方法，成本高昂且难以扩展，无法满足大规模个性化干预的需求。现有的机器学习方法在处理多模态信息融合和捕捉细微的情绪变化方面存在局限性。

核心思路：论文的核心思路是利用深度学习模型，特别是针对多模态视频数据设计的模型，来自动学习和识别A/H情绪。通过分析视频中的语言、面部表情、声音和肢体语言等多种模态的信息，模型能够捕捉到人类专家才能识别的细微情感变化。这种方法旨在提高A/H识别的准确性和效率，从而实现更有效的个性化数字健康干预。

技术框架：论文探索了三种不同的学习设置：监督学习、无监督领域自适应和零样本推理。监督学习使用带有标签的BAH视频数据集训练模型。无监督领域自适应旨在解决不同患者或场景之间的差异，提高模型的泛化能力。零样本推理则利用大型语言模型(LLM)的知识，在没有特定训练数据的情况下进行A/H识别。整体流程包括数据预处理、特征提取、模型训练和评估等步骤。

关键创新：论文的关键创新在于探索了深度学习模型在视频A/H识别中的应用，并尝试了不同的学习范式，包括监督学习、无监督领域自适应和零样本推理。此外，论文强调了多模态信息融合的重要性，并指出需要更先进的模型来有效利用不同模态之间的冲突信息。

关键设计：论文使用了BAH视频数据集进行实验。具体模型结构和参数设置在论文中没有详细描述，但强调了时空建模和多模态融合的重要性。未来的研究方向包括设计更有效的损失函数来鼓励模型学习不同模态之间的关联和冲突，以及探索更先进的网络结构来捕捉细微的情绪变化。

🖼️ 关键图片

📊 实验亮点

该研究在BAH视频数据集上进行了实验，结果表明现有深度学习模型在A/H识别方面表现有限，这突显了该任务的复杂性和挑战性。实验结果表明，需要更先进的多模态模型和融合策略来提升A/H识别的准确性。尽管性能有限，但该研究为未来的研究方向提供了有价值的见解。

🎯 应用场景

该研究成果可应用于个性化数字健康干预系统，通过自动识别患者的矛盾和犹豫情绪，为患者提供更具针对性的健康建议和支持。这有助于提高患者对干预的依从性，改善治疗效果，并降低医疗成本。未来，该技术还可扩展到其他领域，如心理咨询、在线教育等。

📄 摘要（原文）

Using behavioural science, health interventions focus on behaviour change by providing a framework to help patients acquire and maintain healthy habits that improve medical outcomes. In-person interventions are costly and difficult to scale, especially in resource-limited regions. Digital health interventions offer a cost-effective approach, potentially supporting independent living and self-management. Automating such interventions, especially through machine learning, has gained considerable attention recently. Ambivalence and hesitancy (A/H) play a primary role for individuals to delay, avoid, or abandon health interventions. A/H are subtle and conflicting emotions that place a person in a state between positive and negative evaluations of a behaviour, or between acceptance and refusal to engage in it. They manifest as affective inconsistency across modalities or within a modality, such as language, facial, vocal expressions, and body language. While experts can be trained to recognize A/H, integrating them into digital health interventions is costly and less effective. Automatic A/H recognition is therefore critical for the personalization and cost-effectiveness of digital health interventions. Here, we explore the application of deep learning models for A/H recognition in videos, a multi-modal task by nature. In particular, this paper covers three learning setups: supervised learning, unsupervised domain adaptation for personalization, and zero-shot inference via large language models (LLMs). Our experiments are conducted on the unique and recently published BAH video dataset for A/H recognition. Our results show limited performance, suggesting that more adapted multi-modal models are required for accurate A/H recognition. Better methods for modeling spatio-temporal and multimodal fusion are necessary to leverage conflicts within/across modalities.

Ambivalence/Hesitancy Recognition in Videos for Personalized Digital Health Interventions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理