Personalized Prediction of Perceived Message Effectiveness Using Large Language Model Based Digital Twins

作者: Jasmin Han, Janardan Devkota, Joseph Waring, Amanda Luken, Felix Naughton, Roger Vilardaga, Jonathan Bricker, Carl Latkin, Meghan Moran, Yiqun Chen, Johannes Thrul

分类: cs.CL, stat.AP

发布日期: 2026-02-23

备注: 31 pages, 5 figures, submitted to Journal of the American Medical Informatics Association (JAMIA). Drs. Chen and Thrul share last authorship

💡 一句话要点

利用大语言模型数字孪生进行个性化消息有效性预测，提升移动健康干预效果

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数字孪生 个性化推荐 移动健康 感知消息有效性

📋 核心要点

现有移动健康干预缺乏个性化，难以有效提升用户参与度和干预效果。
提出基于大语言模型的数字孪生方法，结合个体特征和历史数据，预测用户对戒烟消息的感知有效性。
实验表明，该方法显著优于传统监督学习和零/少样本LLM，能更准确捕捉个体差异，提升干预效果。

📝 摘要（中文）

本研究评估了大语言模型（LLM）在预测戒烟消息的感知消息有效性（PME）方面的能力，这对于为移动健康（mHealth）平台选择和优化个性化戒烟干预消息至关重要。我们评估了多个模型在内容质量、应对支持和戒烟支持三个领域预测PME的效果。数据集包含来自301名年轻烟民的3010条消息评分（5点Likert量表）。我们比较了（1）在标记数据上训练的监督学习模型，（2）无需任务特定微调的零样本和少样本LLM，以及（3）基于LLM的数字孪生，该数字孪生结合了个体特征和先前的PME历史来生成个性化预测。使用准确率、Cohen's kappa和F1评估了模型在每个参与者的三个预留消息上的性能。基于LLM的数字孪生优于零样本和少样本LLM（平均高出12个百分点）和监督基线（高出13个百分点），在简化的3点量表上，内容、应对和戒烟的准确率分别为0.49、0.45和0.49，方向准确率分别为0.75、0.66和0.70。数字孪生预测在评分类别中显示出更大的分散性，表明对个体差异的敏感性有所提高。将个人资料与LLM集成可以捕捉PME中特定于人的差异，并且优于监督和零样本以及少样本方法。改进的PME预测可以在mHealth中实现更量身定制的干预内容。基于LLM的数字孪生显示出支持移动戒烟和其他健康行为改变干预个性化的潜力。

🔬 方法详解

问题定义：论文旨在解决移动健康（mHealth）领域中，如何更有效地进行个性化干预消息推送的问题。现有方法，如传统的监督学习模型，无法充分捕捉个体差异，而零样本或少样本的大语言模型在没有个性化信息的情况下，预测效果有限。因此，痛点在于如何利用有限的数据，结合个体特征，更准确地预测用户对不同干预消息的感知有效性（PME）。

核心思路：论文的核心思路是构建基于大语言模型（LLM）的数字孪生，该数字孪生能够模拟个体的行为和偏好。通过将个体的特征信息（如年龄、吸烟习惯等）和历史PME数据融入LLM，使其能够生成更个性化的PME预测。这种方法的核心在于利用LLM的强大语言理解和生成能力，以及数字孪生的个性化建模能力，从而实现更精准的干预消息推荐。

技术框架：整体框架包括以下几个主要模块：1) 数据收集与预处理：收集用户的个人特征信息和对不同戒烟消息的PME评分。2) 数字孪生构建：利用LLM作为基础模型，将用户的个人特征和历史PME数据输入LLM，构建用户的数字孪生。3) PME预测：对于新的戒烟消息，数字孪生预测用户对该消息的PME评分。4) 模型评估：使用准确率、Cohen's kappa和F1等指标评估模型的预测性能。

关键创新：最重要的技术创新点在于将大语言模型与数字孪生概念相结合，用于个性化PME预测。与传统的监督学习方法相比，该方法能够更好地捕捉个体差异，并利用LLM的泛化能力，即使在数据有限的情况下也能做出较好的预测。与零样本或少样本LLM相比，该方法通过融入个体特征和历史数据，实现了更个性化的预测。

关键设计：论文中，关键设计包括：1) 如何将用户的个人特征和历史PME数据有效地融入LLM。具体方法未知，但推测可能使用了prompt工程或微调等技术。2) 如何评估数字孪生的预测性能。论文使用了准确率、Cohen's kappa和F1等指标，并与传统的监督学习方法和零/少样本LLM进行了比较。3) 如何选择合适的LLM作为基础模型。论文中使用的LLM的具体型号未知。

📊 实验亮点

实验结果表明，基于LLM的数字孪生方法在PME预测方面显著优于传统的监督学习方法和零/少样本LLM。数字孪生方法在内容、应对和戒烟三个领域的准确率分别达到0.49、0.45和0.49，方向准确率分别达到0.75、0.66和0.70，平均比其他方法高出12-13个百分点。此外，数字孪生预测结果在评分类别中表现出更大的分散性，表明其对个体差异的敏感性更高。

🎯 应用场景

该研究成果可广泛应用于移动健康领域，例如个性化戒烟干预、健康饮食指导、运动计划推荐等。通过更精准地预测用户对不同干预内容的反应，可以显著提升干预效果，提高用户依从性，最终改善用户健康状况。未来，该技术还可扩展到其他领域，如教育、营销等，实现更个性化的服务。

📄 摘要（原文）

Perceived message effectiveness (PME) by potential intervention end-users is important for selecting and optimizing personalized smoking cessation intervention messages for mobile health (mHealth) platform delivery. This study evaluates whether large language models (LLMs) can accurately predict PME for smoking cessation messages. We evaluated multiple models for predicting PME across three domains: content quality, coping support, and quitting support. The dataset comprised 3010 message ratings (5-point Likert scale) from 301 young adult smokers. We compared (1) supervised learning models trained on labeled data, (2) zero and few-shot LLMs prompted without task-specific fine-tuning, and (3) LLM-based digital twins that incorporate individual characteristics and prior PME histories to generate personalized predictions. Model performance was assessed on three held-out messages per participant using accuracy, Cohen's kappa, and F1. LLM-based digital twins outperformed zero and few-shot LLMs (12 percentage points on average) and supervised baselines (13 percentage points), achieving accuracies of 0.49 (content), 0.45 (coping), and 0.49 (quitting), with directional accuracies of 0.75, 0.66, and 0.70 on a simplified 3-point scale. Digital twin predictions showed greater dispersion across rating categories, indicating improved sensitivity to individual differences. Integrating personal profiles with LLMs captures person-specific differences in PME and outperforms supervised and zero and few-shot approaches. Improved PME prediction may enable more tailored intervention content in mHealth. LLM-based digital twins show potential for supporting personalization of mobile smoking cessation and other health behavior change interventions.

Personalized Prediction of Perceived Message Effectiveness Using Large Language Model Based Digital Twins

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理