Comparing Large Language Model AI and Human-Generated Coaching Messages for Behavioral Weight Loss
作者: Zhuoran Huang, Michael P. Berry, Christina Chwyl, Gary Hsieh, Jing Wei, Evan M. Forman
分类: cs.CL
发布日期: 2023-12-07 (更新: 2025-02-24)
备注: 12 pages, 5 figures
期刊: Journal of Technology in Behavioral Science (2025)
DOI: 10.1007/s41347-025-00491-5
💡 一句话要点
利用大型语言模型提升行为减重干预效果,媲美人力指导。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 行为体重控制 人工智能 ChatGPT 个性化干预
📋 核心要点
- 传统自动化体重控制指导信息缺乏个性化,效果受限,难以媲美人力指导。
- 利用大型语言模型(LLM)生成更个性化和新颖的指导信息,解决重复性问题。
- 实验表明,经过改进的LLM生成信息在帮助性上可与人工信息媲美,且难以区分。
📝 摘要(中文)
自动化体重控制指导信息可以节省时间和成本,但其重复性和通用性可能限制其有效性。基于大型语言模型(LLM)的人工智能(AI)聊天机器人,如ChatGPT,可以通过其数据处理能力提供更个性化和新颖的信息来解决重复性问题。尽管LLM AI在鼓励更健康的生活方式方面显示出前景,但尚未有研究检验基于LLM的体重控制指导的可行性和可接受性。本研究中,87名参与减重试验的成年人使用5点Likert量表对十条指导信息的帮助性(五条人工撰写,五条ChatGPT生成)进行评分,并提供额外的开放式反馈以证明其评分的合理性。参与者还识别了他们认为是AI生成的信息。评估分两个阶段进行:第一阶段的信息被认为是非个人化和负面的,促使对第二阶段的信息进行修改。在第一阶段,AI生成的信息的帮助性评分低于人工撰写的信息,66%的评分达到3或更高。然而,在第二阶段,AI信息在帮助性方面与人工撰写的信息相匹配,82%的评分达到3或更高。此外,50%的信息被错误地认为是人工撰写,表明AI在模仿人工生成内容方面的成熟度。对开放式反馈的主题分析显示,参与者欣赏AI的同理心和个性化建议,但发现它们更公式化、不太真实且过于关注数据。这项研究揭示了LLM AI(如ChatGPT)在制作可能有效的体重控制指导信息方面的初步可行性和可接受性。我们的研究结果也强调了未来改进的领域。
🔬 方法详解
问题定义:论文旨在解决行为体重控制(BWL)干预中,自动化指导信息缺乏个性化和重复性,导致效果不如人工指导的问题。现有方法难以生成既有效又具有个性化的指导信息,限制了自动化干预的潜力。
核心思路:论文的核心思路是利用大型语言模型(LLM),如ChatGPT,生成更具个性化和新颖性的BWL指导信息。通过LLM强大的数据处理和生成能力,模拟人工指导的风格和内容,提高自动化干预的效果和用户接受度。
技术框架:研究采用了一个两阶段的评估框架。第一阶段,参与者对人工撰写和ChatGPT生成的指导信息进行评分和反馈。根据第一阶段的反馈,研究人员对ChatGPT的提示词进行修改,以生成更符合用户需求的指导信息。第二阶段,参与者再次对修改后的ChatGPT生成的信息和人工信息进行评分和反馈。研究还分析了参与者对信息来源的判断准确率。
关键创新:本研究的关键创新在于探索了大型语言模型在行为体重控制干预中的应用潜力。与以往的自动化指导信息生成方法相比,LLM能够生成更自然、更个性化、更具有同理心的信息,从而提高干预的效果和用户体验。
关键设计:研究的关键设计包括:1) 使用5点Likert量表评估指导信息的帮助性;2) 采用开放式反馈收集参与者对指导信息的详细意见;3) 通过两阶段评估迭代优化LLM生成的信息;4) 分析参与者对信息来源的判断准确率,评估LLM生成信息的逼真程度。
📊 实验亮点
研究发现,在第一阶段,AI生成的信息的帮助性评分低于人工撰写的信息(66% vs. higher)。但在第二阶段,经过改进的AI信息在帮助性方面与人工撰写的信息相匹配(82% vs. higher)。此外,50%的信息被错误地认为是人工撰写,表明AI在模仿人工生成内容方面的能力显著提升。
🎯 应用场景
该研究成果可应用于开发更有效的自动化行为体重控制干预系统。通过利用大型语言模型生成个性化的指导信息,可以提高干预的效果和用户依从性,降低干预成本。此外,该方法还可以推广到其他健康行为干预领域,如戒烟、运动等。
📄 摘要(原文)
Automated coaching messages for weight control can save time and costs, but their repetitive, generic nature may limit their effectiveness compared to human coaching. Large language model (LLM) based artificial intelligence (AI) chatbots, like ChatGPT, could offer more personalized and novel messages to address repetition with their data-processing abilities. While LLM AI demonstrates promise to encourage healthier lifestyles, studies have yet to examine the feasibility and acceptability of LLM-based BWL coaching. 87 adults in a weight-loss trial rated ten coaching messages' helpfulness (five human-written, five ChatGPT-generated) using a 5-point Likert scale, providing additional open-ended feedback to justify their ratings. Participants also identified which messages they believed were AI-generated. The evaluation occurred in two phases: messages in Phase 1 were perceived as impersonal and negative, prompting revisions for Phase 2 messages. In Phase 1, AI-generated messages were rated less helpful than human-written ones, with 66 percent receiving a helpfulness rating of 3 or higher. However, in Phase 2, the AI messages matched the human-written ones regarding helpfulness, with 82% scoring three or above. Additionally, 50% were misidentified as human-written, suggesting AI's sophistication in mimicking human-generated content. A thematic analysis of open-ended feedback revealed that participants appreciated AI's empathy and personalized suggestions but found them more formulaic, less authentic, and too data-focused. This study reveals the preliminary feasibility and acceptability of LLM AIs, like ChatGPT, in crafting potentially effective weight control coaching messages. Our findings also underscore areas for future enhancement.