Enhancing Adaptive Behavioral Interventions with LLM Inference from Participant-Described States
作者: Karine Karine, Benjamin M. Marlin
分类: cs.LG, cs.AI, cs.HC
发布日期: 2025-07-05
备注: Accepted at Machine Learning for Healthcare (MLHC) 2025
💡 一句话要点
利用LLM推断参与者状态,增强自适应行为干预效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 自适应干预 健康行为改变 自然语言理解
📋 核心要点
- 现有自适应干预的强化学习方法受限于数据稀缺,状态空间小,难以充分捕捉个体差异。
- 提出利用LLM理解参与者自然语言状态描述,扩展状态空间,提升策略学习效果。
- 构建体育活动干预模拟环境,实验表明该方法能有效提升在线策略学习性能。
📝 摘要(中文)
本研究探索如何利用强化学习(RL)方法,通过个性化和及时的自适应干预来支持健康行为的改变,例如戒烟和促进体育锻炼。由于自适应干预试验在设计上的实际限制,数据稀缺性问题突出,导致RL方法通常只能使用少量上下文变量。本文提出一种方法,在不影响数据效率的前提下,显著扩展自适应干预的状态空间。该方法允许干预参与者用自然语言描述其当前状态,然后利用预训练的大型语言模型(LLM)进行推断,使基础RL方法的策略更好地与这些状态描述对齐。为了评估该方法,我们开发了一个新颖的体育活动干预模拟环境,该环境使用辅助LLM生成基于文本的状态描述,这些描述以潜在状态变量为条件。结果表明,该方法有潜力显著提高在线策略学习方法的性能。
🔬 方法详解
问题定义:现有自适应行为干预的强化学习方法面临数据稀缺的挑战。由于实际试验的限制,只能收集到少量上下文变量,导致状态空间受限,无法充分捕捉个体行为的复杂性和多样性。这限制了强化学习算法的学习效果,难以制定个性化的干预策略。
核心思路:核心思路是利用大型语言模型(LLM)理解参与者提供的自然语言状态描述,从而扩展强化学习算法的状态空间。通过让参与者用自然语言描述自己的状态,可以获取更丰富、更细粒度的信息,弥补传统方法中上下文变量不足的缺陷。LLM能够将这些自然语言描述转化为有意义的状态表示,供强化学习算法使用。
技术框架:整体框架包含以下几个主要模块:1) 状态描述模块:参与者提供自然语言状态描述。2) LLM推断模块:利用预训练的LLM将自然语言描述转化为状态向量表示。3) 强化学习模块:使用基础强化学习算法(如Q-learning、SARSA等)学习最优干预策略,状态空间由LLM推断的状态向量表示构成。4) 干预执行模块:根据强化学习算法学习到的策略,对参与者进行个性化干预。
关键创新:最重要的技术创新点在于将LLM与强化学习相结合,利用LLM的自然语言理解能力扩展强化学习的状态空间。与传统方法相比,该方法无需手动设计大量的上下文变量,而是通过LLM自动从参与者的自然语言描述中提取有用的信息。这大大降低了数据收集和特征工程的难度,提高了自适应干预的灵活性和可扩展性。
关键设计:论文使用预训练的LLM(具体模型未知)进行状态表示学习。LLM的输出被用作强化学习算法的状态输入。强化学习算法采用标准的Q-learning或SARSA等算法。论文还设计了一个新颖的体育活动干预模拟环境,用于生成带文本描述的状态,该环境使用另一个LLM(具体模型未知)根据潜在状态变量生成文本描述。具体的损失函数和网络结构等技术细节在论文中可能没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文构建了一个新颖的体育活动干预模拟环境,并在此环境中验证了所提出方法的有效性。实验结果表明,利用LLM推断参与者状态描述的方法能够显著提高在线策略学习的性能,具体提升幅度未知,但表明了该方法在自适应行为干预领域的潜力。
🎯 应用场景
该研究成果可应用于各种健康行为干预领域,例如戒烟、饮食控制、心理健康支持等。通过利用LLM理解参与者的个性化状态描述,可以制定更精准、更有效的干预策略,提高干预效果。该方法还可扩展到其他需要个性化干预的领域,例如教育、金融等,具有广阔的应用前景。
📄 摘要(原文)
The use of reinforcement learning (RL) methods to support health behavior change via personalized and just-in-time adaptive interventions is of significant interest to health and behavioral science researchers focused on problems such as smoking cessation support and physical activity promotion. However, RL methods are often applied to these domains using a small collection of context variables to mitigate the significant data scarcity issues that arise from practical limitations on the design of adaptive intervention trials. In this paper, we explore an approach to significantly expanding the state space of an adaptive intervention without impacting data efficiency. The proposed approach enables intervention participants to provide natural language descriptions of aspects of their current state. It then leverages inference with pre-trained large language models (LLMs) to better align the policy of a base RL method with these state descriptions. To evaluate our method, we develop a novel physical activity intervention simulation environment that generates text-based state descriptions conditioned on latent state variables using an auxiliary LLM. We show that this approach has the potential to significantly improve the performance of online policy learning methods.