LLUMI: Improving LLM Writing Assistance for Mental Health Support with Online Community Feedback
作者: Jiwon Kim, Maya Ajit, Sherry Gong, Soorya Ram Shimgekar, Dong Whi Yoo, Eshwar Chandrasekharan, Koustuv Saha
分类: cs.HC, cs.AI, cs.CL, cs.CY, cs.SI
发布日期: 2026-05-28
💡 一句话要点
LLUMI:利用在线社区反馈提升LLM在心理健康支持方面的写作辅助能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心理健康支持 大型语言模型 在线社区反馈 监督式微调 直接偏好优化 开源模型 隐私保护
📋 核心要点
- 现有LLM在心理健康支持方面存在不足,需要大量计算资源、专家知识和标注数据,且云端部署存在隐私风险。
- LLUMI利用Reddit社区的反馈(赞/踩)作为偏好信号,训练生成模型和改进模型,无需大量人工标注。
- 实验表明,LLUMI使用较小的开源模型,在可读性、同理心、安全性等方面可与大型专有模型媲美。
📝 摘要(中文)
大型语言模型(LLM)在生成心理健康问题的支持性回复方面展现出潜力,但提高其有效性、同理心和安全性通常需要大量的计算资源、专家输入和标注数据。同时,考虑到敏感性,为心理健康相关的互动部署专有的、基于云的模型会引发重要的隐私和数据治理问题。为了应对这一挑战,我们引入了可以在受保护环境中内部托管的LLUMI设置。LLUMI由两个互补的组件组成:一个生成模型(GM),用于起草心理健康问题的支持性回复;以及一个改进模型(IM),用于修改初始的人工编写的回复。我们利用来自Reddit心理健康社区的反馈信号,使用社区认可模式(如赞成票和反对票)来构建用于监督式微调(SFT)和直接偏好优化(DPO)的选择-拒绝回复对。我们还通过人类评估在五个维度(可读性、同理心、连接性、可操作性和安全性)上对LLUMI进行对齐。我们的结果表明,尽管依赖于较小的开源模型而不是专有的基于云的GPT模型,但LLUMI在语言分析和人类评估方面取得了相当的性能。这些发现表明,开源模型在经过社区衍生的偏好信号训练后,可以支持高质量的心理健康支持辅助,同时为敏感的支持环境提供更具隐私保护的替代方案。
🔬 方法详解
问题定义:论文旨在解决LLM在心理健康支持领域应用时,对计算资源需求高、依赖专家知识和标注数据、以及存在隐私泄露风险的问题。现有方法通常依赖于大型的、专有的云端LLM,这使得部署成本高昂,且用户数据安全难以保障。
核心思路:论文的核心思路是利用在线社区(Reddit)的反馈信号(赞/踩)作为弱监督信号,训练较小的开源LLM,使其能够在心理健康支持方面达到与大型专有模型相当的性能,同时降低部署成本和隐私风险。
技术框架:LLUMI包含两个主要组件:生成模型(GM)和改进模型(IM)。GM负责根据心理健康问题生成初始的支持性回复。IM则负责对人工编写的初始回复进行改进。这两个模型都通过监督式微调(SFT)和直接偏好优化(DPO)进行训练,训练数据来自Reddit社区的反馈。整体流程是:用户输入问题 -> GM生成初始回复(或人工编写初始回复) -> IM改进回复 -> 输出最终回复。
关键创新:论文的关键创新在于利用在线社区的反馈作为训练信号,避免了对大量人工标注数据的依赖。这种方法能够有效地利用社区的集体智慧,提升LLM在特定领域的性能。此外,使用开源模型也降低了部署成本和隐私风险。
关键设计:论文使用Reddit社区的赞/踩数据构建选择-拒绝回复对,用于SFT和DPO训练。具体来说,被赞的回复被认为是“选择”的回复,而被踩的回复被认为是“拒绝”的回复。论文还使用了人类评估来进一步对齐LLUMI,评估指标包括可读性、同理心、连接性、可操作性和安全性。具体的模型参数设置和损失函数细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
LLUMI使用较小的开源模型,通过社区反馈训练,在语言分析和人类评估中取得了与大型专有模型相当的性能。这表明,在特定领域,利用弱监督信号训练的开源模型可以有效替代大型专有模型,降低成本和隐私风险。具体的性能数据和对比基线未在摘要中详细说明,属于未知信息。
🎯 应用场景
LLUMI可应用于各种在线心理健康支持平台,为用户提供更安全、更经济、更有效的支持服务。它降低了部署成本和隐私风险,使得小型机构和组织也能提供高质量的心理健康支持。未来,该方法可以推广到其他需要情感支持的领域,如老年人关怀、青少年教育等。
📄 摘要(原文)
Large language models (LLMs) show promise in generating supportive responses for mental health queries, but improving their usefulness, empathy, and safety often requires substantial compute, expert input, and labeled data. At the same time, deploying proprietary, cloud-based models for mental health-related interactions raises important privacy and data-governance concerns, given the sensitivities. To address this challenge, we introduce LLUMI setup that can be hosted in-house within protected environments. LLUMI consists of two complementary components: a generation model (GM), which drafts supportive responses to mental health queries, and an improvement model (IM), which revises an initial human-crafted response. We leverage feedback signals from Reddit mental health communities, using community endorsement patterns such as upvotes and downvotes to construct chosen-rejected response pairs for Supervised Fine Tuning (SFT) and Direct Preference Optimization (DPO). We further align LLUMI using human evaluation across five dimensions: readability, empathy, connection, actionability, and safety. Our results show that, despite relying on smaller open-source models rather than proprietary cloud-based GPT models, LLUMI achieves comparable performance across linguistic analyses and human evaluations. These findings suggest that open-source models, when trained with community-derived preference signals, can support high-quality mental health support assistance while offering a more privacy-preserving alternative for sensitive support contexts.