Understanding Social Support Needs in Questions: A Hybrid Approach Integrating Semi-Supervised Learning and LLM-based Data Augmentation

作者: Junwei Kuang, Liang Yang, Shaoze Cui, Weiguo Fan

分类: cs.CY, cs.AI, cs.CL

发布日期: 2025-03-21

备注: 55 pages

💡 一句话要点

提出HA-SOS框架，结合半监督学习和LLM数据增强，解决在线问答社区中的社会支持需求识别问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 社会支持 问题分类 半监督学习 数据增强 大型语言模型 在线问答社区 文本分类 自然语言处理

📋 核心要点

现有方法难以有效识别在线问答中用户的社会支持需求，主要挑战在于标记数据稀缺和类别不平衡。
HA-SOS框架结合半监督学习和LLM数据增强，利用答案信息提升模型性能，并生成高质量的增强数据。
实验结果表明，HA-SOS显著优于现有问题分类模型和半监督学习方法，提升了社会支持需求识别的准确性。

📝 摘要（中文）

患者越来越多地转向在线健康问答社区寻求社会支持，以改善自身福祉。然而，如果所获得的支持与他们的特定需求不符，可能会无效甚至有害。因此，需要一个能够识别问题中社会支持需求的模型。然而，由于标记数据的稀缺性和类别不平衡问题，训练这样的模型具有挑战性。为了克服这些挑战，我们遵循计算设计科学范式，开发了一个新颖的框架，即用于社会支持需求分类的混合方法（HA-SOS）。HA-SOS集成了答案增强的半监督学习方法、利用大型语言模型（LLM）的文本数据增强技术（具有可靠性和多样性感知的样本选择机制）以及统一的训练过程，以自动标记问题中的社会支持需求。广泛的实证评估表明，HA-SOS显著优于现有的问题分类模型和替代的半监督学习方法。这项研究为社会支持、问题分类、半监督学习和文本数据增强领域的文献做出了贡献。在实践中，我们的HA-SOS框架有助于在线问答平台管理者和回答者更好地理解用户的社会支持需求，使他们能够提供及时、个性化的答案和干预。

🔬 方法详解

问题定义：论文旨在解决在线健康问答社区中，自动识别用户提问中蕴含的社会支持需求的问题。现有方法面临的痛点在于：1) 缺乏充足的标注数据，2) 不同社会支持需求类别的数据分布不平衡，导致模型训练困难，泛化能力差。

核心思路：论文的核心思路是结合半监督学习和基于大型语言模型（LLM）的数据增强技术，充分利用未标注数据，并生成高质量的增强数据，从而缓解数据稀缺和类别不平衡的问题。通过答案增强的半监督学习，模型可以从问题和答案的关联中学习更丰富的语义信息。LLM数据增强则通过生成多样且可靠的新样本，扩充训练数据集。

技术框架：HA-SOS框架包含三个主要模块：1) 答案增强的半监督学习：利用问题对应的答案信息，提升模型对问题语义的理解能力。2) 基于LLM的文本数据增强：使用LLM生成新的训练样本，并采用可靠性和多样性感知的样本选择机制，筛选出高质量的增强数据。3) 统一训练过程：将标注数据、未标注数据和增强数据整合在一起，进行统一训练，优化模型参数。

关键创新：HA-SOS的关键创新在于：1) 提出了一种答案增强的半监督学习方法，充分利用了问题和答案之间的关联信息。2) 设计了一种可靠性和多样性感知的样本选择机制，用于筛选LLM生成的高质量增强数据，避免引入噪声。3) 将半监督学习和数据增强技术整合到一个统一的框架中，实现了优势互补。

关键设计：在答案增强的半监督学习中，可能使用了对比学习或一致性正则化等技术，鼓励模型学习问题和答案之间的相似性表示。在LLM数据增强中，可靠性可能通过计算生成样本与原始样本的语义相似度来衡量，多样性则可能通过计算生成样本之间的差异性来衡量。具体的损失函数和网络结构等细节在论文中应该有更详细的描述（未知）。

📊 实验亮点

实验结果表明，HA-SOS框架显著优于现有的问题分类模型和替代的半监督学习方法。具体的性能提升幅度在摘要中提到，但未给出具体数值。论文强调了HA-SOS在社会支持需求识别方面的有效性，证明了其结合半监督学习和LLM数据增强的策略的优越性。

🎯 应用场景

HA-SOS框架可应用于在线健康问答社区，帮助平台管理者和回答者更好地理解用户的社会支持需求，从而提供更及时、个性化的答案和干预措施。这有助于提高用户满意度，改善用户福祉，并促进在线健康社区的健康发展。该框架也可推广到其他需要识别用户需求的在线平台，例如心理咨询、教育辅导等。

📄 摘要（原文）

Patients are increasingly turning to online health Q&A communities for social support to improve their well-being. However, when this support received does not align with their specific needs, it may prove ineffective or even detrimental. This necessitates a model capable of identifying the social support needs in questions. However, training such a model is challenging due to the scarcity and class imbalance issues of labeled data. To overcome these challenges, we follow the computational design science paradigm to develop a novel framework, Hybrid Approach for SOcial Support need classification (HA-SOS). HA-SOS integrates an answer-enhanced semi-supervised learning approach, a text data augmentation technique leveraging large language models (LLMs) with reliability- and diversity-aware sample selection mechanism, and a unified training process to automatically label social support needs in questions. Extensive empirical evaluations demonstrate that HA-SOS significantly outperforms existing question classification models and alternative semi-supervised learning approaches. This research contributes to the literature on social support, question classification, semi-supervised learning, and text data augmentation. In practice, our HA-SOS framework facilitates online Q&A platform managers and answerers to better understand users' social support needs, enabling them to provide timely, personalized answers and interventions.

Understanding Social Support Needs in Questions: A Hybrid Approach Integrating Semi-Supervised Learning and LLM-based Data Augmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理