KoACD: The First Korean Adolescent Dataset for Cognitive Distortion Analysis via Role-Switching Multi-LLM Negotiation
作者: JunSeo Kim, HyeHyeon Kim
分类: cs.CL, cs.AI
发布日期: 2025-05-01 (更新: 2025-09-20)
备注: Accepted to Findings of EMNLP 2025
💡 一句话要点
提出KoACD:首个面向韩国青少年认知扭曲分析的大规模数据集,并采用多LLM协商方法提升标注质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 认知扭曲 青少年心理健康 自然语言处理 大型语言模型 多LLM协商 数据集构建 数据增强
📋 核心要点
- 现有认知扭曲检测研究主要集中于成人数据集,缺乏针对青少年群体的有效资源。
- 论文提出多LLM协商方法,通过角色切换和迭代反馈减少偏差,提升标签一致性。
- 实验结果表明,LLM在显式标记的扭曲分类上表现良好,但在上下文推理方面仍有提升空间。
📝 摘要(中文)
本研究介绍了KoACD,这是首个大规模的韩国青少年认知扭曲数据集,包含108,717个实例。认知扭曲是指可能导致青少年抑郁和焦虑等心理健康问题的消极思维模式。以往的自然语言处理(NLP)研究主要集中在小规模的成人数据集上,对青少年的研究有限。我们应用了一种多大型语言模型(LLM)协商方法来改进扭曲分类,通过模型间的迭代反馈和角色切换来减少偏差并提高标签一致性。此外,我们使用两种方法生成合成数据:认知澄清以提高文本清晰度,认知平衡以实现多样化的扭曲表示。通过LLM和专家评估进行的验证表明,LLM可以对具有显式标记的扭曲进行分类,但在依赖上下文的推理方面表现不佳,而人类评估者表现出更高的准确性。KoACD旨在加强未来对认知扭曲检测的研究。数据集和实现细节已公开。
🔬 方法详解
问题定义:论文旨在解决韩国青少年认知扭曲识别与分类问题。现有方法主要基于成人数据集,缺乏针对青少年特定语言习惯和思维模式的有效资源,导致模型泛化能力不足。此外,人工标注成本高昂,难以构建大规模数据集。
核心思路:论文的核心思路是利用多LLM协商机制,模拟专家会诊过程,通过不同LLM的角色扮演、互相质疑和迭代修正,提高标注质量和一致性。同时,采用数据增强技术,生成更多样化的训练数据,提升模型的鲁棒性。
技术框架:整体框架包括数据收集、数据增强、多LLM协商标注和模型训练四个主要阶段。首先,收集韩国青少年文本数据。然后,利用认知澄清和认知平衡两种方法生成合成数据。接着,采用多LLM协商方法进行数据标注,该方法涉及多个LLM,每个LLM扮演不同的角色(如提问者、回答者、评论者),通过多轮对话和反馈,达成一致的标注结果。最后,使用标注好的数据训练认知扭曲检测模型。
关键创新:论文的关键创新在于提出了多LLM协商标注方法,该方法能够有效减少标注偏差,提高标注一致性,并降低人工标注成本。此外,论文还提出了认知澄清和认知平衡两种数据增强方法,能够生成更具代表性的训练数据。
关键设计:多LLM协商标注方法中,LLM的角色设置和对话策略是关键。论文设计了多种角色,如提问者负责引导讨论,回答者负责给出初步判断,评论者负责评估和质疑。对话策略则包括多轮迭代、交叉验证和一致性评估等。数据增强方面,认知澄清旨在提高文本的清晰度,认知平衡旨在生成更平衡的扭曲类型分布。具体参数设置和损失函数等细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
KoACD数据集包含108,717个实例,是首个面向韩国青少年的大规模认知扭曲数据集。实验结果表明,LLM在显式标记的扭曲分类上表现良好,但在上下文推理方面仍不如人类专家。该数据集和实现细节已公开,为未来研究提供了宝贵的资源。
🎯 应用场景
该研究成果可应用于青少年心理健康评估、在线心理咨询、智能辅导系统等领域。通过自动识别青少年的认知扭曲,可以及早发现潜在的心理问题,并提供个性化的干预和支持,从而改善青少年的心理健康状况,具有重要的社会价值。
📄 摘要(原文)
Cognitive distortion refers to negative thinking patterns that can lead to mental health issues like depression and anxiety in adolescents. Previous studies using natural language processing (NLP) have focused mainly on small-scale adult datasets, with limited research on adolescents. This study introduces KoACD, the first large-scale dataset of cognitive distortions in Korean adolescents, containing 108,717 instances. We applied a multi-Large Language Model (LLM) negotiation method to refine distortion classification, enabling iterative feedback and role-switching between models to reduce bias and improve label consistency. In addition, we generated synthetic data using two approaches: cognitive clarification for textual clarity and cognitive balancing for diverse distortion representation. Validation through LLMs and expert evaluations showed that while LLMs classified distortions with explicit markers, they struggled with context-dependent reasoning, where human evaluators demonstrated higher accuracy. KoACD aims to enhance future research on cognitive distortion detection. The dataset and implementation details are publicly accessible.