JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models' Detection of Human Self-Destructive Behavior Content in Jirai Community

📄 arXiv: 2503.21679v2 📥 PDF

作者: Yunze Xiao, Tingyu He, Lionel Z. Wang, Yiming Ma, Xingyu Song, Xiaohang Xu, Irene Li, Ka Chung Ng

分类: cs.CL, cs.CY

发布日期: 2025-03-27 (更新: 2025-03-30)

备注: 20 pages, 1 figures


💡 一句话要点

JiraiBench:一个双语基准,用于评估大型语言模型对Jirai社区中人类自毁行为内容的检测能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自毁行为检测 大型语言模型 双语基准 Jirai社区 跨语言迁移学习

📋 核心要点

  1. 现有方法在检测社交媒体上隐晦的自毁行为内容时面临挑战,尤其是在跨语言和文化背景下。
  2. JiraiBench通过构建包含中文和日文数据的双语基准,并结合文化维度注释,来解决这一问题。
  3. 实验表明,日语提示在处理中文内容时表现出意外的优势,揭示了文化邻近性在检测中的重要作用。

📝 摘要(中文)

本文介绍了JiraiBench,这是首个双语基准,用于评估大型语言模型在检测中文和日文社交媒体社区中自毁内容方面的有效性。我们关注跨国“Jirai”(地雷)网络亚文化,该亚文化涵盖多种形式的自毁行为,包括药物过量、饮食失调和自残。我们提出了一个综合评估框架,其中包含语言和文化维度。我们的数据集包含10,419个中文帖子和5,000个日文帖子,并沿三个行为类别进行了多维注释,实现了显著的注释者间一致性。对四个最先进模型的实验评估揭示了基于指令语言的显著性能差异,其中日语提示在处理中文内容时意外地优于中文提示。这种新兴的跨文化转移表明,在检测任务中,文化邻近性有时可能超过语言相似性。使用微调模型的跨语言迁移实验进一步证明了这些语言系统之间在没有明确目标语言训练的情况下进行知识转移的潜力。这些发现强调了多语言内容审核需要文化敏感的方法,并为在开发更有效的弱势在线社区检测系统时文化背景的重要性提供了经验证据。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在检测Jirai社区(一个包含自毁行为内容的在线亚文化群体)中人类自毁行为内容的能力。现有方法在跨语言和跨文化背景下检测此类内容时,面临着数据稀缺、文化理解不足等挑战,导致检测效果不佳。特别是,Jirai文化中的自毁行为表达方式隐晦,更增加了检测难度。

核心思路:论文的核心思路是构建一个高质量的双语(中文和日文)基准数据集JiraiBench,并利用该数据集评估LLMs在不同语言提示下的表现。通过对比不同语言提示的效果,探索文化邻近性对检测性能的影响。此外,论文还探索了跨语言迁移学习的可能性,即利用一种语言训练的模型来提升另一种语言的检测效果。

技术框架:整体框架包括数据收集与标注、模型评估和跨语言迁移学习三个主要阶段。首先,从Jirai社区收集大量的中文和日文帖子,并由专业人员进行多维标注,包括自毁行为的类别(如药物过量、饮食失调、自残等)。然后,使用JiraiBench评估四个最先进的LLMs(具体模型名称未知)在不同语言提示下的表现。最后,通过微调模型进行跨语言迁移学习,探索知识迁移的可能性。

关键创新:论文的关键创新在于构建了首个针对Jirai社区自毁行为内容检测的双语基准数据集JiraiBench,并揭示了文化邻近性在跨语言检测中的重要作用。以往的研究主要关注语言相似性,而忽略了文化背景的影响。论文的发现表明,在某些情况下,文化邻近性可能比语言相似性更重要。

关键设计:数据集包含10,419个中文帖子和5,000个日文帖子,并沿三个行为类别进行了多维注释。实验中,使用了不同的语言提示(中文和日文)来引导LLMs进行检测。跨语言迁移学习的具体实现细节(如微调策略、损失函数等)未知。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,日语提示在处理中文内容时,检测性能意外地优于中文提示,这表明文化邻近性在检测任务中可能比语言相似性更重要。跨语言迁移学习实验也证明了在没有明确目标语言训练的情况下,知识可以在中文和日文之间进行迁移。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于在线社交媒体平台的内容审核,特别是针对弱势群体的保护。通过提升对自毁行为内容的检测能力,可以及时发现并干预潜在的自杀或自残行为,从而降低风险。此外,该研究也为开发更有效的多语言内容审核系统提供了新的思路,强调了文化背景的重要性。

📄 摘要(原文)

This paper introduces JiraiBench, the first bilingual benchmark for evaluating large language models' effectiveness in detecting self-destructive content across Chinese and Japanese social media communities. Focusing on the transnational "Jirai" (landmine) online subculture that encompasses multiple forms of self-destructive behaviors including drug overdose, eating disorders, and self-harm, we present a comprehensive evaluation framework incorporating both linguistic and cultural dimensions. Our dataset comprises 10,419 Chinese posts and 5,000 Japanese posts with multidimensional annotation along three behavioral categories, achieving substantial inter-annotator agreement. Experimental evaluations across four state-of-the-art models reveal significant performance variations based on instructional language, with Japanese prompts unexpectedly outperforming Chinese prompts when processing Chinese content. This emergent cross-cultural transfer suggests that cultural proximity can sometimes outweigh linguistic similarity in detection tasks. Cross-lingual transfer experiments with fine-tuned models further demonstrate the potential for knowledge transfer between these language systems without explicit target language training. These findings highlight the need for culturally-informed approaches to multilingual content moderation and provide empirical evidence for the importance of cultural context in developing more effective detection systems for vulnerable online communities.