BITS Pilani at SemEval-2026 Task 9: Structured Supervised Fine-Tuning with DPO Refinement for Polarization Detection
作者: Atharva Gupta, Dhruv Kumar, Yash Sinha
分类: cs.CL
发布日期: 2026-04-13
💡 一句话要点
提出结合结构化监督微调与DPO优化的方法,用于提升在线极化检测的准确率和召回率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 在线极化检测 结构化微调 直接偏好优化 大型语言模型 社交媒体分析
📋 核心要点
- 在线极化检测面临细微言辞和高标注成本的挑战,现有方法难以有效识别。
- 论文提出结合结构化监督微调和DPO优化的两阶段方法,提升极化检测性能。
- 实验结果表明,DPO优化显著提高了召回率和宏F1值,降低了假阴性率。
📝 摘要(中文)
本研究针对SemEval-2026 POLAR共享任务,旨在检测在线极化现象,特别是多语言、多文化和多事件背景下的极化分类与识别。由于细微的言辞、隐式的框架以及高昂的人工标注成本,准确的在线极化检测极具挑战性。本文提出了一种两阶段方法,结合结构化监督微调与直接偏好优化(DPO),用于检测社交媒体文本中的政治极化。首先,使用LoRA对Qwen 2.5-7B-Instruct进行微调,采用可解释的槽填充模板(目标、声明类型、表现清单和理由)。然后,应用DPO与自动生成的偏好对,以减少代价高昂的假阴性。在SemEval 2026 POLAR共享任务数据集上的实验表明,基于偏好的优化提高了准确率并减少了假阴性,且无需额外标注。在英语开发集上,DPO将召回率从0.5085提高到0.7797,并将宏F1提高了约5个百分点。
🔬 方法详解
问题定义:论文旨在解决在线政治极化检测问题,尤其是在多语言、多文化和多事件背景下。现有方法的痛点在于难以捕捉细微的极化言辞,且人工标注成本高昂,导致模型容易出现假阴性,即未能识别出实际存在的极化内容。
核心思路:论文的核心思路是利用大型语言模型(LLM)的上下文理解能力,并结合结构化的监督微调和偏好优化,从而更准确地检测极化。结构化微调旨在让模型学习可解释的极化特征,而偏好优化则侧重于减少假阴性,提升模型的召回率。
技术框架:整体框架包含两个主要阶段:1) 结构化监督微调:使用带有槽填充模板的数据集对LLM进行微调,模板包含目标、声明类型、表现清单和理由等信息,使模型能够学习极化的结构化表示。2) 直接偏好优化(DPO):利用自动生成的偏好对(正例和负例),通过DPO算法进一步优化模型,使其更倾向于选择正确的极化标签。
关键创新:关键创新在于结合了结构化监督微调和DPO优化。结构化微调提供了可解释的特征表示,而DPO优化则直接优化了模型的偏好,无需额外的标注数据,从而降低了成本并提高了效率。这种结合方式能够有效提升模型的准确率和召回率。
关键设计:在结构化微调阶段,使用了Qwen 2.5-7B-Instruct模型,并采用LoRA进行参数高效的微调。槽填充模板的设计至关重要,需要仔细选择和定义各个槽的含义。在DPO优化阶段,偏好对的生成策略会影响最终效果,需要设计合理的策略来生成高质量的偏好对。损失函数采用标准的DPO损失函数,旨在最大化模型对正例的偏好。
📊 实验亮点
实验结果表明,DPO优化显著提升了极化检测的性能。在英语开发集上,DPO将召回率从0.5085提高到0.7797,宏F1值提高了约5个百分点。这些结果表明,基于偏好的优化能够有效减少假阴性,提高模型的整体性能,且无需额外的人工标注。
🎯 应用场景
该研究成果可应用于社交媒体平台的内容审核、舆情分析、虚假信息检测等领域。通过准确识别在线极化内容,有助于构建更健康的网络环境,减少社会对立,并为政策制定者提供参考依据。未来,该方法可扩展到其他语言和文化背景,实现更广泛的应用。
📄 摘要(原文)
The POLAR SemEval-2026 Shared Task aims to detect online polarization and focuses on the classification and identification of multilingual, multicultural, and multi-event polarization. Accurate computational detection of online polarization is challenging due to nuanced rhetoric, implicit framing, and the high cost of human-in-the-loop annotation. Building on recent findings that contextual prompting enables large language models to function as strong polarization detectors, we present a two-stage approach for detecting political polarization in social media text that combines structured supervised fine-tuning with Direct Preference Optimization (DPO) refinement. We fine-tune Qwen 2.5-7B-Instruct with LoRA using an interpretable slot-filling template (target, claim type, manifestation checklist, and justification). We then apply DPO with automatically generated preference pairs to reduce costly false negatives. Experiments on the SemEval 2026 POLAR shared task dataset show that preference-based refinement improves both accuracy and decreases false negatives without extra annotation. On the English development set, DPO increases recall from 0.5085 to 0.7797 and improves macro-F1 by ~5 points.