CSE-UOI at SemEval-2026 Task 6: A Two-Stage Heterogeneous Ensemble with Deliberative Complexity Gating for Political Evasion Detection

📄 arXiv: 2603.12453v1 📥 PDF

作者: Christos Tzouvaras, Konstantinos Skianis, Athanasios Voulodimos

分类: cs.CL

发布日期: 2026-03-12


💡 一句话要点

提出基于异构LLM集成和审慎复杂性门控的两阶段方法,用于政治回避检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 政治回避检测 大型语言模型 异构集成 自洽性 审慎复杂性门控

📋 核心要点

  1. 现有方法在政治访谈回复清晰度分类任务中,难以有效区分模棱两可的回答,导致分类精度受限。
  2. 论文提出异构LLM集成方法,结合自洽性和加权投票,并引入审慎复杂性门控机制,提升模型对模糊信息的处理能力。
  3. 实验结果表明,该方法在SemEval-2026 Task 6中取得了0.85的Macro-F1分数,验证了其有效性,排名第三。

📝 摘要(中文)

本文介绍了我们在SemEval-2026 Task 6中使用的系统,该系统将政治访谈中回复的清晰度分为三类:清晰回复、模棱两可和清晰非回复。我们提出了一种通过自洽性(SC)和加权投票实现的异构双大型语言模型(LLM)集成,以及一种新颖的事后校正机制,即审慎复杂性门控(DCG)。该机制使用跨模型行为信号,并利用LLM响应长度代理与样本模糊性高度相关的发现。为了进一步研究改进模糊性检测的机制,我们评估了多智能体辩论作为增加审议能力的替代策略。与使用跨模型行为信号自适应地门控推理的DCG不同,辩论增加了智能体数量,但没有增加模型多样性。我们的解决方案在评估集上实现了0.85的Macro-F1分数,获得第3名。

🔬 方法详解

问题定义:政治访谈回复清晰度分类任务旨在将回复分为“清晰回复”、“模棱两可”和“清晰非回复”三类。现有方法难以有效捕捉和处理政治语境下的模糊表达,导致分类精度不高,尤其是在区分“模棱两可”回复时表现欠佳。

核心思路:论文的核心思路是利用多个异构LLM的互补优势,通过集成学习提升整体性能。同时,引入审慎复杂性门控(DCG)机制,根据模型行为信号和回复长度等信息,动态调整模型的推理过程,从而更好地处理模糊样本。

技术框架:该方法采用两阶段框架。第一阶段是异构LLM集成,使用自洽性(SC)和加权投票方法,将多个LLM的预测结果进行融合。第二阶段是事后校正,通过DCG机制,利用跨模型行为信号(例如模型之间的预测一致性)和LLM回复长度代理(作为样本模糊性的指标)来校正第一阶段的预测结果。此外,还探索了多智能体辩论策略,但效果不如DCG。

关键创新:关键创新在于审慎复杂性门控(DCG)机制。DCG能够根据跨模型行为信号和回复长度等信息,自适应地调整模型的推理过程,从而更好地处理模糊样本。与传统的集成方法相比,DCG能够更有效地利用模型之间的差异性,并根据样本的复杂程度进行动态调整。

关键设计:DCG机制的关键设计包括:1) 使用LLM回复长度作为样本模糊性的代理指标;2) 利用跨模型预测一致性作为模型行为信号;3) 设计门控函数,根据上述信息动态调整模型的预测结果。具体的参数设置和损失函数等细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在SemEval-2026 Task 6的评估集上取得了0.85的Macro-F1分数,排名第三。实验结果表明,异构LLM集成和审慎复杂性门控(DCG)机制能够有效提升政治访谈回复清晰度分类的性能。虽然论文中没有明确对比其他基线方法,但第三名的成绩证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于政治传播分析、舆情监控、智能客服等领域。通过自动识别政治访谈中的模糊回复,可以帮助分析人员更好地理解政治人物的立场和意图,提升舆情监控的效率和准确性。此外,该方法还可以应用于智能客服系统,帮助客服人员更好地理解用户的问题,并提供更准确的回复。

📄 摘要(原文)

This paper describes our system for SemEval-2026 Task 6, which classifies clarity of responses in political interviews into three categories: Clear Reply, Ambivalent, and Clear Non-Reply. We propose a heterogeneous dual large language model (LLM) ensemble via self-consistency (SC) and weighted voting, and a novel post-hoc correction mechanism, Deliberative Complexity Gating (DCG). This mechanism uses cross-model behavioral signals and exploits the finding that an LLM response-length proxy correlates strongly with sample ambiguity. To further examine mechanisms for improving ambiguity detection, we evaluated multi-agent debate as an alternative strategy for increasing deliberative capacity. Unlike DCG, which adaptively gates reasoning using cross-model behavioral signals, debate increases agent count without increasing model diversity. Our solution achieved a Macro-F1 score of 0.85 on the evaluation set, securing 3rd place.