CSE-UOI at SemEval-2026 Task 6: A Two-Stage Heterogeneous Ensemble with Deliberative Complexity Gating for Political Evasion Detection

作者: Christos Tzouvaras, Konstantinos Skianis, Athanasios Voulodimos

分类: cs.CL

发布日期: 2026-03-12

💡 一句话要点

提出基于异构LLM集成和审慎复杂性门控的两阶段方法，用于政治回避检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 政治回避检测 大型语言模型 异构集成 自洽性 审慎复杂性门控

📋 核心要点

现有方法在政治访谈回复清晰度分类任务中，难以有效区分模棱两可的回答，导致分类精度受限。
论文提出异构LLM集成方法，结合自洽性和加权投票，并引入审慎复杂性门控机制，提升模型对模糊信息的处理能力。
实验结果表明，该方法在SemEval-2026 Task 6中取得了0.85的Macro-F1分数，验证了其有效性，排名第三。

📝 摘要（中文）

本文介绍了我们在SemEval-2026 Task 6中使用的系统，该系统将政治访谈中回复的清晰度分为三类：清晰回复、模棱两可和清晰非回复。我们提出了一种通过自洽性（SC）和加权投票实现的异构双大型语言模型（LLM）集成，以及一种新颖的事后校正机制，即审慎复杂性门控（DCG）。该机制使用跨模型行为信号，并利用LLM响应长度代理与样本模糊性高度相关的发现。为了进一步研究改进模糊性检测的机制，我们评估了多智能体辩论作为增加审议能力的替代策略。与使用跨模型行为信号自适应地门控推理的DCG不同，辩论增加了智能体数量，但没有增加模型多样性。我们的解决方案在评估集上实现了0.85的Macro-F1分数，获得第3名。

🔬 方法详解

问题定义：政治访谈回复清晰度分类任务旨在将回复分为“清晰回复”、“模棱两可”和“清晰非回复”三类。现有方法难以有效捕捉和处理政治语境下的模糊表达，导致分类精度不高，尤其是在区分“模棱两可”回复时表现欠佳。

核心思路：论文的核心思路是利用多个异构LLM的互补优势，通过集成学习提升整体性能。同时，引入审慎复杂性门控（DCG）机制，根据模型行为信号和回复长度等信息，动态调整模型的推理过程，从而更好地处理模糊样本。

技术框架：该方法采用两阶段框架。第一阶段是异构LLM集成，使用自洽性（SC）和加权投票方法，将多个LLM的预测结果进行融合。第二阶段是事后校正，通过DCG机制，利用跨模型行为信号（例如模型之间的预测一致性）和LLM回复长度代理（作为样本模糊性的指标）来校正第一阶段的预测结果。此外，还探索了多智能体辩论策略，但效果不如DCG。

关键创新：关键创新在于审慎复杂性门控（DCG）机制。DCG能够根据跨模型行为信号和回复长度等信息，自适应地调整模型的推理过程，从而更好地处理模糊样本。与传统的集成方法相比，DCG能够更有效地利用模型之间的差异性，并根据样本的复杂程度进行动态调整。

关键设计：DCG机制的关键设计包括：1) 使用LLM回复长度作为样本模糊性的代理指标；2) 利用跨模型预测一致性作为模型行为信号；3) 设计门控函数，根据上述信息动态调整模型的预测结果。具体的参数设置和损失函数等细节在论文中未明确说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

该方法在SemEval-2026 Task 6的评估集上取得了0.85的Macro-F1分数，排名第三。实验结果表明，异构LLM集成和审慎复杂性门控（DCG）机制能够有效提升政治访谈回复清晰度分类的性能。虽然论文中没有明确对比其他基线方法，但第三名的成绩证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于政治传播分析、舆情监控、智能客服等领域。通过自动识别政治访谈中的模糊回复，可以帮助分析人员更好地理解政治人物的立场和意图，提升舆情监控的效率和准确性。此外，该方法还可以应用于智能客服系统，帮助客服人员更好地理解用户的问题，并提供更准确的回复。

📄 摘要（原文）

This paper describes our system for SemEval-2026 Task 6, which classifies clarity of responses in political interviews into three categories: Clear Reply, Ambivalent, and Clear Non-Reply. We propose a heterogeneous dual large language model (LLM) ensemble via self-consistency (SC) and weighted voting, and a novel post-hoc correction mechanism, Deliberative Complexity Gating (DCG). This mechanism uses cross-model behavioral signals and exploits the finding that an LLM response-length proxy correlates strongly with sample ambiguity. To further examine mechanisms for improving ambiguity detection, we evaluated multi-agent debate as an alternative strategy for increasing deliberative capacity. Unlike DCG, which adaptively gates reasoning using cross-model behavioral signals, debate increases agent count without increasing model diversity. Our solution achieved a Macro-F1 score of 0.85 on the evaluation set, securing 3rd place.

CSE-UOI at SemEval-2026 Task 6: A Two-Stage Heterogeneous Ensemble with Deliberative Complexity Gating for Political Evasion Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理