"I Never Said That": A dataset, taxonomy and baselines on response clarity classification

📄 arXiv: 2409.13879v1 📥 PDF

作者: Konstantinos Thomas, Giorgos Filandrianos, Maria Lymperaiou, Chrysoula Zerva, Giorgos Stamou

分类: cs.CL

发布日期: 2024-09-20

备注: Accepted at Findings of EMNLP 2024


💡 一句话要点

提出一种基于政治访谈的回答清晰度分类数据集与基线方法,解决公共演讲中含糊不清的问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 回答清晰度分类 政治访谈 自然语言处理 大型语言模型 数据集构建

📋 核心要点

  1. 现有方法缺乏对公共演讲中回答清晰度的细致评估,尤其是在政治访谈等场景下。
  2. 论文提出了一种两级分类体系,结合ChatGPT和人工标注,构建了政治访谈QA对的清晰度分类数据集。
  3. 通过实验,论文分析了不同模型在该数据集上的表现,并为回答清晰度分类任务建立了新的基线。

📝 摘要(中文)

本文旨在解决政治访谈中回答清晰度的问题,该问题与公共演讲中的含糊其辞现象密切相关。受访谈中含糊其辞理论的启发,本文提出了一个新的分类体系,用于检测和分类回答的清晰度。同时,构建了一个相应的清晰度分类数据集,该数据集包含从政治访谈中提取的问题-答案对,并进行了相应的标注。提出的两级分类体系从信息提供的角度(高层)评估回答的清晰度,并提供了一个关于规避技巧的细粒度分类(低层)。结合ChatGPT和人工标注,收集、验证和标注离散的QA对,用于新提出的回答清晰度任务。最后,通过不同模型架构、大小和适应方法的实验,深入分析并建立了该数据集和任务的新基线。

🔬 方法详解

问题定义:论文旨在解决政治访谈中回答清晰度分类的问题。现有方法缺乏对回答清晰度的细粒度分析,难以有效识别和分类政治访谈中常见的含糊其辞和规避行为。因此,需要一个能够准确评估回答清晰度并识别不同规避技巧的分类体系和数据集。

核心思路:论文的核心思路是构建一个两级分类体系,第一级评估回答提供的信息量,第二级细化到具体的规避技巧。通过结合ChatGPT的生成能力和人工标注的准确性,构建高质量的标注数据集,并利用该数据集训练和评估不同的模型。

技术框架:整体框架包括数据收集、数据标注、模型训练和模型评估四个主要阶段。数据收集阶段从政治访谈中提取QA对;数据标注阶段使用ChatGPT辅助人工标注,构建两级分类体系;模型训练阶段使用不同的模型架构和大小,在标注数据集上进行训练;模型评估阶段评估不同模型在回答清晰度分类任务上的性能。

关键创新:论文的关键创新在于提出了一个针对回答清晰度的两级分类体系,该体系能够从信息量和规避技巧两个维度评估回答的清晰度。此外,论文还结合ChatGPT和人工标注,构建了一个高质量的回答清晰度分类数据集。

关键设计:论文的关键设计包括:1) 两级分类体系的设计,包括高层的信息量评估和低层的规避技巧分类;2) 使用ChatGPT辅助人工标注,提高标注效率和一致性;3) 实验中使用了不同大小和架构的模型,包括预训练语言模型和微调方法;4) 详细分析了不同模型在不同类别上的表现,为未来的研究提供了参考。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了一个新的回答清晰度分类数据集,并使用不同的模型进行了实验。实验结果表明,预训练语言模型在回答清晰度分类任务上表现良好,但仍有提升空间。论文还分析了不同模型在不同类别上的表现,为未来的研究提供了参考。

🎯 应用场景

该研究成果可应用于政治学、传播学等领域,帮助分析政治人物的言论,识别其含糊其辞和规避行为。此外,该技术还可用于评估客户服务对话的质量,提高沟通效率。未来,该研究可扩展到其他类型的对话场景,例如新闻采访、辩论等。

📄 摘要(原文)

Equivocation and ambiguity in public speech are well-studied discourse phenomena, especially in political science and analysis of political interviews. Inspired by the well-grounded theory on equivocation, we aim to resolve the closely related problem of response clarity in questions extracted from political interviews, leveraging the capabilities of Large Language Models (LLMs) and human expertise. To this end, we introduce a novel taxonomy that frames the task of detecting and classifying response clarity and a corresponding clarity classification dataset which consists of question-answer (QA) pairs drawn from political interviews and annotated accordingly. Our proposed two-level taxonomy addresses the clarity of a response in terms of the information provided for a given question (high-level) and also provides a fine-grained taxonomy of evasion techniques that relate to unclear, ambiguous responses (lower-level). We combine ChatGPT and human annotators to collect, validate and annotate discrete QA pairs from political interviews, to be used for our newly introduced response clarity task. We provide a detailed analysis and conduct several experiments with different model architectures, sizes and adaptation methods to gain insights and establish new baselines over the proposed dataset and task.