Prompt-Based Clarity Evaluation and Topic Detection in Political Question Answering
作者: Lavanya Prahallad, Sai Utkarsh Choudarypally, Pragna Prahallad, Pranathi Prahallad
分类: cs.CL, cs.AI
发布日期: 2026-01-13
备注: 6 pages, 6 tables
💡 一句话要点
基于Prompt设计的政治问答清晰度评估与主题检测方法研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 政治问答 清晰度评估 大型语言模型 Prompt设计 思维链 主题检测 少量样本学习
📋 核心要点
- 现有政治问答评估缺乏对LLM回复清晰度的有效自动评估方法,prompt设计的影响未被充分研究。
- 论文提出利用不同prompt策略(简单prompt、思维链prompt、少量样本思维链prompt)来提升LLM在清晰度评估和主题检测方面的性能。
- 实验表明,GPT-5.2结合思维链prompt和少量样本学习,在清晰度预测上显著优于基线模型,主题检测准确率也得到提升。
📝 摘要(中文)
大型语言模型(LLM)回复的自动评估不仅需要事实正确性,还需要清晰度,尤其是在政治问答中。虽然最近的数据集提供了清晰度和回避的人工标注,但prompt设计对自动清晰度评估的影响仍未得到充分探索。本文使用SemEval 2026共享任务中的CLARITY数据集,研究了基于prompt的清晰度评估。我们将数据集提供的GPT-3.5基线与GPT-5.2在三种prompt策略下进行了比较:简单prompt、思维链prompt和带有少量示例的思维链prompt。使用准确率和类别指标(针对清晰度和回避)以及分层精确匹配,针对人工标注评估模型预测。结果表明,GPT-5.2在清晰度预测方面始终优于GPT-3.5基线,在带有少量示例的思维链prompt下,准确率从56%提高到63%。思维链prompt在回避准确率方面达到最高,为34%,但细粒度回避类别之间的改进不太稳定。我们进一步评估了主题识别,发现相对于人工标注,基于推理的prompt将准确率从60%提高到74%。总的来说,我们的研究结果表明,prompt设计可靠地提高了高层次的清晰度评估,而细粒度的回避和主题检测即使在结构化推理prompt下仍然具有挑战性。
🔬 方法详解
问题定义:论文旨在解决政治问答场景下,如何自动评估大型语言模型回复的清晰度以及准确识别回复主题的问题。现有方法在清晰度评估方面不够有效,并且prompt设计对评估结果的影响缺乏深入研究。
核心思路:论文的核心思路是通过设计不同的prompt策略,引导大型语言模型进行更有效的清晰度评估和主题检测。通过引入思维链和少量样本学习,增强模型的推理能力和对细微语义的理解。
技术框架:论文采用的整体框架是:首先,使用CLARITY数据集,该数据集包含政治问答以及人工标注的清晰度和回避信息。然后,针对GPT-3.5和GPT-5.2模型,分别设计简单prompt、思维链prompt和带有少量示例的思维链prompt。最后,使用准确率和类别指标评估模型在清晰度、回避和主题检测方面的性能。
关键创新:论文的关键创新在于探索了prompt设计对政治问答清晰度评估和主题检测的影响。通过对比不同的prompt策略,揭示了思维链prompt和少量样本学习在提升模型性能方面的潜力。
关键设计:论文的关键设计包括:1) 三种不同的prompt策略:简单prompt直接要求模型进行预测;思维链prompt引导模型逐步推理;少量样本思维链prompt提供几个示例,帮助模型更好地理解任务。2) 使用准确率、精确率、召回率和F1值等指标评估模型性能。3) 针对主题检测,使用人工标注作为ground truth,评估模型预测的准确性。
📊 实验亮点
实验结果表明,GPT-5.2在清晰度预测方面显著优于GPT-3.5基线,在带有少量示例的思维链prompt下,准确率从56%提高到63%。思维链prompt在回避准确率方面达到最高,为34%。主题检测方面,基于推理的prompt将准确率从60%提高到74%。
🎯 应用场景
该研究成果可应用于自动评估政治问答系统中LLM的回复质量,提升信息传播的透明度和可信度。此外,该方法也可推广到其他需要清晰表达和准确理解的应用场景,例如法律咨询、医疗问答等,有助于构建更智能、更可靠的对话系统。
📄 摘要(原文)
Automatic evaluation of large language model (LLM) responses requires not only factual correctness but also clarity, particularly in political question-answering. While recent datasets provide human annotations for clarity and evasion, the impact of prompt design on automatic clarity evaluation remains underexplored. In this paper, we study prompt-based clarity evaluation using the CLARITY dataset from the SemEval 2026 shared task. We compare a GPT-3.5 baseline provided with the dataset against GPT-5.2 evaluated under three prompting strategies: simple prompting, chain-of-thought prompting, and chain-of-thought with few-shot examples. Model predictions are evaluated against human annotations using accuracy and class-wise metrics for clarity and evasion, along with hierarchical exact match. Results show that GPT-5.2 consistently outperforms the GPT-3.5 baseline on clarity prediction, with accuracy improving from 56 percent to 63 percent under chain-of-thought with few-shot prompting. Chain-of-thought prompting yields the highest evasion accuracy at 34 percent, though improvements are less stable across fine-grained evasion categories. We further evaluate topic identification and find that reasoning-based prompting improves accuracy from 60 percent to 74 percent relative to human annotations. Overall, our findings indicate that prompt design reliably improves high-level clarity evaluation, while fine-grained evasion and topic detection remain challenging despite structured reasoning prompts.