RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises
作者: Zenan Zhai, Hao Li, Xudong Han, Zhenxuan Zhang, Yixuan Zhang, Timothy Baldwin, Haonan Li
分类: cs.CL
发布日期: 2025-02-18
💡 一句话要点
RuozhiBench:构建逻辑谬误和误导性前提的评测基准,评估LLM的推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 逻辑谬误 推理能力 评测基准 数据集
📋 核心要点
- 现有LLM在复杂推理任务中表现出色,但在识别和处理逻辑谬误及误导性前提方面存在不足。
- 论文构建了双语数据集RuozhiBench,包含多种欺骗性推理问题,用于评估LLM的逻辑推理能力。
- 实验结果表明,即使是最先进的LLM在RuozhiBench上的表现也远低于人类水平,表明逻辑推理能力仍有提升空间。
📝 摘要(中文)
大型语言模型(LLM)的最新进展表明,它们可以回答需要复杂推理的问题。然而,它们识别和响应包含逻辑谬误或故意误导性前提的文本的能力仍有待研究。为了弥补这一差距,我们引入了RuozhiBench,这是一个双语数据集,包含677个精心策划的问题,这些问题包含各种形式的欺骗性推理,通过大量的人工努力和专家评审精心制作。通过对来自5个系列的17个LLM在RuozhiBench上使用开放式和二选一格式进行全面评估,我们对评估协议和结果模式进行了广泛的分析。尽管这些模型在传统基准测试中获得了高分,但它们在检测和正确推理逻辑谬误方面的能力有限,即使是性能最佳的模型Claude-3-haiku,其准确率也仅为62%,而人类的准确率超过90%。
🔬 方法详解
问题定义:论文旨在解决LLM在识别和处理包含逻辑谬误和误导性前提的文本时表现不足的问题。现有方法在评估LLM的推理能力时,往往侧重于事实性知识和常识推理,忽略了对逻辑谬误的识别能力,这使得LLM容易受到对抗性攻击和信息操纵。
核心思路:论文的核心思路是构建一个专门用于评估LLM逻辑推理能力的数据集,该数据集包含各种类型的逻辑谬误和误导性前提,通过评估LLM在这些问题上的表现,可以更全面地了解LLM的推理能力。这样设计的目的是为了更真实地反映LLM在实际应用中可能遇到的挑战。
技术框架:RuozhiBench数据集的构建流程主要包括以下几个阶段:1) 确定逻辑谬误的类型,例如人身攻击、诉诸权威等;2) 设计包含这些逻辑谬误的问题,并确保问题具有一定的迷惑性;3) 进行人工标注和专家评审,以确保问题的质量和答案的正确性;4) 将问题翻译成中英文双语版本。评估流程包括:1) 使用开放式和二选一两种格式的问题;2) 评估多个LLM在RuozhiBench上的表现;3) 分析评估结果,并探讨LLM在不同类型的逻辑谬误上的表现差异。
关键创新:该论文的关键创新在于构建了一个专门用于评估LLM逻辑推理能力的数据集RuozhiBench。与现有的数据集相比,RuozhiBench更加关注逻辑谬误和误导性前提,可以更有效地评估LLM的逻辑推理能力。此外,RuozhiBench还提供了中英文双语版本,方便不同语言背景的研究者使用。
关键设计:RuozhiBench数据集包含677个问题,涵盖多种类型的逻辑谬误。问题设计注重迷惑性,旨在测试LLM是否能够识别出隐藏在文本中的逻辑谬误。数据集采用开放式和二选一两种格式,以更全面地评估LLM的推理能力。评估指标主要包括准确率,用于衡量LLM在识别逻辑谬误方面的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是性能最佳的LLM(Claude-3-haiku)在RuozhiBench上的准确率也仅为62%,远低于人类的90%以上。这表明LLM在识别和处理逻辑谬误方面仍存在显著差距。不同LLM在不同类型的逻辑谬误上的表现存在差异,表明需要针对不同类型的逻辑谬误进行专门的优化。
🎯 应用场景
该研究成果可应用于提高LLM在信息安全、舆情分析、智能客服等领域的可靠性和鲁棒性。通过提升LLM识别和抵御逻辑谬误的能力,可以减少其被恶意利用的风险,并提高其在复杂信息环境下的决策质量。未来,该研究可以促进开发更安全、更可信的AI系统。
📄 摘要(原文)
Recent advances in large language models (LLMs) have shown that they can answer questions requiring complex reasoning. However, their ability to identify and respond to text containing logical fallacies or deliberately misleading premises remains less studied. To address this gap, we introduce RuozhiBench, a bilingual dataset comprising 677 carefully curated questions that contain various forms of deceptive reasoning, meticulously crafted through extensive human effort and expert review. In a comprehensive evaluation of 17 LLMs from 5 Series over RuozhiBench using both open-ended and two-choice formats, we conduct extensive analyses on evaluation protocols and result patterns. Despite their high scores on conventional benchmarks, these models showed limited ability to detect and reason correctly about logical fallacies, with even the best-performing model, Claude-3-haiku, achieving only 62% accuracy compared to the human of more than 90%.