BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense

作者: Baktash Ansari, Mohammadmostafa Rostamkhani, Sauleh Eetemadi

分类: cs.CL

发布日期: 2024-06-07

备注: 9 pages, 8 tables, 5 figures

💡 一句话要点

BAMO团队提出结合微调、CoT和ReConcile的方法，解决SemEval-2024 BRAINTEASER常识推理难题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 常识推理 思维链 零样本学习 语言模型微调 共识机制

📋 核心要点

BRAINTEASER任务旨在评估语言模型的创造性思维能力，现有模型在解决需要“跳出框框”思考的问题时表现不足。
论文核心在于结合微调的BERT/RoBERTa、思维链(CoT)提示以及ReConcile共识机制，提升模型在常识推理任务上的表现。
实验结果表明，该方法在句子谜题子任务上取得了显著效果，最佳模型达到了85%的总体准确率。

📝 摘要（中文）

本文概述了我们在SemEval 2024 Task 9，BRAINTEASER：一项挑战常识的新任务中的方法。该任务旨在评估语言模型进行创造性思考的能力。数据集包含多项选择题，旨在挑战模型“跳出框框”进行思考。我们微调了两个模型，BERT和RoBERTa Large。接下来，我们采用了一种带有6个大型语言模型（例如GPT-3.5，Mixtral和Llama2）的思维链（CoT）零样本提示方法。最后，我们利用ReConcile，一种采用“圆桌会议”方法与多个代理进行零样本学习的技术，以在3个选定的语言模型之间生成共识答案。我们最好的方法在句子谜题子任务上实现了85％的总体准确性。

🔬 方法详解

问题定义：论文旨在解决SemEval 2024 Task 9中的BRAINTEASER任务，该任务要求模型具备创造性思维和常识推理能力。现有方法在处理需要打破常规思维模式的问题时表现不佳，难以有效捕捉问题中的隐含信息和约束条件。

核心思路：论文的核心思路是结合微调、思维链（Chain of Thought, CoT）提示和ReConcile共识机制。通过微调，使模型更好地适应特定任务；利用CoT提示，引导模型逐步推理，模拟人类的思考过程；采用ReConcile机制，整合多个模型的输出，提高答案的可靠性。

技术框架：整体框架包含三个主要阶段：1) 微调阶段：使用BRAINTEASER数据集微调BERT和RoBERTa Large模型，使其初步具备解决该任务的能力。2) CoT提示阶段：使用GPT-3.5、Mixtral和Llama2等大型语言模型，通过零样本CoT提示，引导模型生成推理过程。3) ReConcile共识阶段：选择三个表现较好的语言模型，利用ReConcile技术，让它们通过“圆桌会议”的方式，达成共识，生成最终答案。

关键创新：关键创新在于将微调、CoT提示和ReConcile机制有效结合，充分发挥各自的优势。微调提供基础能力，CoT提示增强推理能力，ReConcile提高答案的鲁棒性。与单独使用某种方法相比，该组合方法能够更好地应对BRAINTEASER任务的挑战。

关键设计：在微调阶段，使用了标准的交叉熵损失函数。在CoT提示阶段，设计了合适的提示语，引导模型进行逐步推理。在ReConcile阶段，采用了“圆桌会议”的机制，让多个模型相互交流，最终达成共识。具体参数设置和模型选择的细节未知，需要在原文中查找。

🖼️ 关键图片

📊 实验亮点

实验结果表明，结合微调、CoT提示和ReConcile机制的方法在BRAINTEASER任务的句子谜题子任务上取得了显著效果，达到了85%的总体准确率。具体与哪些基线方法进行了对比，以及提升幅度未知，需要在原文中查找。

🎯 应用场景

该研究成果可应用于需要创造性思维和常识推理的领域，例如智能问答、故事生成、游戏AI等。通过提升模型在复杂推理任务上的表现，可以提高人工智能系统的智能化水平，使其更好地服务于人类。

📄 摘要（原文）

This paper outlines our approach to SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Sense. The task aims to evaluate the ability of language models to think creatively. The dataset comprises multi-choice questions that challenge models to think "outside of the box". We fine-tune 2 models, BERT and RoBERTa Large. Next, we employ a Chain of Thought (CoT) zero-shot prompting approach with 6 large language models, such as GPT-3.5, Mixtral, and Llama2. Finally, we utilize ReConcile, a technique that employs a "round table conference" approach with multiple agents for zero-shot learning, to generate consensus answers among 3 selected language models. Our best method achieves an overall accuracy of 85 percent on the sentence puzzles subtask.

BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理