BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense
作者: Baktash Ansari, Mohammadmostafa Rostamkhani, Sauleh Eetemadi
分类: cs.CL
发布日期: 2024-06-07
备注: 9 pages, 8 tables, 5 figures
💡 一句话要点
BAMO团队提出结合微调、CoT和ReConcile的方法,解决SemEval-2024 BRAINTEASER常识推理难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 常识推理 思维链 零样本学习 语言模型微调 共识机制
📋 核心要点
- BRAINTEASER任务旨在评估语言模型的创造性思维能力,现有模型在解决需要“跳出框框”思考的问题时表现不足。
- 论文核心在于结合微调的BERT/RoBERTa、思维链(CoT)提示以及ReConcile共识机制,提升模型在常识推理任务上的表现。
- 实验结果表明,该方法在句子谜题子任务上取得了显著效果,最佳模型达到了85%的总体准确率。
📝 摘要(中文)
本文概述了我们在SemEval 2024 Task 9,BRAINTEASER:一项挑战常识的新任务中的方法。该任务旨在评估语言模型进行创造性思考的能力。数据集包含多项选择题,旨在挑战模型“跳出框框”进行思考。我们微调了两个模型,BERT和RoBERTa Large。接下来,我们采用了一种带有6个大型语言模型(例如GPT-3.5,Mixtral和Llama2)的思维链(CoT)零样本提示方法。最后,我们利用ReConcile,一种采用“圆桌会议”方法与多个代理进行零样本学习的技术,以在3个选定的语言模型之间生成共识答案。我们最好的方法在句子谜题子任务上实现了85%的总体准确性。
🔬 方法详解
问题定义:论文旨在解决SemEval 2024 Task 9中的BRAINTEASER任务,该任务要求模型具备创造性思维和常识推理能力。现有方法在处理需要打破常规思维模式的问题时表现不佳,难以有效捕捉问题中的隐含信息和约束条件。
核心思路:论文的核心思路是结合微调、思维链(Chain of Thought, CoT)提示和ReConcile共识机制。通过微调,使模型更好地适应特定任务;利用CoT提示,引导模型逐步推理,模拟人类的思考过程;采用ReConcile机制,整合多个模型的输出,提高答案的可靠性。
技术框架:整体框架包含三个主要阶段:1) 微调阶段:使用BRAINTEASER数据集微调BERT和RoBERTa Large模型,使其初步具备解决该任务的能力。2) CoT提示阶段:使用GPT-3.5、Mixtral和Llama2等大型语言模型,通过零样本CoT提示,引导模型生成推理过程。3) ReConcile共识阶段:选择三个表现较好的语言模型,利用ReConcile技术,让它们通过“圆桌会议”的方式,达成共识,生成最终答案。
关键创新:关键创新在于将微调、CoT提示和ReConcile机制有效结合,充分发挥各自的优势。微调提供基础能力,CoT提示增强推理能力,ReConcile提高答案的鲁棒性。与单独使用某种方法相比,该组合方法能够更好地应对BRAINTEASER任务的挑战。
关键设计:在微调阶段,使用了标准的交叉熵损失函数。在CoT提示阶段,设计了合适的提示语,引导模型进行逐步推理。在ReConcile阶段,采用了“圆桌会议”的机制,让多个模型相互交流,最终达成共识。具体参数设置和模型选择的细节未知,需要在原文中查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,结合微调、CoT提示和ReConcile机制的方法在BRAINTEASER任务的句子谜题子任务上取得了显著效果,达到了85%的总体准确率。具体与哪些基线方法进行了对比,以及提升幅度未知,需要在原文中查找。
🎯 应用场景
该研究成果可应用于需要创造性思维和常识推理的领域,例如智能问答、故事生成、游戏AI等。通过提升模型在复杂推理任务上的表现,可以提高人工智能系统的智能化水平,使其更好地服务于人类。
📄 摘要(原文)
This paper outlines our approach to SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Sense. The task aims to evaluate the ability of language models to think creatively. The dataset comprises multi-choice questions that challenge models to think "outside of the box". We fine-tune 2 models, BERT and RoBERTa Large. Next, we employ a Chain of Thought (CoT) zero-shot prompting approach with 6 large language models, such as GPT-3.5, Mixtral, and Llama2. Finally, we utilize ReConcile, a technique that employs a "round table conference" approach with multiple agents for zero-shot learning, to generate consensus answers among 3 selected language models. Our best method achieves an overall accuracy of 85 percent on the sentence puzzles subtask.