Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring
作者: Jiazheng Li, Hainiu Xu, Zhaoyue Sun, Yuxiang Zhou, David West, Cesare Aloisi, Yulan He
分类: cs.CL
发布日期: 2024-06-28 (更新: 2024-10-12)
备注: Accepted at EMNLP 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于思维树偏好优化的LLM校准方法,提升科学问题评分中推理生成质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 思维树 偏好优化 自动评分 可解释性AI
📋 核心要点
- 现有自动评分系统生成的推理缺乏准确性,且性能不如基于分类器的黑盒方法。
- 通过构建思维树模拟人类评估过程,并利用思维树路径生成合成数据进行偏好优化,校准LLM。
- 实验表明,该框架在评估性能上显著提升,并生成了更高质量的推理,优于现有方法。
📝 摘要(中文)
本文提出了一种新颖的框架,旨在生成更可靠的推理,并在自动评分系统中达到与基于分类器的黑盒评分系统相匹配的性能。该框架模拟人类评估过程,通过查询大型语言模型(LLM)生成思维树。然后,从每个思维树路径中总结中间评估决策,以创建合成的推理数据和推理偏好数据。最后,利用生成的合成数据,通过两步训练过程(监督微调和偏好优化)来校准LLM。实验结果表明,与先前工作相比,该框架在QWK评分方面实现了38%的评估性能提升,同时产生了更高质量的推理,这得到了人类评估者和LLM的认可。这项工作揭示了使用从思维树路径获得的合成偏好数据进行偏好优化的有效性。数据和代码可在https://github.com/lijiazheng99/thought_tree_assessment 获取。
🔬 方法详解
问题定义:现有自动评分系统在生成解释性推理时,其准确性不如基于分类器的黑盒方法,并且生成的推理内容经常包含幻觉信息,即与事实不符的内容。这限制了自动评分系统的可信度和应用范围。
核心思路:本文的核心思路是模仿人类的评估过程,通过构建“思维树”来模拟专家在解决问题时的思考路径。然后,利用这些思维树生成高质量的合成数据,用于训练和校准大型语言模型(LLM),使其能够生成更准确、更可靠的推理。
技术框架:该框架包含以下主要阶段:1) 思维树生成:利用LLM生成针对特定问题的思维树,每个节点代表一个中间评估决策。2) 合成数据生成:从思维树的每个路径中提取中间评估决策,生成合成的推理数据和推理偏好数据。3) LLM校准:使用生成的合成数据,通过两步训练过程校准LLM:首先进行监督微调,然后进行偏好优化。
关键创新:该方法最重要的创新点在于利用思维树结构来模拟人类的评估过程,并基于此生成高质量的合成数据,用于LLM的偏好优化。与传统的直接训练LLM生成推理的方法相比,该方法能够更好地控制推理的质量和准确性。
关键设计:在思维树生成阶段,需要仔细设计LLM的prompt,以确保生成的思维树能够覆盖各种可能的推理路径。在偏好优化阶段,需要选择合适的偏好优化算法和损失函数,以有效地利用合成的偏好数据来校准LLM。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在QWK评分方面实现了38%的评估性能提升,显著优于先前工作。此外,人类评估者和LLM都认为该框架生成的推理质量更高,更准确可靠。这些结果验证了基于思维树偏好优化的LLM校准方法的有效性。
🎯 应用场景
该研究成果可应用于各种需要自动评分和解释的场景,例如科学问题评估、作文评分、代码评估等。通过生成高质量的推理,可以提高自动评分系统的可信度和透明度,帮助学生更好地理解评分标准,并为教师提供更有效的教学反馈。该方法还有潜力应用于其他需要可解释性AI的领域。
📄 摘要(原文)
Generating rationales that justify scoring decisions has been a promising way to facilitate explainability in automated scoring systems. However, existing methods do not match the accuracy of classifier-based methods. Plus, the generated rationales often contain hallucinated information. To address these issues, we propose a novel framework capable of generating more faithful rationales and, more importantly, matching performance with classifier-based black-box scoring systems. We first mimic the human assessment process by querying Large Language Models (LLMs) to generate a thought tree. We then summarise intermediate assessment decisions from each thought tree path for creating synthetic rationale data and rationale preference data. Finally, we utilise the generated synthetic data to calibrate LLMs through a two-step training process: supervised fine-tuning and preference optimization. Extensive experimental results demonstrate that our framework achieves a 38% assessment performance improvement in the QWK score compared to prior work while producing higher-quality rationales, as recognised by human evaluators and LLMs. Our work sheds light on the effectiveness of performing preference optimization using synthetic preference data obtained from thought tree paths. Data and code are available at https://github.com/lijiazheng99/thought_tree_assessment.