Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models

📄 arXiv: 2407.08440v4 📥 PDF

作者: Wangtao Sun, Chenxiang Zhang, XueYou Zhang, Xuanqing Yu, Ziyang Huang, Pei Chen, Haotian Xu, Shizhu He, Jun Zhao, Kang Liu

分类: cs.CL, cs.AI

发布日期: 2024-07-11 (更新: 2024-10-17)


💡 一句话要点

RuleBench:评估大语言模型推理规则遵循能力,并提出IRFT进行优化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理规则遵循 基准测试 微调 RuleBench IRFT 指令遵循

📋 核心要点

  1. 现有工作未能有效区分指令遵循和推理规则遵循,导致对LLM真实规则理解能力的评估不足。
  2. 提出RuleBench基准测试,全面评估LLM在多样化推理规则场景下的表现,弥补现有评估方法的空白。
  3. 提出Inferential Rule-Following Tuning (IRFT)方法,利用合成数据提升LLM的推理规则遵循能力,并在RuleBench上验证有效性。

📝 摘要(中文)

大型语言模型(LLMs)展现出强大的能力,但在实际应用中,为了保证安全性、准确性和智能性,需要对其进行控制和引导。这要求LLMs具备推理规则遵循能力。然而,目前还没有工作对LLMs的推理规则遵循能力进行明确的评估。以往的研究未能将推理规则遵循场景与指令遵循场景区分开来。因此,本文首先明确了推理规则遵循的概念,并提出了一个全面的基准测试RuleBench,以评估多样化的推理规则遵循能力。在各种LLMs上的实验结果表明,它们在遵循规则方面仍然存在局限性。基于评估结果的分析,我们为改进LLMs,使其成为更好的推理规则遵循智能体提供了见解。我们进一步提出了推理规则遵循微调(Inferential Rule-Following Tuning, IRFT)。实验结果表明,通过IRFT,LLMs可以从纯粹的合成数据中学习抽象的规则遵循能力,然后推广到RuleBench。数据和代码可在以下网址找到:https://anonymous.4open.science/r/llm-rule-following-B3E3/

🔬 方法详解

问题定义:现有的大语言模型(LLMs)在指令遵循方面表现出色,但在更复杂的推理规则遵循方面仍然存在不足。以往的研究往往将推理规则遵循与指令遵循混淆,无法准确评估LLMs是否真正理解并能应用抽象规则。因此,需要一个专门的基准测试来评估LLMs在推理规则遵循方面的能力,并探索提升这种能力的有效方法。

核心思路:论文的核心思路是首先明确推理规则遵循的概念,然后构建一个能够全面评估LLMs在该方面能力的基准测试RuleBench。基于RuleBench的评估结果,分析LLMs的不足之处,并提出一种微调方法IRFT,利用合成数据来提升LLMs的推理规则遵循能力。这种思路旨在通过更精确的评估和更有针对性的训练,使LLMs能够更好地理解和应用抽象规则。

技术框架:整体框架包含两个主要部分:RuleBench基准测试和IRFT微调方法。RuleBench用于评估LLMs的推理规则遵循能力,它包含多种不同类型的规则和场景。IRFT则利用合成数据对LLMs进行微调,以提升其在RuleBench上的表现。整个流程是先使用RuleBench评估LLMs的初始性能,然后使用IRFT进行微调,最后再次使用RuleBench评估微调后的性能提升。

关键创新:论文的关键创新在于:1) 明确区分了指令遵循和推理规则遵循的概念,并强调了评估LLMs在推理规则遵循方面能力的重要性。2) 构建了一个全面的基准测试RuleBench,涵盖了多种不同类型的规则和场景,能够更全面地评估LLMs的推理规则遵循能力。3) 提出了IRFT微调方法,利用合成数据来提升LLMs的推理规则遵循能力,并在RuleBench上验证了其有效性。

关键设计:RuleBench的设计考虑了规则的多样性,包括逻辑规则、数学规则、常识规则等。IRFT的关键在于合成数据的生成,需要保证数据的质量和多样性,以便LLMs能够学习到抽象的规则。具体的训练细节(如学习率、batch size等)以及损失函数的选择(例如交叉熵损失)需要根据具体的LLM和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的LLMs在RuleBench上的表现仍然有限,表明其推理规则遵循能力有待提高。通过IRFT微调,LLMs在RuleBench上的性能得到了显著提升,证明了IRFT的有效性。具体性能数据和提升幅度在论文中进行了详细展示,并与基线模型进行了对比。

🎯 应用场景

该研究成果可应用于需要LLM进行复杂推理和决策的领域,例如智能客服、自动驾驶、法律咨询等。通过提升LLM的推理规则遵循能力,可以使其在这些领域中更加可靠和安全,并减少错误决策的风险。未来,该研究可以进一步扩展到更复杂的规则和场景,并探索更有效的微调方法。

📄 摘要(原文)

Although Large Language Models (LLMs) have demonstrated strong ability, they are further supposed to be controlled and guided by in real-world scenarios to be safe, accurate, and intelligent. This demands the possession of capability of LLMs. However, no prior work has made a clear evaluation of the inferential rule-following capability of LLMs. Previous studies that try to evaluate the inferential rule-following capability of LLMs fail to distinguish the inferential rule-following scenarios from the instruction-following scenarios. Therefore, this paper first clarifies the concept of inferential rule-following and proposes a comprehensive benchmark, RuleBench, to evaluate a diversified range of inferential rule-following abilities. Our experimental results on a variety of LLMs show that they are still limited in following rules. Our analysis based on the evaluation results provides insights into the improvements for LLMs toward a better inferential rule-following intelligent agent. We further propose Inferential Rule-Following Tuning (IRFT). The experimental results show that through IRFT, LLMs can learn abstract rule-following abilities from purely synthetic data and then generalize to RuleBench. The data and code can be found at: https://anonymous.4open.science/r/llm-rule-following-B3E3/