Teaching AI to Handle Exceptions: Supervised Fine-Tuning with Human-Aligned Judgment

📄 arXiv: 2503.02976v2 📥 PDF

作者: Matthew DosSantos DiSorbo, Harang Ju, Sinan Aral

分类: cs.AI

发布日期: 2025-03-04 (更新: 2025-09-30)


💡 一句话要点

通过监督式微调与人类对齐判断,提升AI处理异常情况的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 异常处理 监督式微调 人类对齐 决策解释

📋 核心要点

  1. 大型语言模型在处理异常情况时,即使擅长推理,也常常偏离人类判断,因为它们过于严格地遵循预设策略。
  2. 论文提出通过监督式微调,特别是利用人类解释进行训练,来提升AI代理处理异常情况并与人类判断对齐的能力。
  3. 实验表明,相比伦理框架提示和思维链推理,监督式微调能显著提升模型性能,并实现跨场景的人类对齐决策迁移学习。

📝 摘要(中文)

大型语言模型(LLMs)最初是为生成式AI开发的,现在正演变为具有自主决策能力的AI系统,在复杂的现实环境中做出决策。然而,虽然它们的生成能力已被充分记录,但它们的决策过程仍然知之甚少。当测试有针对性的决策时,这一点尤其明显:例如,模型如何处理异常情况,这是决策的一个关键且具有挑战性的方面,因为合同本身就存在不完整性。我们证明,即使是擅长推理的LLM,也会显著偏离人类的判断,因为它们严格遵守策略,即使这种遵守是不切实际的、次优的,甚至是适得其反的。然后,我们评估了三种调整AI代理以处理异常情况的方法:伦理框架提示、思维链推理和监督式微调。我们发现,伦理框架提示失败,思维链提示仅提供轻微的改进,而监督式微调——特别是使用人类解释——产生了明显更好的结果。令人惊讶的是,在我们的实验中,监督式微调甚至使模型能够将类似人类的决策推广到新的场景,展示了跨环境的人类对齐决策的迁移学习。此外,使用解释而不仅仅是标签进行微调对于对齐至关重要,这表明使LLM与人类判断对齐需要对决策的制定方式进行明确的训练,而不仅仅是对做出哪些决策进行训练。这些发现强调了解决LLM在处理异常方面的不足的必要性,以便引导自主AI的发展,使其能够有效地与人类判断对齐,并同时适应新的环境。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在处理异常情况时,无法有效对齐人类判断的问题。现有方法,如直接应用预设策略,会导致模型在不切实际或适得其反的情况下仍然严格遵守,缺乏灵活性和适应性。这在合同等存在不完整性的场景中尤为突出。

核心思路:论文的核心思路是通过监督式微调,使LLM能够学习人类处理异常情况的决策模式。关键在于不仅提供决策标签,还提供人类做出决策的解释,从而让模型理解决策背后的逻辑和原因,而不仅仅是结果。

技术框架:论文采用监督式微调框架。首先,构建包含异常情况和对应人类决策及解释的数据集。然后,使用该数据集对预训练的LLM进行微调。微调过程中,模型学习将输入(异常情况描述)映射到输出(人类决策),并生成相应的解释。

关键创新:论文的关键创新在于强调了人类解释在微调过程中的重要性。传统的监督式学习通常只关注标签,而忽略了决策过程。通过引入人类解释,模型能够更好地理解决策背后的逻辑,从而提高泛化能力和对齐效果。

关键设计:论文使用了包含人类解释的数据集进行微调。具体的技术细节包括:选择合适的预训练LLM作为基础模型,设计合适的损失函数来同时优化决策和解释的生成,以及探索不同的微调策略(例如,冻结部分模型参数)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,相比伦理框架提示和思维链推理,监督式微调能够显著提升模型在处理异常情况时的性能。更重要的是,使用人类解释进行微调,不仅提高了模型在已知场景下的准确率,还使其能够将人类决策模式泛化到新的场景,实现了跨环境的迁移学习。这表明,人类解释对于模型理解决策逻辑至关重要。

🎯 应用场景

该研究成果可应用于各种需要AI进行决策的场景,例如智能客服、法律咨询、金融风控等。通过提升AI处理异常情况的能力,可以使其更好地适应复杂多变的环境,做出更符合人类价值观和利益的决策,从而提高工作效率和用户满意度。未来,该研究有望推动自主AI的发展,使其更加可靠和值得信赖。

📄 摘要(原文)

Large language models (LLMs), initially developed for generative AI, are now evolving into agentic AI systems, which make decisions in complex, real-world contexts. Unfortunately, while their generative capabilities are well-documented, their decision-making processes remain poorly understood. This is particularly evident when testing targeted decision-making: for instance, how models handle exceptions, a critical and challenging aspect of decision-making made relevant by the inherent incompleteness of contracts. Here we demonstrate that LLMs, even ones that excel at reasoning, deviate significantly from human judgments because they adhere strictly to policies, even when such adherence is impractical, suboptimal, or even counterproductive. We then evaluate three approaches to tuning AI agents to handle exceptions: ethical framework prompting, chain-of-thought reasoning, and supervised fine-tuning. We find that while ethical framework prompting fails and chain-of-thought prompting provides only slight improvements, supervised fine-tuning - specifically with human explanations - yields markedly better results. Surprisingly, in our experiments, supervised fine-tuning even enabled models to generalize human-like decision-making to novel scenarios, demonstrating transfer learning of human-aligned decision-making across contexts. Furthermore, fine-tuning with explanations, not just labels, was critical for alignment, suggesting that aligning LLMs with human judgment requires explicit training on how decisions are made, not just which decisions are made. These findings highlight the need to address LLMs' shortcomings in handling exceptions in order to guide the development of agentic AI toward models that can effectively align with human judgment and simultaneously adapt to novel contexts.