Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time
作者: Mohamad Chehade, Soumya Suvra Ghosal, Souradip Chakraborty, Avinash Reddy, Dinesh Manocha, Hao Zhu, Amrit Singh Bedi
分类: cs.CL, cs.AI
发布日期: 2025-05-29 (更新: 2025-05-31)
备注: Accepted at ICML 2025
💡 一句话要点
提出SITAlign,通过满意策略在推理时对齐LLM,提升多目标对齐效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM对齐 有限理性 满意策略 多目标优化 推理时对齐
📋 核心要点
- 现有LLM对齐方法忽略了人类决策的有限理性,未能有效处理多目标优化中的偏好冲突。
- SITAlign通过最大化主要目标,并满足次要目标的阈值约束,模拟人类的满意决策策略。
- 实验表明,SITAlign在保证安全性的前提下,显著提升了LLM的helpfulness,优于现有方法。
📝 摘要(中文)
由于偏好反馈固有的多面性,将大型语言模型与人类对齐极具挑战性。现有方法通常将其视为多目标优化问题,但往往忽略了人类实际的决策方式。有限理性研究表明,人类决策遵循满意策略——优化主要目标,同时确保其他目标满足可接受的阈值。为了弥合这一差距并实现满意对齐的概念,我们提出了SITAlign:一个推理时框架,通过最大化主要目标,同时满足基于阈值的次要标准约束,来解决对齐的多面性。我们通过推导基于满意度的推理对齐方法的次优性界限,提供了理论见解。我们通过在多个基准上的大量实验,验证了SITAlign的性能。例如,在PKU-SafeRLHF数据集上,以最大化helpfulness为主要目标,同时确保harmlessness达到阈值,SITAlign在GPT-4 win-tie率方面,比最先进的多目标解码策略提高了22.3%。
🔬 方法详解
问题定义:现有的大型语言模型对齐方法,通常将人类偏好建模为多目标优化问题。然而,这种方法忽略了人类决策的有限理性,即人类通常不会追求全局最优,而是采用“满意”策略,在满足一定约束的前提下,尽可能优化主要目标。现有方法难以有效处理多个目标之间的冲突,并且可能导致在某些关键指标上表现不佳。
核心思路:SITAlign的核心思路是模拟人类的“满意”决策过程。它将LLM的对齐问题分解为:首先,确定一个主要目标(例如,helpfulness);然后,为其他次要目标(例如,harmlessness)设定可接受的阈值。在推理过程中,SITAlign的目标是在满足所有次要目标阈值的前提下,尽可能地最大化主要目标。
技术框架:SITAlign是一个推理时框架,不需要重新训练模型。其主要流程如下:1) 目标定义:明确主要目标和次要目标,并为次要目标设定阈值。2) 生成候选回复:使用LLM生成多个候选回复。3) 评估与过滤:使用评估模型(例如,奖励模型)评估每个候选回复在各个目标上的得分,并过滤掉不满足次要目标阈值的回复。4) 选择最优回复:在满足阈值约束的候选回复中,选择在主要目标上得分最高的回复。
关键创新:SITAlign的关键创新在于其将人类的“满意”决策策略引入到LLM的对齐过程中。与传统的追求全局最优的多目标优化方法不同,SITAlign更加关注在满足基本约束的前提下,尽可能地提升主要目标。这种方法更符合人类的实际决策行为,并且能够有效地解决多目标之间的冲突。
关键设计:SITAlign的关键设计包括:1) 阈值设定:如何合理地设定次要目标的阈值,需要在helpfulness和harmlessness之间进行权衡。2) 评估模型:评估模型的准确性直接影响SITAlign的性能。可以使用现有的奖励模型,也可以训练专门的评估模型。3) 搜索策略:如何高效地搜索满足阈值约束的候选回复,可以使用不同的搜索算法。
🖼️ 关键图片
📊 实验亮点
在PKU-SafeRLHF数据集上,SITAlign在最大化helpfulness的同时,保证harmlessness达到阈值。实验结果表明,SITAlign在GPT-4 win-tie率方面,比最先进的多目标解码策略提高了22.3%。这表明SITAlign能够有效地平衡多个目标,并在保证安全性的前提下,显著提升LLM的helpfulness。
🎯 应用场景
SITAlign可应用于各种需要对齐LLM的应用场景,例如安全对话系统、负责任的AI助手等。通过确保LLM在满足安全、道德等约束的前提下,提供有用的信息和服务,SITAlign有助于构建更加可信赖和负责任的AI系统,并降低LLM产生有害或不当内容的风险。该方法还可推广到其他多目标优化问题,提升决策效率和用户满意度。
📄 摘要(原文)
Aligning large language models with humans is challenging due to the inherently multifaceted nature of preference feedback. While existing approaches typically frame this as a multi-objective optimization problem, they often overlook how humans actually make decisions. Research on bounded rationality suggests that human decision making follows satisficing strategies-optimizing primary objectives while ensuring others meet acceptable thresholds. To bridge this gap and operationalize the notion of satisficing alignment, we propose SITAlign: an inference time framework that addresses the multifaceted nature of alignment by maximizing a primary objective while satisfying threshold-based constraints on secondary criteria. We provide theoretical insights by deriving sub-optimality bounds of our satisficing based inference alignment approach. We empirically validate SITAlign's performance through extensive experimentation on multiple benchmarks. For instance, on the PKU-SafeRLHF dataset with the primary objective of maximizing helpfulness while ensuring a threshold on harmlessness, SITAlign outperforms the state-of-the-art multi objective decoding strategy by a margin of 22.3% in terms of GPT-4 win-tie rate for helpfulness reward while adhering to the threshold on harmlessness.