Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time

作者: Mohamad Chehade, Soumya Suvra Ghosal, Souradip Chakraborty, Avinash Reddy, Dinesh Manocha, Hao Zhu, Amrit Singh Bedi

分类: cs.CL, cs.AI

发布日期: 2025-05-29 (更新: 2025-05-31)

备注: Accepted at ICML 2025

💡 一句话要点

提出SITAlign，通过满意策略在推理时对齐LLM，提升多目标对齐效果。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM对齐 有限理性 满意策略 多目标优化 推理时对齐

📋 核心要点

现有LLM对齐方法忽略了人类决策的有限理性，未能有效处理多目标优化中的偏好冲突。
SITAlign通过最大化主要目标，并满足次要目标的阈值约束，模拟人类的满意决策策略。
实验表明，SITAlign在保证安全性的前提下，显著提升了LLM的helpfulness，优于现有方法。

📝 摘要（中文）

由于偏好反馈固有的多面性，将大型语言模型与人类对齐极具挑战性。现有方法通常将其视为多目标优化问题，但往往忽略了人类实际的决策方式。有限理性研究表明，人类决策遵循满意策略——优化主要目标，同时确保其他目标满足可接受的阈值。为了弥合这一差距并实现满意对齐的概念，我们提出了SITAlign：一个推理时框架，通过最大化主要目标，同时满足基于阈值的次要标准约束，来解决对齐的多面性。我们通过推导基于满意度的推理对齐方法的次优性界限，提供了理论见解。我们通过在多个基准上的大量实验，验证了SITAlign的性能。例如，在PKU-SafeRLHF数据集上，以最大化helpfulness为主要目标，同时确保harmlessness达到阈值，SITAlign在GPT-4 win-tie率方面，比最先进的多目标解码策略提高了22.3%。

🔬 方法详解

问题定义：现有的大型语言模型对齐方法，通常将人类偏好建模为多目标优化问题。然而，这种方法忽略了人类决策的有限理性，即人类通常不会追求全局最优，而是采用“满意”策略，在满足一定约束的前提下，尽可能优化主要目标。现有方法难以有效处理多个目标之间的冲突，并且可能导致在某些关键指标上表现不佳。

核心思路：SITAlign的核心思路是模拟人类的“满意”决策过程。它将LLM的对齐问题分解为：首先，确定一个主要目标（例如，helpfulness）；然后，为其他次要目标（例如，harmlessness）设定可接受的阈值。在推理过程中，SITAlign的目标是在满足所有次要目标阈值的前提下，尽可能地最大化主要目标。

技术框架：SITAlign是一个推理时框架，不需要重新训练模型。其主要流程如下：1) 目标定义：明确主要目标和次要目标，并为次要目标设定阈值。2) 生成候选回复：使用LLM生成多个候选回复。3) 评估与过滤：使用评估模型（例如，奖励模型）评估每个候选回复在各个目标上的得分，并过滤掉不满足次要目标阈值的回复。4) 选择最优回复：在满足阈值约束的候选回复中，选择在主要目标上得分最高的回复。

关键创新：SITAlign的关键创新在于其将人类的“满意”决策策略引入到LLM的对齐过程中。与传统的追求全局最优的多目标优化方法不同，SITAlign更加关注在满足基本约束的前提下，尽可能地提升主要目标。这种方法更符合人类的实际决策行为，并且能够有效地解决多目标之间的冲突。

关键设计：SITAlign的关键设计包括：1) 阈值设定：如何合理地设定次要目标的阈值，需要在helpfulness和harmlessness之间进行权衡。2) 评估模型：评估模型的准确性直接影响SITAlign的性能。可以使用现有的奖励模型，也可以训练专门的评估模型。3) 搜索策略：如何高效地搜索满足阈值约束的候选回复，可以使用不同的搜索算法。

🖼️ 关键图片

📊 实验亮点

在PKU-SafeRLHF数据集上，SITAlign在最大化helpfulness的同时，保证harmlessness达到阈值。实验结果表明，SITAlign在GPT-4 win-tie率方面，比最先进的多目标解码策略提高了22.3%。这表明SITAlign能够有效地平衡多个目标，并在保证安全性的前提下，显著提升LLM的helpfulness。

🎯 应用场景

SITAlign可应用于各种需要对齐LLM的应用场景，例如安全对话系统、负责任的AI助手等。通过确保LLM在满足安全、道德等约束的前提下，提供有用的信息和服务，SITAlign有助于构建更加可信赖和负责任的AI系统，并降低LLM产生有害或不当内容的风险。该方法还可推广到其他多目标优化问题，提升决策效率和用户满意度。

📄 摘要（原文）

Aligning large language models with humans is challenging due to the inherently multifaceted nature of preference feedback. While existing approaches typically frame this as a multi-objective optimization problem, they often overlook how humans actually make decisions. Research on bounded rationality suggests that human decision making follows satisficing strategies-optimizing primary objectives while ensuring others meet acceptable thresholds. To bridge this gap and operationalize the notion of satisficing alignment, we propose SITAlign: an inference time framework that addresses the multifaceted nature of alignment by maximizing a primary objective while satisfying threshold-based constraints on secondary criteria. We provide theoretical insights by deriving sub-optimality bounds of our satisficing based inference alignment approach. We empirically validate SITAlign's performance through extensive experimentation on multiple benchmarks. For instance, on the PKU-SafeRLHF dataset with the primary objective of maximizing helpfulness while ensuring a threshold on harmlessness, SITAlign outperforms the state-of-the-art multi objective decoding strategy by a margin of 22.3% in terms of GPT-4 win-tie rate for helpfulness reward while adhering to the threshold on harmlessness.

Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理