Multi-Domain Explainability of Preferences

📄 arXiv: 2505.20088v2 📥 PDF

作者: Nitay Calderon, Liat Ein-Dor, Roi Reichart

分类: cs.CL

发布日期: 2025-05-26 (更新: 2025-05-29)


💡 一句话要点

提出多领域偏好可解释性方法,提升LLM对人类偏好的理解与对齐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好学习 可解释性AI 大型语言模型 多领域学习 概念提取

📋 核心要点

  1. 现有偏好机制(如人类偏好、LaaJ)在对齐LLM时缺乏对潜在驱动概念的深入理解。
  2. 提出一种全自动方法,利用LLM识别关键概念,并构建分层多域回归模型来解释偏好。
  3. 实验表明,该方法在偏好预测上优于基线,并能有效指导LLM生成更符合偏好的内容。

📝 摘要(中文)

偏好机制,如人类偏好、LLM-as-a-Judge (LaaJ) 和奖励模型,对于对齐和评估大型语言模型 (LLM) 至关重要。然而,驱动这些偏好的潜在概念仍然知之甚少。本文提出了一种全自动方法,用于生成跨多个领域的局部和全局的基于概念的偏好解释。该方法利用 LLM 来识别区分选择和拒绝响应的概念,并用基于概念的向量来表示它们。为了建模概念与偏好之间的关系,我们提出了一种白盒分层多域回归模型,该模型同时捕获领域通用和领域特定的影响。为了评估我们的方法,我们整理了一个包含八个具有挑战性和多样化领域的数集,并解释了十二种机制。我们的方法实现了强大的偏好预测性能,优于基线方法,同时具有可解释性。此外,我们在两个应用驱动的设置中评估了解释。首先,用来自 LaaJ 解释的概念指导 LLM 输出,产生那些 judges 一致偏好的响应。其次,用解释人类的概念提示 LaaJ 可以提高他们的偏好预测。总而言之,我们的工作为 LLM 时代的可解释性建立了一个新的范例。

🔬 方法详解

问题定义:现有的大型语言模型对齐和评估依赖于偏好机制,但这些机制背后的驱动因素(即概念)缺乏清晰的理解。现有方法难以提供跨多个领域的可解释性,无法深入了解不同偏好机制的内在逻辑。这阻碍了我们对人类偏好以及如何有效对齐LLM的理解。

核心思路:本研究的核心思路是利用大型语言模型本身来识别和提取驱动偏好的关键概念。通过分析被选择和被拒绝的响应之间的差异,LLM可以自动发现影响偏好的潜在因素。然后,使用这些概念构建可解释的模型,从而揭示偏好机制的内在运作方式。

技术框架:该方法包含以下主要步骤:1) 数据收集:构建包含多个领域的偏好数据集,每个数据点包含被选择和被拒绝的响应。2) 概念识别:使用LLM分析被选择和被拒绝的响应,提取区分它们的关键概念。3) 概念表示:将提取的概念表示为向量,以便进行量化分析。4) 偏好建模:构建一个分层多域回归模型,该模型以概念向量为输入,预测偏好得分。该模型能够同时捕捉领域通用和领域特定的影响。

关键创新:该方法最重要的创新点在于其全自动化的概念提取和偏好建模流程。与以往需要人工标注或领域专家知识的方法不同,该方法能够利用LLM自动发现和表示关键概念,从而实现跨多个领域的可解释性。此外,分层多域回归模型能够有效捕捉不同领域之间的共性和差异,提高了偏好预测的准确性和可解释性。

关键设计:在概念识别阶段,使用了特定的prompt工程来引导LLM提取与偏好相关的概念。分层多域回归模型采用了分层结构,允许模型学习领域通用和领域特定的参数。损失函数的设计旨在最大化偏好预测的准确性,同时鼓励模型学习具有可解释性的概念表示。具体的参数设置和网络结构细节在论文中有详细描述,但此处未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该方法在八个不同领域的数据集上实现了强大的偏好预测性能,优于现有的基线方法。此外,通过使用该方法提取的概念指导LLM生成内容,可以显著提高生成内容被人类或LaaJ偏好的概率。例如,使用LaaJ解释的概念指导LLM输出,能产生LaaJ更喜欢的回答。

🎯 应用场景

该研究成果可应用于多个领域,例如:改进LLM的对齐过程,使其更好地理解和满足人类偏好;开发更可靠的LLM评估指标,减少偏见和不公平现象;构建个性化推荐系统,根据用户的偏好提供更精准的服务;以及提升人机交互的自然性和有效性,使LLM能够更好地理解用户的意图。

📄 摘要(原文)

Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and reward models, are central to aligning and evaluating large language models (LLMs). Yet, the underlying concepts that drive these preferences remain poorly understood. In this work, we propose a fully automated method for generating local and global concept-based explanations of preferences across multiple domains. Our method utilizes an LLM to identify concepts that distinguish between chosen and rejected responses, and to represent them with concept-based vectors. To model the relationships between concepts and preferences, we propose a white-box Hierarchical Multi-Domain Regression model that captures both domain-general and domain-specific effects. To evaluate our method, we curate a dataset spanning eight challenging and diverse domains and explain twelve mechanisms. Our method achieves strong preference prediction performance, outperforming baselines while also being explainable. Additionally, we assess explanations in two application-driven settings. First, guiding LLM outputs with concepts from LaaJ explanations yields responses that those judges consistently prefer. Second, prompting LaaJs with concepts explaining humans improves their preference predictions. Together, our work establishes a new paradigm for explainability in the era of LLMs.