Would a Large Language Model Pay Extra for a View? Inferring Willingness to Pay from Subjective Choices
作者: Manon Reusens, Sofie Goethals, Toon Calders, David Martens
分类: cs.AI, cs.CL
发布日期: 2026-02-10
💡 一句话要点
利用大语言模型进行主观选择偏好推断,评估其支付意愿
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 支付意愿 主观选择 决策支持 多项Logit模型
📋 核心要点
- 现有方法难以准确模拟用户主观偏好,尤其是在旅行助手等需要权衡利弊的场景中。
- 论文提出利用多项Logit模型,从大语言模型的选择行为中推断其隐含的支付意愿(WTP)。
- 实验表明,大型LLM可以推导出有意义的WTP值,但存在系统性偏差,且倾向于高估人类的WTP。
📝 摘要(中文)
随着大语言模型(LLMs)越来越多地应用于旅行助手和购物支持等应用中,它们经常需要在没有客观正确答案的情况下代表用户做出主观选择。本文研究了LLM在旅行助手场景下的决策过程,通过向模型展示选择困境,并使用多项Logit模型分析其响应,从而得出隐含的支付意愿(WTP)估计。然后,将这些WTP值与经济学文献中的人类基准值进行比较。除了基线设置外,本文还研究了在更实际的条件下,包括提供有关用户过去选择的信息和基于角色的提示,模型行为如何变化。结果表明,虽然可以为较大的LLM推导出有意义的WTP值,但它们在属性级别也表现出系统性的偏差。此外,它们倾向于高估人类的总体WTP,尤其是在引入昂贵的选项或以业务为导向的角色时。对模型进行先前对较便宜选项的偏好进行调节,可以得到更接近人类基准的估值。总的来说,本文的研究结果突出了使用LLM进行主观决策支持的潜力和局限性,并强调了在实践中部署此类系统时,仔细选择模型、提示设计和用户表示的重要性。
🔬 方法详解
问题定义:论文旨在解决如何利用大语言模型(LLMs)在主观选择场景中模拟人类的支付意愿(WTP)问题。现有方法在处理此类问题时,难以捕捉到人类决策中的细微差别和偏好,尤其是在涉及权衡不同属性(如价格、位置、便利性)时。现有方法缺乏对LLM决策过程的深入理解,以及如何将其与人类行为进行有效对齐的机制。
核心思路:论文的核心思路是通过分析LLM在特定选择困境中的行为,反推出其隐含的WTP。具体来说,通过构建一系列包含不同选项(例如,不同价格和位置的酒店)的选择题,并观察LLM的选择倾向。然后,利用多项Logit模型,将LLM的选择概率映射到其对不同属性的偏好程度,从而估计其WTP。这种方法的核心在于将LLM视为一个“理性”决策者,并假设其选择行为反映了其内在的价值判断。
技术框架:整体框架包括以下几个主要阶段:1) 数据收集:构建包含多个选择困境的数据集,每个困境包含多个选项,每个选项具有不同的属性(如价格、位置)。2) 模型推理:将数据集输入到LLM中,并记录LLM对每个选项的选择概率。3) WTP估计:使用多项Logit模型,将LLM的选择概率映射到其对不同属性的偏好程度,从而估计其WTP。4) 结果分析:将LLM的WTP估计与人类基准值进行比较,分析LLM的偏差和局限性。
关键创新:论文的关键创新在于将经济学中的WTP概念引入到LLM的评估中,并提出了一种基于多项Logit模型的方法来估计LLM的WTP。与传统的评估方法相比,该方法能够更深入地了解LLM的决策过程,并揭示其在主观选择方面的偏差和局限性。此外,论文还探索了在更实际的条件下(例如,提供用户历史偏好信息、使用基于角色的提示)LLM的行为变化,从而为LLM在实际应用中的部署提供了有价值的指导。
关键设计:论文的关键设计包括:1) 选择困境的设计:精心设计选择困境,确保选项之间的差异能够有效揭示LLM对不同属性的偏好。2) 多项Logit模型的选择:选择多项Logit模型作为WTP估计的基础,因为它能够有效地处理多个选项之间的选择问题,并提供对不同属性偏好程度的量化估计。3) 用户历史偏好信息的引入:通过提供用户历史偏好信息,模拟更真实的决策场景,并观察LLM如何利用这些信息来调整其选择行为。4) 基于角色的提示的使用:通过使用基于角色的提示,引导LLM扮演不同的角色(例如,商务人士、度假者),并观察其选择行为如何受到角色设定的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,大型LLM可以推导出有意义的WTP值,但存在系统性偏差,尤其是在属性级别。LLM倾向于高估人类的总体WTP,尤其是在引入昂贵的选项或以业务为导向的角色时。通过对模型进行先前对较便宜选项的偏好进行调节,可以得到更接近人类基准的估值。例如,在提供用户历史偏好信息后,LLM的WTP估计更接近人类基准。
🎯 应用场景
该研究成果可应用于提升智能助手、推荐系统和个性化服务的决策能力。通过更准确地理解用户的主观偏好和支付意愿,可以为用户提供更贴合需求的建议和选择,例如在旅游规划、商品推荐和金融产品选择等领域。未来,该研究可进一步探索如何利用LLM进行更复杂的主观决策,并将其应用于更广泛的领域。
📄 摘要(原文)
As Large Language Models (LLMs) are increasingly deployed in applications such as travel assistance and purchasing support, they are often required to make subjective choices on behalf of users in settings where no objectively correct answer exists. We study LLM decision-making in a travel-assistant context by presenting models with choice dilemmas and analyzing their responses using multinomial logit models to derive implied willingness to pay (WTP) estimates. These WTP values are subsequently compared to human benchmark values from the economics literature. In addition to a baseline setting, we examine how model behavior changes under more realistic conditions, including the provision of information about users' past choices and persona-based prompting. Our results show that while meaningful WTP values can be derived for larger LLMs, they also display systematic deviations at the attribute level. Additionally, they tend to overestimate human WTP overall, particularly when expensive options or business-oriented personas are introduced. Conditioning models on prior preferences for cheaper options yields valuations that are closer to human benchmarks. Overall, our findings highlight both the potential and the limitations of using LLMs for subjective decision support and underscore the importance of careful model selection, prompt design, and user representation when deploying such systems in practice.