Can large language models assist choice modelling? Insights into prompting strategies and current models capabilities

📄 arXiv: 2507.21790v1 📥 PDF

作者: Georges Sfeir, Gabriel Nova, Stephane Hess, Sander van Cranenburgh

分类: econ.EM, cs.AI

发布日期: 2025-07-29

备注: 32 pages, 6 figures, 14 tables


💡 一句话要点

探索大语言模型在选择建模中的应用:提示策略与模型能力分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 选择建模 多项Logit模型 提示工程 模型规范 行为建模 人工智能辅助 自动化建模

📋 核心要点

  1. 现有选择建模方法在模型规范制定和估计方面存在挑战,需要更高效的辅助工具。
  2. 论文探索利用大语言模型作为辅助工具,通过不同的提示策略和信息输入,辅助多项Logit模型的构建。
  3. 实验结果表明,特定的大语言模型在生成有效模型规范方面具有潜力,尤其是在结构化提示下,但开源模型表现较弱。

📝 摘要(中文)

本文探讨了大语言模型(LLMs)在选择建模中作为辅助工具的潜力,尤其是在多项Logit模型(MNL)的规范制定和估计方面。通过系统性实验,评估了六个主流LLMs(ChatGPT、Claude、DeepSeek、Gemini、Gemma和Llama)的13个版本在五种实验配置下的表现。这些配置在建模目标(建议模型 vs. 建议并估计MNL)、提示策略(零样本 vs. 思维链)和信息可用性(完整数据集 vs. 数据字典)三个维度上有所不同。每个LLM建议的模型规范都经过实施、估计和评估,评估指标包括拟合优度、行为合理性和模型复杂度。结果表明,专有LLMs能够生成有效且行为合理的效用规范,尤其是在结构化提示的指导下。开源模型如Llama和Gemma难以产生有意义的规范。Claude 4 Sonnet始终产生最佳拟合和最复杂的模型,而GPT模型建议的模型具有稳健和稳定的建模结果。部分LLMs在仅提供数据字典时表现更好,表明限制原始数据访问可能增强内部推理能力。在所有LLMs中,GPT o3是唯一能够通过执行自生成代码正确估计其自身规范的模型。总体而言,结果表明LLMs作为选择建模辅助工具的潜力和当前局限性,不仅用于模型规范,还用于支持建模决策和估计,并为将这些工具集成到选择建模人员的工作流程中提供了实用指导。

🔬 方法详解

问题定义:论文旨在解决选择建模中模型规范制定和估计效率低下的问题。现有方法依赖人工经验,耗时且容易出错。论文探索利用大语言模型自动或半自动地生成和评估模型规范,以提高建模效率和质量。

核心思路:论文的核心思路是利用大语言模型的强大语言理解和生成能力,通过不同的提示策略引导LLM生成合理的模型规范,并评估其性能。通过比较不同LLM在不同配置下的表现,分析LLM在选择建模中的优势和局限性。

技术框架:整体框架包括以下几个阶段:1) 选择LLM和实验配置;2) 根据实验配置,设计提示策略,输入LLM;3) LLM生成模型规范或代码;4) 根据生成的规范,估计模型参数;5) 评估模型性能,包括拟合优度、行为合理性和模型复杂度。

关键创新:论文的关键创新在于系统性地评估了多种LLM在选择建模中的应用潜力,并分析了不同提示策略和信息输入对LLM性能的影响。此外,论文还探讨了LLM自动生成和执行代码以估计模型参数的可能性。

关键设计:实验配置包括:1) 建模目标:建议模型 vs. 建议并估计MNL;2) 提示策略:零样本 vs. 思维链;3) 信息可用性:完整数据集 vs. 数据字典。评估指标包括:拟合优度(如对数似然值)、行为合理性(如参数符号是否符合预期)和模型复杂度(如参数数量)。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,专有LLM(如Claude 4 Sonnet)在生成有效且行为合理的模型规范方面表现出色,尤其是在结构化提示的指导下。Claude 4 Sonnet生成了最佳拟合和最复杂的模型。GPT o3能够正确估计其自身生成的模型规范。部分LLM在仅提供数据字典时表现更好,暗示限制原始数据访问可能提升推理能力。

🎯 应用场景

该研究成果可应用于交通运输、市场营销、公共政策等领域,辅助研究人员更高效地构建和评估选择模型。通过利用LLM,可以降低建模门槛,加速模型迭代,并探索更复杂的模型结构。未来,LLM有望成为选择建模的重要辅助工具,甚至实现自动化建模。

📄 摘要(原文)

Large Language Models (LLMs) are widely used to support various workflows across different disciplines, yet their potential in choice modelling remains relatively unexplored. This work examines the potential of LLMs as assistive agents in the specification and, where technically feasible, estimation of Multinomial Logit models. We implement a systematic experimental framework involving thirteen versions of six leading LLMs (ChatGPT, Claude, DeepSeek, Gemini, Gemma, and Llama) evaluated under five experimental configurations. These configurations vary along three dimensions: modelling goal (suggesting vs. suggesting and estimating MNLs); prompting strategy (Zero-Shot vs. Chain-of-Thoughts); and information availability (full dataset vs. data dictionary only). Each LLM-suggested specification is implemented, estimated, and evaluated based on goodness-of-fit metrics, behavioural plausibility, and model complexity. Findings reveal that proprietary LLMs can generate valid and behaviourally sound utility specifications, particularly when guided by structured prompts. Open-weight models such as Llama and Gemma struggled to produce meaningful specifications. Claude 4 Sonnet consistently produced the best-fitting and most complex models, while GPT models suggested models with robust and stable modelling outcomes. Some LLMs performed better when provided with just data dictionary, suggesting that limiting raw data access may enhance internal reasoning capabilities. Among all LLMs, GPT o3 was uniquely capable of correctly estimating its own specifications by executing self-generated code. Overall, the results demonstrate both the promise and current limitations of LLMs as assistive agents in choice modelling, not only for model specification but also for supporting modelling decision and estimation, and provide practical guidance for integrating these tools into choice modellers' workflows.