Auditing Asset-Specific Preferences in Financial Large Language Models: Evidence from Bitcoin Representations and Portfolio Allocation
作者: Wenbin Wu
分类: q-fin.GN, cs.CY, cs.LG
发布日期: 2026-06-01
备注: 28 pages, 5 figures, 18 tables
💡 一句话要点
审计金融大语言模型中特定资产偏好:来自比特币表征与投资组合分配的证据
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 金融大语言模型 资产偏好 比特币 审计协议 内部表征
📋 核心要点
- 现有金融大语言模型(LLM)可能存在对特定资产的偏见,但缺乏有效审计方法。
- 论文提出一种三级审计协议,通过行为审计、内部表征分析和金融后果测试,来识别和量化LLM对比特币的偏好。
- 实验表明,LLM对比特币的偏好受框架影响,且可以通过操纵内部特征来改变投资组合分配,但存在可测量的界限。
📝 摘要(中文)
大型语言模型(LLM)正驱动着智能投顾和交易代理,但它们是否对特定资产存在内在偏见在很大程度上未经检验。本文探讨三个问题:LLM是否系统性地偏好某些金融工具?能否识别出对这些偏好具有因果影响的内部表征?该表征是否影响下游金融决策?我们开发了一个三级审计协议并应用于比特币。对八个前沿LLM的行为审计表明,比特币在类货币工具中的排名取决于框架:模型在“可靠货币”框架下将其排在约8个中的第5位,但在危机和自主代理框架下接近顶部。属性交换实验证实,排名跟踪的是功能属性,而非名称。进一步,我们打开模型的内部:在Gemma 3中搜索数千个稀疏自编码器特征,识别出一个对比特币具有选择性的主导特征。放大该特征会使模型倾向于该资产,抑制它则会使模型远离该资产,即使提示中从未出现“比特币”。最后,我们测试了金融后果:放大将比特币的投资组合份额提高了5.2个百分点,而抑制则降低了4.6个百分点,放大在加密货币内部重新分配,抑制则减少了总加密货币敞口。我们将其描述为有界行为杠杆(杠杆意味着对输出的因果影响,而非金融杠杆):可以扰动可识别的内部特征来移动金融选择,但仅在可测量的范围内。该框架将内部表征与外部建议联系起来,并通过随机控制和机制边界进行验证。随着LLM成为自主金融代理,这是新兴的“了解你的代理”(KYA)标准的行为层的第一步:了解代理喜欢什么,以及这种偏好可以移动多远。
🔬 方法详解
问题定义:论文旨在解决金融大语言模型(LLM)中可能存在的对特定资产(如比特币)的偏见问题。现有方法缺乏对LLM内部偏好进行系统性审计的能力,无法识别和量化这些偏好,也无法评估这些偏好对下游金融决策的影响。
核心思路:论文的核心思路是通过一个三级审计协议,从行为、内部表征和金融后果三个层面来分析LLM对比特币的偏好。首先,通过行为审计评估LLM在不同框架下的偏好;其次,通过内部表征分析识别影响偏好的关键特征;最后,通过金融后果测试评估这些特征对投资组合分配的影响。
技术框架:该研究的技术框架包含三个主要阶段: 1. 行为审计:设计提示语,评估LLM在不同框架(如“可靠货币”、“危机”、“自主代理”)下对比特币的排名。 2. 内部表征分析:使用稀疏自编码器识别LLM中对比特币具有选择性的特征,并分析这些特征与偏好之间的关系。 3. 金融后果测试:通过放大或抑制关键特征,观察LLM在投资组合分配中对比特币份额的影响。
关键创新:该论文最重要的技术创新在于提出了一个系统性的审计框架,能够识别和量化LLM中对特定资产的偏好,并评估这些偏好对下游金融决策的影响。与现有方法相比,该框架不仅关注LLM的外部行为,还深入分析了LLM的内部表征,从而能够更全面地理解LLM的偏好形成机制。
关键设计: * 行为审计:设计了多种框架的提示语,并通过属性交换实验验证排名是否跟踪功能属性。 * 内部表征分析:使用了稀疏自编码器来提取LLM的内部特征,并使用因果干预方法来评估这些特征对偏好的影响。 * 金融后果测试:通过放大和抑制关键特征,观察LLM在投资组合分配中对比特币份额的影响,并使用随机控制来验证结果的可靠性。
📊 实验亮点
实验结果表明,LLM对比特币的偏好受框架影响,且可以通过操纵内部特征来改变投资组合分配。具体而言,放大比特币选择性特征可以将比特币的投资组合份额提高5.2个百分点,而抑制则降低4.6个百分点。这些结果表明,LLM的金融决策受到内部表征的影响,但这种影响存在可测量的界限。
🎯 应用场景
该研究成果可应用于金融监管、智能投顾和风险管理等领域。通过审计LLM的资产偏好,可以提高金融决策的透明度和公平性,降低算法偏见带来的风险。该研究为开发“了解你的代理”(KYA)标准奠定了基础,有助于构建更值得信赖的金融AI系统。
📄 摘要(原文)
Large language models now power robo-advisors and trading agents, yet whether they carry built-in biases toward specific assets is largely untested. We ask three questions: do LLMs systematically prefer certain financial instruments; can an internal representation with causal leverage over those preferences be identified; and does that representation affect downstream financial decisions? We develop a three-level audit protocol and apply it to Bitcoin. First, a behavioral audit of eight frontier LLMs shows that Bitcoin's ranking among money-like instruments is frame-dependent: models place it around rank 5 of 8 as "reliable money" but near the top under crisis and autonomous-agent frames, and an attribute-swap experiment confirms rankings track functional properties, not names. Second, we open a model's internals: a search across thousands of sparse-autoencoder features in Gemma 3 identifies a dominant Bitcoin-selective feature. Amplifying it shifts the model toward the asset and suppressing it shifts the model away, even when "Bitcoin" never appears in the prompt. Third, we test financial consequences: amplification raises Bitcoin's portfolio share by 5.2 percentage points while suppression lowers it by 4.6 pp, with amplification reallocating within crypto and suppression cutting total crypto exposure. We characterize this as bounded behavioral leverage (leverage meaning causal influence over outputs, not financial leverage): an identifiable internal feature can be perturbed to move financial choices, but only within measurable limits. The framework links internal representations to external recommendations, validated with random controls and mechanism boundaries. As LLMs become autonomous financial agents, this is a first step toward a behavioral layer for emerging know-your-agent (KYA) standards: knowing what an agent prefers, and how far that preference can be moved.