Semantic State Abstraction Interfaces for LLM-Augmented Portfolio Decisions: Multi-Axis News Decomposition and RL Diagnostics
作者: Likhita Yerra, Remi Uttejitha Allam
分类: cs.LG
发布日期: 2026-05-07
备注: 18 pages, 3 figures. NeurIPS 2024 manuscript style (preprint)
💡 一句话要点
提出语义状态抽象接口(SSAI)框架,通过多轴新闻分解实现LLM增强型投资组合决策的可解释性诊断。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语义状态抽象 金融决策系统 强化学习诊断 可解释人工智能 多轴新闻分解 量化投资
📋 核心要点
- 针对序列决策中非结构化文本表征与优化过程耦合导致的“黑盒”问题,缺乏有效的诊断与解耦机制。
- 提出SSAI框架,将文本映射为K个可审计的语义坐标,通过标准化接口实现表征与决策逻辑的解耦。
- 实验通过多模型对比发现,SSAI在特定条件下表现出统计脆弱性,强调了诊断协议在评估金融决策系统中的重要性。
📝 摘要(中文)
本文引入了语义状态抽象接口(SSAI),这是一种将稀疏非结构化文本映射为K个可审计、具名坐标的方法论模板,并在无新闻日提供中性默认值。该框架旨在将表征假设与序列决策系统中的优化方差分离开来。作者通过在2019-2023年纳斯达克100指数成分股数据集上,利用4个轴(情绪、风险、置信度、波动率预测)实例化SSAI,并对比了直接因子组合、监督岭回归预测器及强化学习代理(DP-PPO, SAC)。实验表明,尽管四因子组合实现了307.2%的累计收益和1.067的夏普比率,但其相对于买入并持有策略的增益在覆盖率分层控制下并不显著,且在交易成本超过0.2%时发生逆转。该研究将SSAI定位为一种用于稀疏文本决策系统的可解释性诊断工具与可复用协议。
🔬 方法详解
问题定义:在LLM增强的金融决策系统中,非结构化文本数据(如新闻)通常直接输入决策模型,导致表征学习与优化过程难以区分,难以判断性能提升源于语义理解的准确性还是优化算法的过拟合。
核心思路:引入语义状态抽象接口(SSAI),将复杂的文本信息压缩为K个具有明确语义的维度(坐标)。这种设计强制模型在结构化空间内进行决策,从而实现对决策逻辑的审计与诊断。
技术框架:SSAI流程包含三个阶段:首先是文本的语义分解,将原始新闻映射至预定义的K个轴;其次是状态填充,在无新闻日应用中性默认值以保持时间序列连续性;最后是决策模块,通过共享相同的抽象状态向量(φ),对比不同决策器(如岭回归、DP-PPO、SAC)的性能差异。
关键创新:SSAI的核心贡献在于提供了一种“诊断协议”而非单纯的性能提升方案。它通过将表征(Representation)与优化(Optimizer)解耦,使得研究者能够量化评估特定语义特征对投资组合收益的贡献度。
关键设计:实例化中采用了K=4的维度设置(情绪、风险、置信度、波动率预测)。在评估中,通过引入覆盖率分层控制(Coverage-stratified controls)和交易成本敏感性分析,严谨地验证了策略的统计稳健性,而非仅依赖累计收益指标。
🖼️ 关键图片
📊 实验亮点
实验在纳斯达克100股票池中验证了SSAI,四因子组合实现307.2%累计收益与1.067夏普比率。然而,通过严谨的覆盖率分层控制与交易成本(≥0.2%)压力测试,证明了该策略相对于基准的脆弱性,并指出PC1复合指标与FinBERT基线在当前设置下具有更强的信号强度。
🎯 应用场景
该研究主要应用于金融科技领域的量化投资与资产管理。其核心价值在于为基于LLM的决策系统提供了一套可审计的诊断框架,有助于金融机构在部署AI交易策略时,识别模型决策的语义依据,降低因模型幻觉或过度拟合带来的投资风险。
📄 摘要(原文)
We introduce Semantic State Abstraction Interfaces (SSAI): a methodological template for mapping sparse unstructured text into $K$ auditable, named coordinates with neutral defaults on no-news days, designed to separate representation hypotheses from optimisation variance in sequential decision systems. Our contribution is the framework and its evaluation protocol, not a claim that SSAI outperforms denser alternatives. We instantiate SSAI with $K=4$ axes (sentiment, risk, confidence, volatility forecast) on a US-equity panel (30 NASDAQ-100 names, FNSPID news, 2019--2023 test), and evaluate it across direct factor portfolios, supervised ridge forecasters, and RL agents (DP-PPO, SAC) that share the same fixed $φ$. The four-factor factor portfolio reaches 307.2% cumulative return and Sharpe 1.067, but apparent gains versus buy-and-hold (243.6%) fail coverage-stratified controls, reverse at $\geq 0.2$% costs, and are statistically fragile versus a sentiment-only baseline; a PC1 composite and a FinBERT portfolio baseline are stronger ranking signals in this setting. Ridge and RL blocks diagnose representation versus optimiser effects. We position SSAI as an interpretability-performance diagnostic and reusable protocol for sparse-text decision systems.