Predicting Decisions of AI Agents from Limited Interaction through Text-Tabular Modeling

📄 arXiv: 2605.12411v1 📥 PDF

作者: Eilam Shapira, Moshe Tennenholtz, Roi Reichart

分类: cs.LG, cs.AI, cs.CL, cs.MA

发布日期: 2026-05-12


💡 一句话要点

提出基于文本表格建模的AI Agent决策预测方法,解决有限交互下的决策推断问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI Agent 决策预测 文本表格建模 LLM-as-Observer 目标自适应

📋 核心要点

  1. 现有方法难以在有限交互下预测未知AI Agent的决策,尤其是在对手LLM、prompt和控制逻辑未知的情况下。
  2. 论文提出一种目标自适应的文本表格预测方法,利用LLM-as-Observer提取决策相关特征,提升预测精度。
  3. 实验表明,该模型在响应预测AUC上提升约4个点,在议价报价预测误差上降低14%。

📝 摘要(中文)

本文研究了AI Agent在自然语言谈判和交易中,如何从有限的交互中预测未知对手的下一个决策。作者将此问题形式化为目标自适应的文本表格预测任务,其中每个决策点是一个表格行,包含结构化的游戏状态、报价历史和对话。模型利用目标Agent的K个先前游戏作为prompt中的adaptation示例。该模型基于表格基础模型,使用游戏状态特征和LLM的文本表示,并引入LLM-as-Observer作为额外的表示:一个小型冻结的LLM读取决策时的状态和对话,其隐藏状态作为面向决策的特征。实验表明,该模型优于直接的LLM-as-Predictor prompting和基于游戏+文本特征的基线。

🔬 方法详解

问题定义:论文旨在解决在有限交互下,如何预测未知AI Agent在谈判或交易中的决策。现有方法,如直接使用LLM进行预测,效果不佳,因为它们难以从少量交互中提取决策相关的关键信息,并且无法有效适应不同的目标Agent。此外,对手Agent的内部机制(如LLM、prompt等)是隐藏的,增加了预测的难度。

核心思路:论文的核心思路是将决策预测问题转化为一个目标自适应的文本表格预测任务。通过将游戏状态、报价历史和对话信息整合为表格数据,并利用LLM-as-Observer提取决策相关的隐藏状态特征,模型能够更好地理解Agent的决策逻辑,并适应不同的目标Agent。

技术框架:整体框架包含以下几个主要模块:1) 数据表示:将每个决策点表示为一个表格行,包含结构化的游戏状态特征、报价历史和对话文本。2) 文本表示:使用LLM对对话文本进行编码,提取文本特征。3) LLM-as-Observer:使用一个小型冻结的LLM读取决策时的状态和对话,并将其隐藏状态作为面向决策的特征。4) 表格基础模型:将游戏状态特征、文本特征和LLM-as-Observer特征融合,进行决策预测。5) 目标自适应:利用目标Agent的K个先前游戏作为prompt中的adaptation示例,使模型能够适应不同的目标Agent。

关键创新:最重要的技术创新点是引入了LLM-as-Observer。与直接使用LLM进行预测不同,LLM-as-Observer不直接输出预测结果,而是将其隐藏状态作为特征,提供决策相关的信号。这种方法能够更有效地利用LLM的知识,并避免直接prompting的局限性。

关键设计:LLM-as-Observer使用一个小型冻结的LLM,以减少计算成本和防止过拟合。LLM的隐藏状态被用作表格基础模型的输入特征。目标自适应通过在prompt中提供目标Agent的先前游戏示例来实现。损失函数根据具体的预测任务(如响应预测或报价预测)进行选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在响应预测AUC上优于直接的LLM-as-Predictor prompting和基于游戏+文本特征的基线。具体来说,在K=16时,LLM-as-Observer特征在响应预测AUC上提升约4个点,在议价报价预测误差上降低14%。这些结果表明,LLM-as-Observer能够有效提取决策相关的信号,并提升预测精度。

🎯 应用场景

该研究成果可应用于智能客服、自动化谈判、供应链管理等领域。通过预测对手Agent的决策,可以帮助AI Agent更好地制定策略,提高谈判效率,降低交易成本。此外,该方法还可以用于分析Agent的行为模式,发现潜在的风险和机会。

📄 摘要(原文)

AI agents negotiate and transact in natural language with unfamiliar counterparts: a buyer bot facing an unknown seller, or a procurement assistant negotiating with a supplier. In such interactions, the counterpart's LLM, prompts, control logic, and rule-based fallbacks are hidden, while each decision can have monetary consequences. We ask whether an agent can predict an unfamiliar counterpart's next decision from a few interactions. To avoid real-world logging confounds, we study this problem in controlled bargaining and negotiation games, formulating it as target-adaptive text-tabular prediction: each decision point is a table row combining structured game state, offer history, and dialogue, while $K$ previous games of the same target agent, i.e., the counterpart being modeled, are provided in the prompt as labeled adaptation examples. Our model is built on a tabular foundation model that represents rows using game-state features and LLM-based text representations, and adds LLM-as-Observer as an additional representation: a small frozen LLM reads the decision-time state and dialogue; its answer is discarded, and its hidden state becomes a decision-oriented feature, making the LLM an encoder rather than a direct few-shot predictor. Training on 13 frontier-LLM agents and testing on 91 held-out scaffolded agents, the full model outperforms direct LLM-as-Predictor prompting and game+text features baselines. Within this tabular model, Observer features contribute beyond the other feature schemes: at $K=16$, they improve response-prediction AUC by about 4 points across both tasks and reduce bargaining offer-prediction error by 14%. These results show that formulating counterpart prediction as a target-adaptive text-tabular task enables effective adaptation, and that hidden LLM representations expose decision-relevant signals that direct prompting does not surface.