Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History

作者: Serin Kim, Sangam Lee, Dongha Lee

分类: cs.CL, cs.AI

发布日期: 2026-02-19

💡 一句话要点

Persona2Web：提出个性化Web代理基准，用于用户历史上下文推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 个性化Web代理 上下文推理 用户历史 基准测试 大型语言模型

📋 核心要点

现有Web代理缺乏个性化能力，难以理解用户模糊的查询意图，需要根据用户历史进行上下文推理。
Persona2Web基准通过“澄清以个性化”原则，要求代理根据用户历史而非显式指令解决查询歧义，从而实现个性化。
实验评估了不同代理架构、模型、历史访问方案和查询模糊度，揭示了个性化Web代理的关键挑战。

📝 摘要（中文）

大型语言模型推动了Web代理的发展，但现有代理缺乏个性化能力。由于用户很少明确说明其意图的每个细节，因此实用的Web代理必须能够通过推断用户偏好和上下文来解释模糊的查询。为了应对这一挑战，我们提出了Persona2Web，这是第一个在真实开放Web上评估个性化Web代理的基准，它建立在“澄清以个性化”的原则之上，要求代理根据用户历史记录而不是依赖显式指令来解决歧义。Persona2Web包括：（1）在长时间跨度内隐式揭示偏好的用户历史记录，（2）需要代理推断隐式用户偏好的模糊查询，以及（3）一个推理感知评估框架，可以对个性化进行细粒度评估。我们对各种代理架构、骨干模型、历史访问方案以及具有不同模糊程度的查询进行了广泛的实验，揭示了个性化Web代理行为中的关键挑战。为了可重复性，我们的代码和数据集可在https://anonymous.4open.science/r/Persona2Web-73E8公开获取。

🔬 方法详解

问题定义：现有Web代理无法有效处理用户意图模糊的查询，因为它们缺乏个性化能力，无法根据用户的历史行为和偏好进行上下文推理。用户通常不会明确表达所有意图细节，这使得代理难以准确理解用户的需求。

核心思路：Persona2Web的核心思路是构建一个基准，用于评估Web代理在理解用户历史并进行个性化推理方面的能力。该基准基于“澄清以个性化”的原则，要求代理通过分析用户历史来消除查询中的歧义，而不是依赖于用户的显式指令。

技术框架：Persona2Web包含三个主要组成部分：(1) 用户历史记录，这些记录隐式地揭示了用户在一段时间内的偏好；(2) 模糊查询，这些查询需要代理推断用户的隐式偏好；(3) 一个推理感知评估框架，该框架能够对个性化进行细粒度的评估。整体流程是，代理接收到模糊查询和用户历史，然后利用用户历史进行推理，生成答案，最后通过评估框架进行评估。

关键创新：Persona2Web最重要的创新点在于它提供了一个专门用于评估个性化Web代理的基准。与现有的Web代理基准不同，Persona2Web侧重于评估代理根据用户历史进行上下文推理的能力，而不是仅仅评估代理的通用Web搜索能力。此外，该基准还提供了一个推理感知评估框架，可以对个性化的各个方面进行细粒度的评估。

关键设计：Persona2Web的关键设计包括：(1) 用户历史记录的构建，需要确保历史记录能够充分反映用户的偏好；(2) 模糊查询的设计，需要确保查询具有一定的歧义性，以便代理能够利用用户历史进行推理；(3) 推理感知评估框架的设计，需要确保能够准确评估代理的个性化能力。具体的技术细节（如参数设置、损失函数、网络结构等）取决于所使用的Web代理架构和模型，论文中没有详细说明。

🖼️ 关键图片

📊 实验亮点

论文通过在Persona2Web基准上进行的大量实验，评估了各种代理架构、骨干模型和历史访问方案。实验结果表明，现有Web代理在个性化方面仍存在显著差距，尤其是在处理具有高度模糊性的查询时。具体的性能数据和提升幅度在论文中未明确给出，但实验结果强调了个性化Web代理研究的重要性。

🎯 应用场景

Persona2Web的研究成果可应用于开发更智能、更个性化的Web代理，例如智能助手、推荐系统和搜索引擎。通过理解用户的历史行为和偏好，这些代理可以更准确地理解用户的意图，并提供更相关的结果和服务。这有助于提高用户满意度，并改善用户与Web的交互体验。未来，该研究可以扩展到其他领域，例如个性化教育和医疗保健。

📄 摘要（原文）

Large language models have advanced web agents, yet current agents lack personalization capabilities. Since users rarely specify every detail of their intent, practical web agents must be able to interpret ambiguous queries by inferring user preferences and contexts. To address this challenge, we present Persona2Web, the first benchmark for evaluating personalized web agents on the real open web, built upon the clarify-to-personalize principle, which requires agents to resolve ambiguity based on user history rather than relying on explicit instructions. Persona2Web consists of: (1) user histories that reveal preferences implicitly over long time spans, (2) ambiguous queries that require agents to infer implicit user preferences, and (3) a reasoning-aware evaluation framework that enables fine-grained assessment of personalization. We conduct extensive experiments across various agent architectures, backbone models, history access schemes, and queries with varying ambiguity levels, revealing key challenges in personalized web agent behavior. For reproducibility, our codes and datasets are publicly available at https://anonymous.4open.science/r/Persona2Web-73E8.

Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理