Generative Agents Navigating Digital Libraries
作者: Saber Zerhoudi, Michael Granitzer
分类: cs.IR, cs.AI, cs.DL
发布日期: 2026-02-28
💡 一句话要点
Agent4DL:利用生成式Agent模拟数字图书馆用户搜索行为
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式Agent 数字图书馆 用户行为模拟 大语言模型 搜索行为 用户画像 信息检索
📋 核心要点
- 数字图书馆研究缺乏用户搜索行为数据,隐私限制了公开数据集的获取。
- Agent4DL利用大语言模型生成用户画像和搜索会话,模拟真实用户的搜索行为。
- 实验表明,Agent4DL能有效模拟用户行为,性能优于现有模拟器SimIIR 2.0。
📝 摘要(中文)
在大语言模型快速发展的背景下,本文提出Agent4DL,一个专为数字图书馆环境设计的用户搜索行为模拟器。该模拟器旨在解决数字图书馆研究中长期存在的难题:由于隐私问题,公开可用的用户搜索模式数据集稀缺。Agent4DL能够生成真实的用户画像和动态搜索会话,精确模拟实际的搜索策略,包括查询、点击和停止行为,并根据特定用户画像进行定制。通过与真实用户数据的对比验证,Agent4DL在复制真实用户交互方面的准确性得到了证实。与现有的用户搜索模拟器(如SimIIR 2.0)相比,Agent4DL在生成更多样化和上下文感知的用户行为方面表现出更强的竞争力。
🔬 方法详解
问题定义:数字图书馆领域缺乏真实的用户搜索行为数据,这阻碍了相关研究的进展。由于隐私保护的限制,研究人员难以获取足够规模的真实用户搜索日志。现有方法,如人工标注或简单的规则模拟,难以捕捉用户行为的复杂性和多样性。
核心思路:本文的核心思路是利用大型语言模型(LLMs)的生成能力,构建能够模拟用户搜索行为的智能体(Agent)。通过赋予Agent用户画像,并让其在数字图书馆环境中进行搜索,从而生成模拟的搜索日志。这种方法可以有效解决数据稀缺问题,并避免隐私泄露的风险。
技术框架:Agent4DL的整体框架包含以下几个主要模块:1) 用户画像生成模块:利用LLM生成具有不同背景和需求的虚拟用户;2) 查询生成模块:根据用户画像和当前搜索状态,生成搜索查询;3) 点击行为模拟模块:模拟用户对搜索结果的点击行为;4) 停止行为模拟模块:模拟用户何时停止搜索。这些模块协同工作,生成完整的搜索会话。
关键创新:Agent4DL的关键创新在于其能够生成上下文感知的用户行为。传统的用户搜索模拟器通常基于简单的规则或统计模型,难以捕捉用户行为的动态性和复杂性。Agent4DL利用LLM的强大语言理解能力,能够根据用户的历史搜索行为和当前搜索结果,生成更加合理和自然的搜索行为。
关键设计:Agent4DL的关键设计包括:1) 使用Prompt Engineering来引导LLM生成高质量的用户画像和搜索查询;2) 设计了基于强化学习的点击行为模拟模块,以学习用户对不同搜索结果的偏好;3) 引入了基于时间衰减的停止行为模型,以模拟用户在搜索过程中的耐心程度。
🖼️ 关键图片
📊 实验亮点
Agent4DL通过与真实用户数据和现有模拟器SimIIR 2.0的对比实验,验证了其有效性。实验结果表明,Agent4DL在生成用户行为的多样性和上下文感知能力方面优于SimIIR 2.0。具体而言,Agent4DL生成的搜索日志更接近真实用户数据,能够更好地反映用户的搜索意图和行为模式。
🎯 应用场景
Agent4DL可应用于数字图书馆的用户行为分析、搜索算法优化和个性化推荐系统开发。通过模拟不同用户的搜索行为,研究人员可以更好地理解用户需求,改进搜索体验,并评估新的搜索算法。此外,Agent4DL还可以用于训练和评估基于机器学习的推荐系统,提高推荐的准确性和相关性。
📄 摘要(原文)
In the rapidly evolving field of digital libraries, the development of large language models (LLMs) has opened up new possibilities for simulating user behavior. This innovation addresses the longstanding challenge in digital library research: the scarcity of publicly available datasets on user search patterns due to privacy concerns. In this context, we introduce Agent4DL, a user search behavior simulator specifically designed for digital library environments. Agent4DL generates realistic user profiles and dynamic search sessions that closely mimic actual search strategies, including querying, clicking, and stopping behaviors tailored to specific user profiles. Our simulator's accuracy in replicating real user interactions has been validated through comparisons with real user data. Notably, Agent4DL demonstrates competitive performance compared to existing user search simulators such as SimIIR 2.0, particularly in its ability to generate more diverse and context-aware user behaviors.