ContextAgent: Context-Aware Proactive LLM Agents with Open-World Sensory Perceptions
作者: Bufang Yang, Lilin Xu, Liekang Zeng, Kaiwei Liu, Siyang Jiang, Wenrui Lu, Hongkai Chen, Xiaofan Jiang, Guoliang Xing, Zhenyu Yan
分类: cs.AI, cs.CL, cs.HC
发布日期: 2025-05-20 (更新: 2025-10-27)
备注: Accepted by NeurIPS 2025
🔗 代码/项目: GITHUB
💡 一句话要点
ContextAgent:提出一种利用开放世界感知的上下文感知主动LLM Agent。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动Agent 上下文感知 LLM 可穿戴设备 感官感知 用户意图理解 工具调用
📋 核心要点
- 现有主动Agent主要依赖封闭环境的观察或基于规则的通知,导致用户意图理解不足,主动服务功能有限。
- ContextAgent通过整合可穿戴设备获取的丰富感官上下文和历史数据,预测用户对主动服务的需求,并调用工具提供帮助。
- ContextAgentBench基准测试表明,ContextAgent在主动预测和工具调用方面显著优于现有基线方法,准确率分别提升8.5%和6.0%。
📝 摘要(中文)
本文提出ContextAgent,一种上下文感知的主动LLM Agent,它结合了来自人类周围的大量感官上下文,以增强LLM Agent的主动性。ContextAgent首先从可穿戴设备上的海量感官感知(例如,视频和音频)中提取多维上下文,以理解用户意图。然后,ContextAgent利用感官上下文和来自历史数据的人物角色来预测主动服务的必要性。当需要主动帮助时,ContextAgent进一步自动调用必要的工具来不引人注目地帮助用户。为了评估这项新任务,我们创建了ContextAgentBench,这是第一个用于评估上下文感知主动LLM Agent的基准,涵盖九个日常场景和二十个工具中的1,000个样本。在ContextAgentBench上的实验表明,ContextAgent在主动预测和工具调用方面分别比基线高出8.5%和6.0%的准确率。我们希望我们的研究能够激发更先进,以人为本的主动AI助手的开发。代码和数据集可在https://github.com/openaiotlab/ContextAgent公开获得。
🔬 方法详解
问题定义:现有主动Agent主要面临两个痛点:一是过度依赖封闭环境(如桌面UI)的直接LLM推理,二是采用基于规则的主动通知。这两种方法都无法充分理解用户的真实意图,导致主动服务的质量和范围受限。因此,需要一种能够利用开放世界感官信息,更准确地理解用户意图,并提供更智能主动服务的Agent。
核心思路:ContextAgent的核心思路是利用可穿戴设备(如智能手表、眼镜等)捕获的丰富感官信息(视频、音频等),构建多维上下文,从而更全面地理解用户意图。同时,结合用户的历史数据,学习用户的行为模式和偏好,预测用户对主动服务的需求。当预测到用户需要帮助时,自动调用合适的工具,提供无缝的主动服务。
技术框架:ContextAgent的整体框架包含以下几个主要模块:1) 感官数据采集模块:负责从可穿戴设备采集视频、音频等感官数据。2) 上下文提取模块:从感官数据中提取多维上下文信息,例如用户的位置、活动状态、周围环境等。3) 意图预测模块:基于提取的上下文信息和用户的历史数据,预测用户对主动服务的需求。4) 工具调用模块:当预测到用户需要帮助时,自动调用合适的工具,例如发送消息、设置提醒、播放音乐等。
关键创新:ContextAgent的关键创新在于其上下文感知能力。它不仅利用了传统的环境信息,还充分利用了可穿戴设备提供的丰富感官信息,从而能够更准确地理解用户意图。此外,ContextAgent还引入了基于历史数据的用户画像,进一步提升了意图预测的准确性。与现有方法相比,ContextAgent能够提供更智能、更个性化的主动服务。
关键设计:ContextAgent在上下文提取模块中,使用了预训练的视觉和听觉模型来提取特征。在意图预测模块中,使用了Transformer模型来学习上下文信息和用户历史数据之间的关系。工具调用模块则采用了一种基于规则和学习相结合的方法,根据用户意图选择合适的工具。具体的参数设置和损失函数等技术细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
ContextAgentBench上的实验结果表明,ContextAgent在主动预测和工具调用方面均显著优于现有基线方法。具体而言,ContextAgent在主动预测任务上的准确率提升了8.5%,在工具调用任务上的准确率提升了6.0%。这些结果充分证明了ContextAgent的有效性和优越性。
🎯 应用场景
ContextAgent具有广泛的应用前景,例如智能家居、智能办公、健康管理等。它可以根据用户的实时状态和环境,主动提供个性化的服务,例如自动调节室内温度、提醒用户按时服药、推荐合适的音乐等。ContextAgent的出现将极大地提升人机交互的智能化水平,使人们的生活更加便捷和舒适。
📄 摘要(原文)
Recent advances in Large Language Models (LLMs) have propelled intelligent agents from reactive responses to proactive support. While promising, existing proactive agents either rely exclusively on observations from enclosed environments (e.g., desktop UIs) with direct LLM inference or employ rule-based proactive notifications, leading to suboptimal user intent understanding and limited functionality for proactive service. In this paper, we introduce ContextAgent, the first context-aware proactive agent that incorporates extensive sensory contexts surrounding humans to enhance the proactivity of LLM agents. ContextAgent first extracts multi-dimensional contexts from massive sensory perceptions on wearables (e.g., video and audio) to understand user intentions. ContextAgent then leverages the sensory contexts and personas from historical data to predict the necessity for proactive services. When proactive assistance is needed, ContextAgent further automatically calls the necessary tools to assist users unobtrusively. To evaluate this new task, we curate ContextAgentBench, the first benchmark for evaluating context-aware proactive LLM agents, covering 1,000 samples across nine daily scenarios and twenty tools. Experiments on ContextAgentBench show that ContextAgent outperforms baselines by achieving up to 8.5% and 6.0% higher accuracy in proactive predictions and tool calling, respectively. We hope our research can inspire the development of more advanced, human-centric, proactive AI assistants. The code and dataset are publicly available at https://github.com/openaiotlab/ContextAgent.