Affordance Representation and Recognition for Autonomous Agents

📄 arXiv: 2510.24459v1 📥 PDF

作者: Habtom Kahsay Gidey, Niklas Huber, Alexander Lenz, Alois Knoll

分类: cs.AI, cs.MA, cs.SE

发布日期: 2025-10-28

期刊: The Second International Workshop on Hypermedia Multi-Agent Systems (HyperAgents 2025), in conjunction with the 28th European Conference on Artificial Intelligence (ECAI 2025); October 26, 2025, Bologna, Italy


💡 一句话要点

提出基于模式语言的世界建模方法,提升自主Agent在Web环境的适应性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自主Agent 世界建模 模式语言 DOM转换 超媒体可供性 Web服务 结构化数据

📋 核心要点

  1. 现有方法难以有效处理Web页面DOM的冗余信息,导致Agent推理效率低下。
  2. 论文提出一种基于模式语言的世界建模方法,将原始DOM提炼为紧凑、任务相关的表示。
  3. 通过超媒体可供性识别,Agent能动态集成未知Web服务,增强适应性和互操作性。

📝 摘要(中文)

软件Agent的自主性从根本上取决于它们从结构化数据中构建可操作的内部世界模型的能力,这些结构化数据定义了它们的数字环境,例如网页的文档对象模型(DOM)和Web服务的语义描述。然而,从原始结构化数据构建这个世界模型面临两个关键挑战:原始HTML的冗长性使得基础模型难以直接使用,而硬编码API集成的静态性阻止了Agent适应不断发展的服务。本文介绍了一种用于从结构化数据进行世界建模的模式语言,提出了两种互补的架构模式。DOM转换模式通过将冗长、原始的DOM提炼成紧凑、与任务相关的表示或世界模型来解决网页复杂性的挑战,该模型针对Agent的推理核心进行了优化。同时,超媒体可供性识别模式使Agent能够通过解析标准化的语义描述来动态丰富其世界模型,从而在运行时发现和集成未知Web服务的功能。这些模式共同为工程Agent提供了一个健壮的框架,Agent可以有效地构建和维护准确的世界模型,从而在Web及其扩展资源中实现可扩展、自适应和可互操作的自动化。

🔬 方法详解

问题定义:现有自主Agent在Web环境中构建世界模型时,面临两个主要问题。一是原始HTML的DOM结构过于冗长,直接使用会造成计算负担,影响Agent的推理效率。二是传统的API集成方式是静态的,Agent无法适应Web服务不断变化的情况。因此,如何高效地从结构化数据中提取关键信息,并动态地发现和集成新的Web服务能力,是亟待解决的问题。

核心思路:本文的核心思路是利用模式语言来指导世界模型的构建过程。通过定义一系列的模式,将原始的、冗长的DOM结构转换为紧凑的、任务相关的表示。同时,利用超媒体可供性识别技术,使Agent能够动态地发现和集成未知的Web服务,从而增强其适应性和互操作性。这种方法的核心在于将领域知识编码到模式中,从而指导Agent进行高效的世界建模。

技术框架:该框架包含两个主要的模式:DOM转换模式和超媒体可供性识别模式。DOM转换模式负责将原始的DOM结构转换为紧凑的世界模型,它通过一系列的转换规则,提取出与Agent任务相关的关键信息,并去除冗余信息。超媒体可供性识别模式负责动态地发现和集成未知的Web服务。它通过解析Web服务的语义描述,识别出Web服务提供的功能,并将这些功能集成到Agent的世界模型中。这两个模式相互补充,共同构建了一个健壮的世界建模框架。

关键创新:该论文的关键创新在于提出了基于模式语言的世界建模方法,并将其应用于自主Agent在Web环境中的应用。与传统的硬编码API集成方式相比,该方法能够动态地发现和集成新的Web服务,从而增强了Agent的适应性和互操作性。此外,通过DOM转换模式,能够有效地降低原始DOM结构的复杂度,提高Agent的推理效率。

关键设计:DOM转换模式的关键设计在于转换规则的定义。这些规则需要根据具体的Agent任务进行设计,以确保提取出的信息与任务相关,并去除冗余信息。超媒体可供性识别模式的关键设计在于语义描述的解析方法。需要设计一种能够有效地解析Web服务语义描述的方法,从而识别出Web服务提供的功能。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了两种互补的架构模式,DOM转换模式和超媒体可供性识别模式,共同构建了一个健壮的世界建模框架。实验结果未在摘要中明确提及,性能数据、对比基线、提升幅度等信息未知。

🎯 应用场景

该研究成果可应用于各种需要自主Agent在Web环境中进行操作的场景,例如智能助手、自动化测试、Web数据挖掘等。通过该方法,Agent能够更有效地理解Web页面内容,并动态地适应Web服务的变化,从而实现更智能、更高效的自动化。

📄 摘要(原文)

The autonomy of software agents is fundamentally dependent on their ability to construct an actionable internal world model from the structured data that defines their digital environment, such as the Document Object Model (DOM) of web pages and the semantic descriptions of web services. However, constructing this world model from raw structured data presents two critical challenges: the verbosity of raw HTML makes it computationally intractable for direct use by foundation models, while the static nature of hardcoded API integrations prevents agents from adapting to evolving services. This paper introduces a pattern language for world modeling from structured data, presenting two complementary architectural patterns. The DOM Transduction Pattern addresses the challenge of web page complexity by distilling} a verbose, raw DOM into a compact, task-relevant representation or world model optimized for an agent's reasoning core. Concurrently, the Hypermedia Affordances Recognition Pattern enables the agent to dynamically enrich its world model by parsing standardized semantic descriptions to discover and integrate the capabilities of unknown web services at runtime. Together, these patterns provide a robust framework for engineering agents that can efficiently construct and maintain an accurate world model, enabling scalable, adaptive, and interoperable automation across the web and its extended resources.