Toward an Unbiased Collective Memory for Efficient LLM-Based Agentic 6G Cross-Domain Management
作者: Hatim Chergui, Miguel Catalan Cid, Pouria Sayyad Khodashenas, Daniel Camps Mur, Christos Verikoukis
分类: cs.NI, cs.AI
发布日期: 2025-09-30
备注: 12 pages, 8 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于LLM Agent的无偏集体记忆框架,用于高效6G跨域资源管理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 6G网络 跨域资源管理 LLM Agent 认知偏差 无偏记忆 数字孪生 多Agent系统
📋 核心要点
- 现有基于LLM的Agent在跨域资源管理中存在认知偏差,影响决策质量和效率。
- 提出无偏集体记忆框架,通过语义检索、失败学习、多样性增强和时间权重衰减来缓解认知偏差。
- 实验表明,该框架显著减少未解决的协商,完全消除SLA违规,并提升延迟和节能性能。
📝 摘要(中文)
本文提出了一种新颖的框架,用于6G RAN-Edge网络中基于大语言模型(LLM)增强Agent的主动跨域资源编排。该系统包含专门的RAN(能源效率)和Edge(延迟保证)Agent,它们进行迭代协商,并由高级推理和规划能力提供支持。Agent与数字孪生(DT)动态交互以测试其提案,并利用长期集体记忆,将它们联合成功和失败的协议以及相关的网络上下文提炼成策略,以供遵循或避免,并随后存储。考虑到Agent在检索这些过去的经验时会受到大量认知偏差的影响——例如首因效应、近因效应、确认偏差和可得性偏差——我们在本文中提出了一种新颖的无偏记忆设计,其特点是:(i)通过Jaccard相似性进行过去策略的语义检索;(ii)通过放大SLA违规的权重并强制包含失败的协商案例来减轻确认偏差,从而从失败中学习;(iii)实施多样性以最大限度地减少可得性偏差;以及(iv)具有缓慢衰减的近因和首因权重以抵消时间偏差。评估结果展示了现有偏差的影响,以及无偏记忆如何通过学习成功和失败的策略(无论是现在的还是过去的)来解决这些偏差,与非记忆和原始记忆基线相比,未解决的协商分别减少了4.5倍和3.5倍,同时完全减轻了SLA违规,并改善了延迟和节能分布。
🔬 方法详解
问题定义:论文旨在解决6G RAN-Edge网络中,基于LLM的Agent在跨域资源管理时,由于认知偏差导致决策效率和质量下降的问题。现有方法在利用Agent的长期记忆时,容易受到首因效应、近因效应、确认偏差和可得性偏差等影响,从而导致次优的资源编排策略。
核心思路:论文的核心思路是设计一种无偏的集体记忆机制,使Agent能够更客观地回顾和利用历史经验,从而做出更明智的决策。通过减轻各种认知偏差的影响,Agent可以更好地学习成功和失败的策略,并适应不断变化的网络环境。
技术框架:该框架包含RAN Agent和Edge Agent,它们通过数字孪生(DT)进行交互和协商。Agent利用集体记忆存储和检索历史协商策略。该集体记忆的关键组成部分是无偏记忆模块,它负责策略的存储、检索和更新。Agent通过Jaccard相似性进行语义检索,并根据SLA违规情况调整策略权重。
关键创新:最重要的技术创新点在于无偏记忆的设计,它通过四个关键机制来减轻认知偏差:(1)语义检索:使用Jaccard相似性进行策略检索,避免简单匹配带来的偏差;(2)失败学习:放大SLA违规策略的权重,强制包含失败案例,克服确认偏差;(3)多样性增强:鼓励探索不同的策略,减少可得性偏差;(4)时间权重衰减:对近因和首因效应进行缓慢衰减,平衡新旧经验的影响。
关键设计:(1) Jaccard相似性用于衡量策略的语义相似度,公式为J(A,B) = |A∩B| / |A∪B|,其中A和B是策略的语义向量。(2) SLA违规的权重放大系数用于调整失败策略的重要性,具体数值根据实验确定。(3) 时间权重衰减函数采用指数衰减形式,控制新旧策略的影响程度。(4) Agent与数字孪生交互,通过模拟环境验证策略的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与非记忆基线相比,该无偏集体记忆框架将未解决的协商减少了4.5倍,与原始记忆基线相比减少了3.5倍。更重要的是,该框架完全消除了SLA违规,并显著改善了延迟和节能分布。这些结果验证了无偏记忆在提升Agent决策质量和效率方面的有效性。
🎯 应用场景
该研究成果可应用于未来的6G网络,实现更智能、高效的跨域资源管理。通过减轻认知偏差,Agent可以更好地适应动态变化的网络环境,优化资源分配,提升用户体验,并降低运营成本。该技术还可扩展到其他多Agent协作场景,例如智能交通、智慧城市等。
📄 摘要(原文)
This paper introduces a novel framework for proactive cross-domain resource orchestration in 6G RAN-Edge networks, featuring large language model (LLM)-augmented agents. The system comprises specialized RAN (energy efficiency) and Edge (latency assurance) agents that engage in iterative negotiation, supported by advanced reasoning and planning capabilities. Agents dynamically interact with a digital twin (DT) to test their proposals and leverage a long-term collective memory where their joint successful and failed agreements along with the related network contexts are distilled into strategies to either follow or avoid and subsequently stored. Given that agents are subject to a plethora of cognitive distortions when retrieving those past experiences -- such as primacy, recency, confirmation and availability biases -- we propose in this work a novel unbiased memory design (A reusable mockup version of the unbiased memory source code is available for non-commercial use at https://github.com/HatimChergui/unbiased-collective-memory). featuring (i) semantic retrieval of past strategies via Jaccard similarity; (ii) learning from failures through amplified weighting of SLA violations and mandatory inclusion of failed negotiation cases to mitigate confirmation bias; (iii) diversity enforcement to minimize availability bias and (iv) recency and primacy weighting with slow decay to counteract temporal biases. Evaluation results showcase the impact of existing biases and how the unbiased memory allows to tackle them by learning from both successful and failed strategies, either present or old, resulting in $\times 4.5$ and $\times 3.5$ reductions of unresolved negotiations compared to non-memory and vanilla memory baselines, respectively, while totally mitigating SLA violations as well as improving latency and energy saving distributions.