BeamAgent: LLM-Aided MIMO Beamforming with Decoupled Intent Parsing and Alternating Optimization for Joint Site Selection and Precoding

作者: Xiucheng Wang, Yue Zhang, Nan Cheng

分类: cs.IT, cs.LG, eess.SP, eess.SY

发布日期: 2026-03-19

💡 一句话要点

BeamAgent：解耦意图解析与交替优化的LLM辅助MIMO波束成形

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM MIMO波束成形 意图解析 交替优化 基站选址 预编码 无线通信 空间推理

📋 核心要点

现有方法将LLM与数值计算紧耦合，缺乏物理层优化所需的精度，且无线训练数据稀缺，难以进行领域微调。
BeamAgent将LLM作为语义翻译器，把自然语言描述转化为空间约束，再用梯度优化器求解基站选择和预编码。
实验表明，BeamAgent在城市MIMO场景中，亮区功率优于穷举零强制算法7.1 dB，接近专家上限，且优化速度快。

📝 摘要（中文）

本文提出了一种名为BeamAgent的LLM辅助MIMO波束成形框架，该框架将语义意图解析与数值优化显式解耦。LLM仅作为语义翻译器，将自然语言描述转换为结构化的空间约束。然后，一个专用的基于梯度的优化器通过交替优化算法联合求解离散的基站站点选择和连续的预编码设计。场景感知的提示实现了无需微调的基于常识的空间推理，而具有双层意图分类的多轮交互机制确保了鲁棒的约束验证。基于惩罚的损失函数强制执行暗区功率约束，同时释放优化自由度以最大化亮区增益。在基于射线追踪的城市MIMO场景中的实验表明，在相同的暗区约束下，BeamAgent实现了84.0 dB的亮区功率，优于穷举零强制算法7.1 dB。端到端系统达到了专家上限的3.3 dB以内，并且在笔记本电脑上以不到2秒的时间完成了完整的优化。

🔬 方法详解

问题定义：现有方法将LLM作为黑盒求解器或代码生成器，与数值计算紧密耦合，导致LLM的物理层优化精度不足。同时，无线通信领域训练数据稀缺，难以对LLM进行特定领域的微调，限制了LLM在无线通信优化中的应用。

核心思路：BeamAgent的核心思路是将语义意图解析与数值优化解耦。LLM负责将自然语言描述转化为结构化的空间约束，而数值优化器则负责在这些约束下进行基站选择和预编码设计。这种解耦使得LLM可以专注于其擅长的语义理解，而数值优化器可以专注于其擅长的精确计算。

技术框架：BeamAgent的整体框架包括以下几个主要模块：1) LLM意图解析器：将自然语言描述转换为结构化的空间约束。2) 场景感知提示模块：利用场景信息，提高LLM空间推理的准确性。3) 多轮交互机制：通过双层意图分类，验证约束的鲁棒性。4) 交替优化器：联合求解离散的基站站点选择和连续的预编码设计。

关键创新：BeamAgent的关键创新在于将LLM从繁重的数值计算中解放出来，使其专注于语义理解和空间推理。通过解耦意图解析和数值优化，BeamAgent能够充分利用LLM的语义理解能力，同时避免其在数值计算方面的不足。此外，场景感知提示和多轮交互机制进一步提高了LLM的性能。

关键设计：BeamAgent的关键设计包括：1) 场景感知提示：利用场景信息，例如建筑物的位置和高度，来提高LLM空间推理的准确性。2) 双层意图分类：第一层分类确定用户意图的类型（例如，最大化亮区功率，最小化暗区功率），第二层分类验证约束的有效性。3) 基于惩罚的损失函数：通过对违反暗区功率约束的行为进行惩罚，同时释放优化自由度以最大化亮区增益。

🖼️ 关键图片

📊 实验亮点

BeamAgent在基于射线追踪的城市MIMO场景中进行了实验验证。实验结果表明，在相同的暗区约束下，BeamAgent实现了84.0 dB的亮区功率，优于穷举零强制算法7.1 dB。端到端系统达到了专家上限的3.3 dB以内，并且在笔记本电脑上以不到2秒的时间完成了完整的优化。这些结果表明，BeamAgent具有良好的性能和效率。

🎯 应用场景

BeamAgent可应用于智能无线网络规划、室内覆盖优化、应急通信等场景。通过自然语言指令，用户可以方便地指定覆盖区域和干扰区域，系统自动完成基站选址和波束赋形，提高网络性能和用户体验。该研究为LLM在无线通信领域的应用提供了新的思路，具有重要的实际价值和广阔的应用前景。

📄 摘要（原文）

Integrating large language models (LLMs) into wireless communication optimization is a promising yet challenging direction. Existing approaches either use LLMs as black-box solvers or code generators, tightly coupling them with numerical computation. However, LLMs lack the precision required for physical-layer optimization, and the scarcity of wireless training data makes domain-specific fine-tuning impractical. We propose BeamAgent, an LLM-aided MIMO beamforming framework that explicitly decouples semantic intent parsing from numerical optimization. The LLM serves solely as a semantic translator that converts natural language descriptions into structured spatial constraints. A dedicated gradient-based optimizer then jointly solves the discrete base station site selection and continuous precoding design through an alternating optimization algorithm. A scene-aware prompt enables grounded spatial reasoning without fine-tuning, and a multi-round interaction mechanism with dual-layer intent classification ensures robust constraint verification. A penalty-based loss function enforces dark-zone power constraints while releasing optimization degrees of freedom for bright-zone gain maximization. Experiments on a ray-tracing-based urban MIMO scenario show that BeamAgent achieves a bright-zone power of 84.0\,dB, outperforming exhaustive zero-forcing by 7.1 dB under the same dark-zone constraint. The end-to-end system reaches within 3.3 dB of the expert upper bound, with the full optimization completing in under 2 s on a laptop.

BeamAgent: LLM-Aided MIMO Beamforming with Decoupled Intent Parsing and Alternating Optimization for Joint Site Selection and Precoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理