Over-the-Air Semantic Alignment with Stacked Intelligent Metasurfaces

作者: Mario Edoardo Pandolfo, Kyriakos Stylianopoulos, George C. Alexandropoulos, Paolo Di Lorenzo

分类: eess.SP, cs.LG, stat.ML

发布日期: 2025-12-05

💡 一句话要点

提出基于堆叠智能超表面的无线语义对齐框架，解决异构模型潜在表示失准问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 语义通信 智能超表面 无线对齐 异构模型 波束成形

📋 核心要点

现有语义对齐方法依赖额外的数字信号处理，增加了设备的复杂度和计算负担。
论文提出利用堆叠智能超表面(SIM)在无线信道中直接进行语义对齐，降低设备端的计算负担。
实验结果表明，SIM能够有效重现监督和零样本语义均衡器，在高信噪比下达到高达90%的任务准确率。

📝 摘要（中文）

语义通信系统旨在设备间传输任务相关的AI信息，但异构收发模型可能导致潜在表示失准，降低系统性能。现有语义对齐方法通常依赖额外的数字信号处理，增加设备复杂度。本文提出首个基于堆叠智能超表面(SIM)的无线语义对齐框架，直接在波域实现潜在空间对齐，大幅降低设备端的计算负担。我们将SIM建模为可训练的线性算子，能够模拟监督线性对齐器和基于Parseval框架的零样本均衡器。为了物理实现这些算子，我们开发了一种基于梯度的优化程序，调整超表面的传递函数以实现期望的语义映射。使用异构视觉Transformer(ViT)编码器的实验表明，SIM能够准确地重现监督和零样本语义均衡器，在高信噪比(SNR)下达到高达90%的任务准确率，并在低信噪比下保持强大的鲁棒性。

🔬 方法详解

问题定义：语义通信旨在提升通信效率，但当发射端和接收端使用不同的AI模型时，提取的语义特征可能存在偏差，导致性能下降。现有的语义对齐方法通常需要在发射端或接收端进行额外的数字信号处理，例如学习一个映射函数来对齐特征空间。这些方法增加了设备的计算复杂度和功耗，尤其是在资源受限的边缘设备上。

核心思路：论文的核心思路是利用智能超表面(Intelligent Metasurface, IMS)的可编程电磁特性，直接在无线信道中对语义特征进行对齐。通过优化超表面的反射或透射系数，使其能够将发射端模型的语义特征映射到接收端模型所需的特征空间。这样可以避免在设备端进行复杂的数字信号处理，降低计算负担。

技术框架：该框架包含发射端、堆叠智能超表面(SIM)和接收端。发射端使用一个AI模型（例如ViT）提取语义特征，然后将信号发射出去。SIM由多层超表面组成，每一层都可以独立控制其电磁特性。通过优化SIM的参数，可以实现对语义特征的线性变换。接收端接收到经过SIM变换后的信号，并使用另一个AI模型进行解码。整个过程的目标是使接收端解码后的结果与发射端期望的结果尽可能一致。

关键创新：该论文的关键创新在于提出了基于堆叠智能超表面的无线语义对齐方法。与传统的数字信号处理方法相比，该方法直接在波域进行语义对齐，避免了复杂的计算过程。此外，论文还提出了一个基于梯度的优化程序，用于调整超表面的传递函数，使其能够实现期望的语义映射。堆叠结构的设计也增加了超表面的灵活性和可调控性。

关键设计：论文将SIM建模为可训练的线性算子，并设计了两种类型的对齐器：监督线性对齐器和基于Parseval框架的零样本均衡器。监督线性对齐器需要使用标注数据进行训练，而零样本均衡器则不需要。为了优化超表面的参数，论文使用了一种基于梯度的优化程序。该程序的目标是最小化发射端和接收端语义特征之间的距离。具体的损失函数取决于所使用的对齐器类型。对于监督线性对齐器，可以使用均方误差损失函数；对于零样本均衡器，可以使用基于Parseval框架的损失函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于堆叠智能超表面的无线语义对齐方法能够有效地重现监督和零样本语义均衡器。在高信噪比(SNR)下，该方法可以达到高达90%的任务准确率。即使在低信噪比下，该方法也能够保持较强的鲁棒性。与传统的数字信号处理方法相比，该方法能够显著降低设备的计算负担。

🎯 应用场景

该研究成果可应用于异构AI设备间的无线通信场景，例如在物联网、边缘计算和分布式机器学习等领域。通过无线语义对齐，可以实现不同设备间的无缝协作，提高系统的整体性能和效率。此外，该技术还可以用于增强无线通信的安全性，例如通过对语义特征进行加密，防止信息泄露。

📄 摘要（原文）

Semantic communication systems aim to transmit task-relevant information between devices capable of artificial intelligence, but their performance can degrade when heterogeneous transmitter-receiver models produce misaligned latent representations. Existing semantic alignment methods typically rely on additional digital processing at the transmitter or receiver, increasing overall device complexity. In this work, we introduce the first over-the-air semantic alignment framework based on stacked intelligent metasurfaces (SIM), which enables latent-space alignment directly in the wave domain, reducing substantially the computational burden at the device level. We model SIMs as trainable linear operators capable of emulating both supervised linear aligners and zero-shot Parseval-frame-based equalizers. To realize these operators physically, we develop a gradient-based optimization procedure that tailors the metasurface transfer function to a desired semantic mapping. Experiments with heterogeneous vision transformer (ViT) encoders show that SIMs can accurately reproduce both supervised and zero-shot semantic equalizers, achieving up to 90% task accuracy in regimes with high signal-to-noise ratio (SNR), while maintaining strong robustness even at low SNR values.

Over-the-Air Semantic Alignment with Stacked Intelligent Metasurfaces

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理