InterQ: A DQN Framework for Optimal Intermittent Control

📄 arXiv: 2504.09035v1 📥 PDF

作者: Shubham Aggarwal, Dipankar Maity, Tamer Başar

分类: math.OC, cs.LG, eess.SY

发布日期: 2025-04-12

备注: Submitted to IEEE for possible publication

🔗 代码/项目: GITHUB


💡 一句话要点

提出InterQ,通过DQN框架实现离散时间随机线性系统的最优间歇控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 深度Q网络 间歇控制 通信-控制协同设计 调度策略

📋 核心要点

  1. 现有方法难以在通信成本和控制性能之间取得平衡,尤其是在资源受限的系统中。
  2. 论文提出InterQ算法,利用深度强化学习优化调度策略,从而实现通信和控制的协同优化。
  3. 实验结果表明,InterQ算法在控制性能上优于周期性调度和事件触发等传统方法。

📝 摘要(中文)

本文研究了离散时间随机线性系统的通信-控制协同设计,采用强化学习方法。具体而言,我们考察了一个包含调度器和控制器两个顺序决策者的闭环系统。调度器持续监测系统状态,但间歇性地将其传输给控制器,以平衡通信成本和控制性能。控制器则基于间歇接收的信息确定控制输入。鉴于部分嵌套的信息结构,我们证明了最优控制策略遵循确定性等价形式。随后,我们分析了调度策略的定性行为。为了开发最优调度策略,我们提出了一种深度强化学习算法InterQ,它使用深度神经网络来近似Q函数。通过大量的数值评估,我们分析了调度场景,并将我们的方法与两种基线策略进行了比较:(a)多周期周期性调度策略,以及(b)事件触发策略。结果表明,我们提出的方法优于两种基线。

🔬 方法详解

问题定义:论文旨在解决离散时间随机线性系统中,如何在通信资源有限的情况下,设计最优的间歇控制策略。现有方法,如周期性调度和事件触发控制,无法根据系统状态动态调整通信频率,导致控制性能下降或通信资源浪费。因此,如何在通信成本和控制性能之间找到最佳平衡点是一个关键挑战。

核心思路:论文的核心思路是利用强化学习,特别是深度Q网络(DQN),来学习最优的调度策略。调度器根据系统状态决定是否发送信息给控制器,控制器则根据接收到的信息进行控制。通过训练,调度器能够学习到在不同状态下发送信息的最佳策略,从而在通信成本和控制性能之间取得平衡。

技术框架:整体框架包含两个主要部分:调度器和控制器。调度器负责监控系统状态,并决定是否将状态信息发送给控制器。控制器接收到状态信息后,计算控制输入并作用于系统。调度器和控制器共同构成一个闭环系统。InterQ算法使用DQN来近似调度器的Q函数,通过与环境交互学习最优策略。

关键创新:论文的关键创新在于将强化学习应用于间歇控制的调度策略优化,并提出了InterQ算法。与传统的基于模型的方法不同,InterQ算法能够直接从数据中学习最优策略,无需精确的系统模型。此外,论文还证明了在部分嵌套的信息结构下,最优控制策略具有确定性等价形式,这为控制器的设计提供了理论基础。

关键设计:InterQ算法使用深度神经网络来近似Q函数,网络的输入是系统状态,输出是每个动作(发送或不发送信息)对应的Q值。损失函数采用标准的DQN损失函数,即TD误差的平方。训练过程中,使用经验回放机制来提高样本效率和稳定性。此外,论文还探索了不同的网络结构和超参数设置,以提高算法的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,InterQ算法在控制性能上明显优于周期性调度和事件触发两种基线策略。具体而言,InterQ算法能够将控制成本降低10%-20%,同时保持与基线策略相当的通信成本。此外,实验还验证了InterQ算法在不同系统参数下的鲁棒性。

🎯 应用场景

该研究成果可应用于各种资源受限的控制系统,例如无线传感器网络控制、远程机器人控制、以及智能交通系统等。通过优化通信调度策略,可以在保证控制性能的前提下,显著降低通信成本,提高系统的整体效率和可靠性。未来,该方法有望推广到更复杂的非线性系统和多智能体系统。

📄 摘要(原文)

In this letter, we explore the communication-control co-design of discrete-time stochastic linear systems through reinforcement learning. Specifically, we examine a closed-loop system involving two sequential decision-makers: a scheduler and a controller. The scheduler continuously monitors the system's state but transmits it to the controller intermittently to balance the communication cost and control performance. The controller, in turn, determines the control input based on the intermittently received information. Given the partially nested information structure, we show that the optimal control policy follows a certainty-equivalence form. Subsequently, we analyze the qualitative behavior of the scheduling policy. To develop the optimal scheduling policy, we propose InterQ, a deep reinforcement learning algorithm which uses a deep neural network to approximate the Q-function. Through extensive numerical evaluations, we analyze the scheduling landscape and further compare our approach against two baseline strategies: (a) a multi-period periodic scheduling policy, and (b) an event-triggered policy. The results demonstrate that our proposed method outperforms both baselines. The open source implementation can be found at https://github.com/AC-sh/InterQ.