基于流量模式的Q-学习路由及其连接调度

姚铭明; 曹霑懋; 黄启嵩; 单志龙

doi:10.6054/j.jscnun.2021065

基于流量模式的Q-学习路由及其连接调度

华南师范大学计算机学院, 广州 510631

基金项目:

国家自然科学基金项目 61671213

广州市科技计划项目 202007040006

详细信息

通讯作者:
曹霑懋, Email: caozhanmao@m.scnu.deu.cn

中图分类号: TP393
计量
- 文章访问数: 497
- HTML全文浏览量: 210
- PDF下载量: 72
出版历程
- 收稿日期: 2021-01-05
- 网络出版日期: 2021-09-02
- 刊出日期: 2021-08-24

Q-Learning Routing and Link Scheduling Based on Traffic Mode

School of Computer, South China Normal University, Guangzhou 510631, China

摘要

摘要: 为解决无线网状网中因多条路径同时传输数据而引起网络性能降低的问题, 提出了一个基于流量的Q-学习路由与调度方案(QRST): 针对每一个路由请求, 首先采用强化学习中的Q-学习算法寻找路径; 然后根据找到的路径结合信道分配完成组合调度, 以启发式的方法尽可能为每个时隙使用网络资源分配路径的连接. 并在不同网络资源配置和多种流量请求下进行虚拟计算实验, 以验证该方案的正确性和有效性. 实验结果表明: 与COSS方案和AODV方案相比，采用QRST方案的无线网状网在吞吐量、激活链路数量和传输完成时间等网络性能上有较好的表现.
- 无线网状网 /
- 路由 /
- 强化学习 /
- Q-学习 /
- 多并发流
Abstract: The interference and resource congestion caused by multiple concurrent flows may cause sharp perfor-mance degradation of wireless mesh networks. In order to solve the problem, a Q-learning Routing and Scheduling concerning Traffic (QRST) scheme is proposed. Firstly, the Q-learning algorithm is used to find the path for each routing request. Then the combined scheduling is completed according to the path finding and channel allocation, and the connection of paths is allocated with cyber source for every slot in a heuristic way. In order to verify the co-rrectness and effectiveness of the scheme, virtual computing is performed under different network resource configurations and multiple traffic requests. The experimental results show that, compared with COSS and AODV, wireless mesh network using the QRST scheme has better performance in terms of throughput, activated link number and transmission completion time.
- wireless mesh network /
- routing /
- reinforcement learning /
- Q-learning /
- multiple concurrent flows

HTML全文

无线网状网^[1](Wireless Mesh Networks, WMN)以网状路由器(Mesh Router, MR)、网状客户端(Mesh Client, MC)为节点组成，节点具有中继转发数据包的功能. 其中，可以直接接入互联网的MR被称为网关(Gateway, GW)，GW是连接无线网状网和互联网之间的桥梁，MR和GW一起称为无线骨干网络. 每个从MC发出的路由请求通过其关联的MR传输到骨干网络中，路由请求在到达与互联网相连的GW前需要通过多个MR.

由于无线网状网的灵活性和安装的简单性, 允许其网络基础设施的低成本部署. 同时，无线网状网可用于扩展有线网络覆盖范围, 可实现随时随地的连接，为无线网状网的普及提供了良好的基础. 若无线网状网只配置单个接口和信道，会存在一定的局限性，因为其节点不能同时发送和接收数据包. 为了提高无线网状网的性能和容量，每个节点可以配备多个接口和多个信道. 然而，由于无线信道资源的稀缺性和无线接口所支持的信道数量有限，在传输数据时网络性能会受到干扰和拥塞的严重影响，从而导致了一定的丢包和延迟^[2]. 特别地，在无线网状网中，多个用户同时发出传输请求的情况时常出现^[3]，多对传输请求同时发生而导致网络波动和产生干扰，这个共有现象称为多并发流问题. 在多并发流下，不同数据流所选择的路径不可避免地存在节点交叉或者局部链路重叠的情形，易引起数据流间的资源竞争，抢占节点资源，从而造成负载不均衡甚至拥塞现象. 另外，借助无线网络的设备数量呈指数级增长. 电脑、智能手机和平板设备等各种智能设备都需要借助无线网状网进行互联网接入^[4]，在这些设备上运行的应用程序亦呈指数级增长，从而导致网络中的数据量也呈指数级增长，加剧了多并发流问题的严重性.

传统的路由方案总是基于固定的规则，只考虑单一的网络度量，如吞吐量、丢包率和端到端延迟等，而没有综合考虑整个网络环境情况. 在无线网状网中，单独使用这些指标来选择路由流量的路径可能不是一个好的解决方案. 例如，路径的跳数可能是最优的，但是该路径不一定是最优的，可能具有更多的干扰. 因此，为了能在合理时间内获得联合的最优解，我们需要以几个指标为前提去优化无线网状网中的路径.

在无线网状网中，路径寻找是针对一个流量请求，在源节点到目标节点之间确定一条可传输数据连通路径，该路径由有限个两两相连节点的链接构成，即节点的序列；信道分配问题是为所确定路径上的所有链接分配可用的信道；调度是将一个传输时隙分配给所找路径上的每一个链接；路由策略是无线网状网中从每一个路由请求的初始节点到目的节点的路由规划. 对于多并发流的问题，单从路由、信道分配或者调度方面考虑都被证明是NP-难问题^[5]. 为了解决这个问题，学者们从不同的角度提出了解决方案，如：提出了联合信道分配和路由的方案来提高网络性能^[6]；为了保证吞吐量，从服务质量(Quality of Service, QoS)的角度出发，基于OLSR路由协议^[7]提出一种新的路由方案^[8]；为改进功率分配、干扰和拥塞，提出了一种贪婪式的算法^[9]. 然而，无线网状网以动态信道和负载条件为特征，因此，通过静态的计算路径转发的流量将无法保持高吞吐量. 而且，在高度动态的环境下，使用跟随瞬时网络条件的短期路由策略不能帮助实现长期最优性能，需要智能地根据这些网络环境自适应地选择链路，以实现网络资源的合理使用.

为了解决上述问题, 一个可行的方法是使用强化学习^[10]算法. 强化学习已经应用于各种无线网络，如无线自组网络Ad Hoc^[11]、无线传感器网络^[12]和认知无线网络^[13]. 除此之外，在无线网状网路由问题上，有学者利用强化学习得到网络性能表现上更优的方案，该方案考虑了网关周围的关键区域和多个网络性能度量来寻找路径^[14]；还有从体验质量(Quality of Experience, QoE) 的角度出发，利用强化学习动态调整每个节点发送数据包的策略^[15]. 基于文献[11-15]的启发，在COSS方案^[16]的基础上，本文提出了基于流量模式的Q-学习路由与调度(Q-learning Routing and Scheduling Concerning Traffic Mode, QRST)方案：依托信道分层模型^[17]来表示网络拓扑，利用强化学习中的Q-learning算法寻找路径来完成路由传输，再将路由、信道分配和调度组合起来；根据网络资源的负载情况，自适应地针对每一个路由请求学习最优路由策略，然后进行组合调度优化. 最后，通过设置不同的网络配置进行虚拟计算实验，分析采用QRST、COSS、AODV方案的无线网状网的网络性能.

1. 预备知识

1.1 强化学习的介绍

强化学习(Reinforcement Learning, RL)是一种计算学习方法，是智能体不断与环境进行交互，并根据经验调整其策略来最大化其长远的所有奖励累积值的一个过程.

智能体是强化学习的执行个体，我们可以预设参数让智能体根据所处的环境自主做出决策. 如图 1所示：当智能体在t时刻选择一个合适的动作a_t后，环境的状态s_t变为状态s_t+1，得到奖励r_t+1；然后，智能体继续选择下一个合适的动作，环境的状态又会改变，从而得到新的奖励值，直到完成特定的目标为止.

图 1 强化学习模型图解

Figure 1. The illustration of the reinforcement learning model

下载: 全尺寸图片幻灯片

一个强化学习的系统可以由6个要素组成：(1)智能体的动作a. 具体地，智能体在t时刻采取的动作记为a_t. (2)环境的状态s. 具体地，在t时刻的环境状态记为s_t. (3)环境的奖励r. 智能体采取动作a_t后得到的奖励记为r_t+1，该奖励会在t+1时刻得到. (4)智能体的策略π. 策略是一个智能体的行为模型，是从状态到行为的映射函数，即智能体会依据策略π来选择动作. (5)值函数. 值函数是一个期望函数，表示的是智能体在当前状态s和策略π的累积折扣回报，一般有2种表示形式. 第1种表示形式为：

$v_{\pi}(s)=E_{\pi}\left[\sum\limits_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s\right],$

(1)

其中，γ为折扣因子，取值为0 < γ < 1，用来权重即时和未来的奖励; 第2种表示形式为：

$Q_{\pi}(s, a)=E_{\pi}\left[\sum\limits_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s, a_{t}=a\right],$

(2)

表示的是智能体在当前策略π下，给定状态s和动作a时的累积折扣回报. (6)模型. 模型是用来预测环境下一步可能发生的变化的一套描述系统，环境状态的转化模型可以表示为一个概率模型，是在状态s下采取动作a后转到下一个状态s′的概率的一个集合.

一般来说，决策是由一个智能体在与环境交互的过程中，通过反复学习做出的. 最终目标是让智能体学习到一个最优策略，使其在与环境交互过程中的累积奖励最大化. 智能体面临的一个挑战是利用与探索：智能体必须利用以前学习的知识，但又必须探索其环境中的新动作和状态，以便寻找更好的策略.

1.2 网络模型的介绍

本文采用的是笛卡尔乘积(Cartesian Product of Graph, CPG)模型^[18]，以便在无线网状网中对多并发流的路径进行讨论和研究. 多并发流下的无线网状网结构可用Γ={G, I, Ω, ξ, {(f_i, d_i)}}来表示，其中：

(1) G=(V, E)为一个无线网络的网状拓扑结构图，其中|V|代表节点数量，|E|代表边的数量；

(2) I为G上节点之间的无线干扰关系；

(3) Ω={c₁, c₂, …, c_q}为网络拓扑图上可用正交信道的集合，其中q为可用正交信道的数量；

(4) ξ为节点接口数量；

(5){(f_i, d_i)} (i=1, 2, …, ρ)为多个源节点与目标节点对的集合；

(6) Λ={ λ_i}={(f_i, d_i), z_i}为列表{(f_i, d_i)}相对应的传输请求队列，z_i>0为数据的大小.

在该无线网状网模型中，I的干扰判定条件为：

(1) 2个不同的发射节点sender_node间的距离不小于2跳；

(2) 2个不同的接收节点receiver_node间的距离不小于1跳；

(3) 发射节点sender_node与接收节点receiver_node间的距离大于1跳.

同一信道中的可共存条件为(1)∧(2)∧(3).

2. QRST方案的设计

本文在COSS方案的基础上，针对多并发流问题提出了一个基于网络负载的智能调度方案. 该方案由路由方案和调度方案组成.

2.1 路由方案的设计

首先，获取正交信道的数量g，CPG网络模型将网络拓扑分为g个虚拟的网络层，每层的网络拓扑结构相同，但各个节点之间所属的正交信道不同. 每个节点上有多个信道和接口，节点的身份转化为g个虚拟网络层信道差异的节点，虚拟计算时仍把分层的节点看作同一个节点. 然后，为每一条路径分配可用信道时，需逐层检查当前网络层下信道的可用性，若该路径上的当前链接在当前网络层下能满足同一信道中链接可共存条件的干扰关系I，则将当前网络层所属的信道分配给链接.

QRST方案中，在路径发现的阶段，对给定路由请求的节点对(f_i, d_i)，采用强化学习中的Q-lear-ning算法来寻找路径. Q-Learning算法是一种使用时序差分求解强化学习控制问题的方法，在Q-Learning算法中，将Q值Q(s, a)定义为在状态s下选择行为a并遵循最优策略的估计值. 因此，Q-Learning算法的最终目标是通过估计其Q值来寻找最优策略. 在Q-Learning算法中，学习到Q值，然后使用即时奖励和折扣奖励进行更新，并保存在一个大小为|s| * |a|的状态价值函数表中，其中，|s|为状态的数量，|a|为动作的数量. 在状态中选择的动作的Q值更新如下：

$\begin{array}{l} Q\left(s_{t}, a_{t}\right) \leftarrow Q\left(s_{t}, a_{t}\right)+\alpha\left(r_{t}\left(s_{t}, a_{t}\right)+\gamma \max\limits_{a} Q\left(s_{t+1}, a\right)-\right. \\ \qquad \left.Q\left(s_{t}, a_{t}\right)\right), \end{array}$

(3)

其中，α (0 < α < 1)表示学习率，γ (0 < γ < 1)表示折扣系数. 如果α=1，则智能体将会忘记其先前学习的Q值，并用最新估计的奖励替换该Q值. γ越接近于0，智能体越注重下一步的奖励；γ越接近于1，智能体越注重整体的奖励情况. 更新迭代在利用与探索之间的折衷采用ε-greedy策略，该策略通过设置一个较小的ε值，使用1-ε的概率贪婪地选择目前认为是最大行为价值的动作，而用ε的概率随机从所有m个可选动作中选择一个. 用公式表示为：

$\pi(a \mid s)=\left\{\begin{array}{l} \varepsilon / m+1-\varepsilon \quad\left(a^{*}=\underset{a \in A}{\operatorname{argmax}} Q\left(s_{t}, a\right)\right), \\ \varepsilon / m \quad\left(a^{*} \neq \underset{a \in A}{\operatorname{argmax}} Q\left(s_{t}, a\right)\right) . \end{array}\right.$

(4)

ε-greedy策略的优点是：当时间趋于无穷大时，该策略可以保证每个动作被无限次地采样，这是Q-learning算法收敛的必要条件. 利用Q-learning算法寻找路径流程如算法1所示.

算法1 Q-learning寻找路径算法

输入：迭代次数T, 状态s, 动作a, 学习率α, 折扣系数γ, 探索率ε

输出：状态价值函数表

初始化s和状态价值函数表

for T do

使用ε-greedy策略，在状态s下选择动作a，从而确定下一跳节点，并获得新状态s′和奖励值r

更新Q(s, a):

Q(s_t, a_t)←Q(s_t, a_t)+α(r_t(s_t, a_t)+ $γ \max\limits_α$ Q(s_t+1, a)-Q(s_t, a_t))

s=s′

if s′是目标节点

结束当前迭代

else

继续寻找目标节点

end if

end for

针对每一个路由请求，构建强化学习智能体，根据马尔可夫决策过程(Markov Decision Process, MDP)模型来描述智能体的工作环境：状态s_t ∈S={1, 2, …, N-1}，s_t表示在t时刻时智能体所处的位置，N表示整个拓扑上的节点数量；动作a_t ∈A={1, 2, …, J}，表示在t时刻时智能体对下一跳节点的选择；奖励r_t (s_t, a_t) 是在t时刻，智能体根据所处的状态s_t选择的动作a_t时的奖励值，具体数值由2个节点之间的可用网络资源来确定，可用的网络资源是指未被占用信道，一条路径上的可用网络资源越多，代表路径上的节点的平均可用资源越多，路径上的网络负载也就越轻. 在该方案中，奖励值设定为：

$r_t(s_t,a_t)=-C_m {\text{(sender_node, receiver_node)}}+\\ \qquad C_e {\text{(sender_node, receiver_node)}} ,$

(5)

其中，C_m (sender_node, receiver_node)代表发送节点和接收节点之间所有信道的数量，也是CGP模型的虚拟层层数，C_e (sender_node, receiver_node)代表发送节点和接收节点之间所有被占用的信道数量. 可用资源越多的节点的奖励值越大，反之亦然. 在QRST方案中，能根据网络负载来寻找路径，避免节点负载过重的区域，智能地选择负载较轻的节点，从而避免资源竞争的现象.

QRST方案的路由模型(图 2)寻找路径的步骤如下：首先，根据网络拓扑结构建立强化学习智能体和初始化状态价值函数表：将没有相连的节点赋予一个非常大的负值，以确保智能体无法到达相连的节点，其他相连节点的Q值初始化为0. 然后，智能体将路由请求作为输入，通过源节点和中继节点尝试寻找目的节点，每当节点i向其邻居节点j发送数据包时，节点j通过反馈信号做出响应，该反馈信号表示其到达下一个邻居节点的估计值. 在QRST方案中，反馈的Q值是节点i到节点j的网络资源剩余量. 节点i收到反馈后，智能体利用式(3)来更新当前位置对应状态价值函数表中的Q值，即Q(i, j)，随后继续为下一个节点寻找其邻居节点，直到找到目的节点. 再根据设定好的迭代次数，继续重复为该路由请求寻找路径，从而根据网络资源迭代收敛状态价值函数表，寻找到一条最优路径. 路径上的每条链路都与网络资源的剩余量相关联，对于状态价值函数表中每个状态-动作对，在经过采样之后，计算其Q值，并将此Q值用于估计沿着路由向目的节点发送数据包时的网络资源量. 由于使用了Q值的查找，因此，QRST方案的收敛性得到了保证^[18].

图 2 QRST方案的路由模型

Figure 2. The routing model of QRST scheme

下载: 全尺寸图片幻灯片

2.2 调度方案的设计

在QRST方案中，首先，根据输入的每一个路由请求λ_i，为其源节点与目标节点对(f_i, d_i)找到合适的路径，该路径由一个或多个两两相连的节点对构成；然后，为每个节点对分配信道和时隙来传输数据，在一个时隙下，激活更多的链接以传输更多的数据包和路由请求^[19]，从而有效利用网络资源.

为了能够清晰地阐述该调度方案，需要提前定义若干符号. 记Τ为网络拓扑的更新周期，L_i为节点对(f_i, d_i)的路径长度，P为所有可兼容路径的集合，F_c(j)为判断当前节点j是否有可用信道的函数. QRST方案的目标是在Γ中实现网络资源的最大化利用，即最大化多并发流链接的数量. 调度方案的具体流程如下：

(1) 在调度开始前，先收集拓扑网络的信息，包括节点状态、传输请求和拓扑结构等；

(2) 在调度时，将周期Τ分为多个时隙t_i (t_i=1, 2, …, T). 在每个时隙中，方案先用Q-lear-ning算法为每一个路由请求寻找路径，然后逐一遍历未加入集合P的路径是否为当前时隙下的可兼容路径. 若满足同一信道中链接的干扰关系I，则将该路径加入P；

(3) 若当前网络资源已经无法分配信道，则进入下一个时隙，再逐一检查未加入P的所有路径，直到所有路径都加入到P.

参考文献[19], 该调度方案(算法2)将网络拓扑的更新周期分为多个时隙，通过逐一遍历所有路径，为符合可兼容条件的路径分配信道和时隙，从而实现所有路径的组合优化调度，最大化同一时隙下可兼容路径的数量，提高了网络资源的利用. 通过这种方式组合正交信道上若干条无干扰链路构成的路径被称为可兼容路径. 该路径上的所有链路都分配了合适的信道，避免了无线干扰I，使其不会与先前已分配好资源的路径产生冲突，以实现多并发传输.

算法2 基于网络负载的调度方案

输入：网络结构Γ

输出：可兼容路径集合P

初始化P

初始化信道和接口

for T do

for路由请求集合Λ do

Q-learning算法为给定路由请求的节点对(f_i, d_i)寻找路径;

for路径的链接L do

if两节点间存在可用信道

在时隙t下，为该链接分配信道

else

不分配信道，且将该链接放到下一个时隙t+1下

end if

end for

if路由请求(f_i，d_i)所有的链接都分配了信道

将该信道加入P中

end if

end for

3. 虚拟计算实验与结果分析

本节通过python程序虚拟计算，比较在不同网络资源配置和路由请求下，分别采用QRST、AODV、COSS方案的无线网状网的网络性能变化.

实验场景是在1 000 m*1 000 m的区域范围内随机生成36个节点，节点间的传输距离为100 m，如图 3所示.

图 3 36个节点的随机网络拓扑图

Figure 3. The 36-node random topology

下载: 全尺寸图片幻灯片

为保证实验的准确性，每组实验都要进行10次，每次实验条件中仅路由请求的节点对不同，最终取10次实验结果的平均值以避免随机性. 在Python虚拟计算实验下，每一跳可以传输一个数据包，所需时间均为1个时隙(5 ms)，1个时间周期为0.5 s(100个时隙). 具体参数如下：可用接口数量R分别为4、8、12、16、20，可用信道数量分别为8、16、32，学习率α=0.01，探索率ε=0.1，折扣因子γ=0.9，数据包大小为1 MB，数据包个数为250个，链路容量为200 MB/s，传输距离为150 m.

在性能指标上，采用能够反映无线网状网性能的指标：无线网状网的平均吞吐量、平均激活链路数量和路由请求传输完成时间. 这些指标的具体定义如下：

(1) 平均吞吐量：单位时间内无线网状网中所有目标节点所接收到的数据总量. 该指标可以有效衡量网络的性能：平均吞吐量越高，则表示网络性能越好.

(2) 平均激活链路数量：单位时间内无线网状网中激活的链路数量. 该指标为网络中并发的链路数量，可以有效衡量网络性能.

(3) 路由请求传输完成时间：无线网状网中所有路由请求从开始传输数据到全部数据被接收所需的时间. 该指标可以有效地评估网络的承载能力: 传输所需时间越短，说明网络在单位时间内传输的数据量越多，单位时间内能够承载的数据流数量越多，网络承载能力越强.

3.1 不同流量模式下的网络性能表现

在固定网络资源配置下，通过改变随机路由请求的数量，分析采用QRST、COSS和AODV方案的无线网状网的性能表现. 由在不同数量的路由请求下的平均吞吐量(图 4)可知：采用QRST方案的平均吞吐量明显高于采用COSS、AODV方案的，这表明QRST方案充分利用了各个时隙下的网络资源来传输数据包，同时能够有效避免高负载现象的出现；随着路由请求数量的增加，QRST方案的性能优越性愈加明显.

图 4 采用3种方案的无线网状网在不同数量路由请求下的平均吞吐量(|R|=16∧|C|=32)

Figure 4. The average throughput of WMN using three methods under different numbers of routing request (|R|=16∧|C|=32)

下载: 全尺寸图片幻灯片

由相同的网络配置下的平均激活链路数量(图 5)可知：(1)平均激活链路数量的曲线趋势与平均吞吐量的大体一致；(2)采用QRST方案的平均激活链路数量高于采用COSS、AODV方案的，其原因是QRST方案充分利用了网络资源，为每条链路选择合适的分配信道，并发的链路之间不产生干扰，从而使每条链路都能高效率地传输数据.

图 5 采用3种方案的无线网状网在不同数量路由请求下的平均激活链路数量(|R|=16∧|C|=32)

Figure 5. The average number of active links of WMN using three methods under different numbers of routing request (|R|=16∧|C|=32)

下载: 全尺寸图片幻灯片

由相同网络配置下的传输时间(图 6)可知：采用QRST方案的传输时间比采用另外2种方案的略长一些，其原因可能是平均激活链路的数量多了，需略微牺牲传输时间来换取更高的吞吐量和激活的链路数量.

图 6 采用3种方案的无线网状网在不同数量路由请求下的传输时间(|R|=16∧|C|=32)

Figure 6. The transmit time of WMN using three methods under different numbers of routing request (|R|=16∧|C|=32)

下载: 全尺寸图片幻灯片

为了探讨QRST方案中Q-learning算法的迭代次数对网络性能表现的影响，将迭代次数分别设置为300、400、500次. 由图 7可知：在足够多的迭代次数下，采用QRST方案的无线网状网在网络性能表现上并没有太大变化.

图 7 采用QRST方案的无线网状网在不同迭代次数下的多组路由请求的平均吞吐量(|R|=16∧|C|=32)

Figure 7. The average throughput of different routing requests under different iteration times of WMN using QRST (|R|=16∧|C|=32)

下载: 全尺寸图片幻灯片

在确定网络配置和流量模式下，分析QRST方案中学习过程对网络性能的影响. 由图 8可知：(1)前150次迭代过程的阶段中，采用QRST方案的平均吞吐量会有一定的波动，这是因为此时Q还未完全收敛，所以会有不同的路径，从而影响网络性能的表现；(2)到了150次的学习次数后，平均吞吐量的表现逐渐稳定在一个范围内波动.

图 8 30对路由请求的学习过程对平均吞吐量的影响(|R|=4∧|C|=8)

Figure 8. The influence of learning process of 30 pairs of routing requests on average throughout (|R|=4∧|C|=8)

下载: 全尺寸图片幻灯片

3.2 不同网络资源配置下的网络性能表现

在确定随机路由请求数量为30对的情况下，将网络资源配置设置为可控变量，分析采用QRST、COSS、AODV方案的无线网状网在不同网络资源配置下的平均吞吐量.

由图 9至图 11可知：

图 9 |C|=8且不同接口数时采用3种方案的无线网状网的平均吞吐量

Figure 9. The average throughput of WMN using three methods when |C|=8 and under different interface numbers

下载: 全尺寸图片幻灯片

图 10 |C|=16且不同接口数时采用3种方案的无线网状网的平均吞吐量

Figure 10. The average throughput of WMN using three methods when |C|=16 and under different interface numbers

下载: 全尺寸图片幻灯片

图 11 |C|=32且不同接口数时采用3种方案的无线网状网的平均吞吐量

Figure 11. The average throughput of WMN using three methods when |C|=32 and under different interface numbers

下载: 全尺寸图片幻灯片

(1) 当|C|=8时，采用QRST方案的平均吞吐量始终低于采用COSS、AODV方案的. 其原因是QRST方案中Q-learning算法寻找路径是采用信道数量作为奖励值，所以在信道资源匮乏的时候，采用QRST方案的平均吞吐量要低于采用COSS、AODV方案的.

(2) 在|C|=16时，采用QRST方案的平均吞吐量与采用COSS方案的相差无几，两者均稍高于采用AODV方案的；随着接口数量的增加，采用QRST方案的平均吞吐量高于采用COSS、AODV方案的.

(3) 在|C|=32时，随着接口数量的增加，QRST方案所带来的性能提升要优于另外2种方案：在|R|=12时，采用QRST方案的平均吞吐量已高于采用COSS、AODV方案的，而且是大幅度的提升，说明在|R|=12时，QRST方案已经能充分利用网络资源，而采用COSS、AODV方案的平均吞吐量要在|R|=16时才能有如此大幅的提升，但仍低于采用QRST方案的，说明QRST方案在网络资源充足的前提下，能够较好地应对无线网状网中多并发流的问题.

4. 结论

为了解决无线网状网中多并发流这一现象引发的路由和网络资源配置紧张的问题，在COSS方案的基础上，本文提出了基于流量的Q-学习路由与调度方案(QRST). 该方案首先获取网络的基本信息，包括拓扑结构和路由请求；然后使用强化学习中的Q-learning算法来寻找路径；基于所得到的路径，为路由分配无干扰的信道，形成可兼容路径；最后组合调度所有可兼容路径完成传输. 虚拟计算实验表明：QRST方案在不同流量模式下能取得较好的网络性能，在一定的网络配置下的网络性能也优于采用AODV、COSS方案的.

图 1 强化学习模型图解

Figure 1. The illustration of the reinforcement learning model

下载: 全尺寸图片幻灯片

图 2 QRST方案的路由模型

Figure 2. The routing model of QRST scheme

下载: 全尺寸图片幻灯片

图 3 36个节点的随机网络拓扑图

Figure 3. The 36-node random topology

下载: 全尺寸图片幻灯片

图 4 采用3种方案的无线网状网在不同数量路由请求下的平均吞吐量(|R|=16∧|C|=32)

Figure 4. The average throughput of WMN using three methods under different numbers of routing request (|R|=16∧|C|=32)

下载: 全尺寸图片幻灯片

图 5 采用3种方案的无线网状网在不同数量路由请求下的平均激活链路数量(|R|=16∧|C|=32)

Figure 5. The average number of active links of WMN using three methods under different numbers of routing request (|R|=16∧|C|=32)

下载: 全尺寸图片幻灯片

图 6 采用3种方案的无线网状网在不同数量路由请求下的传输时间(|R|=16∧|C|=32)

Figure 6. The transmit time of WMN using three methods under different numbers of routing request (|R|=16∧|C|=32)

下载: 全尺寸图片幻灯片

图 7 采用QRST方案的无线网状网在不同迭代次数下的多组路由请求的平均吞吐量(|R|=16∧|C|=32)

Figure 7. The average throughput of different routing requests under different iteration times of WMN using QRST (|R|=16∧|C|=32)

下载: 全尺寸图片幻灯片

图 8 30对路由请求的学习过程对平均吞吐量的影响(|R|=4∧|C|=8)

Figure 8. The influence of learning process of 30 pairs of routing requests on average throughout (|R|=4∧|C|=8)

下载: 全尺寸图片幻灯片

图 9 |C|=8且不同接口数时采用3种方案的无线网状网的平均吞吐量

Figure 9. The average throughput of WMN using three methods when |C|=8 and under different interface numbers

下载: 全尺寸图片幻灯片

图 10 |C|=16且不同接口数时采用3种方案的无线网状网的平均吞吐量

Figure 10. The average throughput of WMN using three methods when |C|=16 and under different interface numbers

下载: 全尺寸图片幻灯片

图 11 |C|=32且不同接口数时采用3种方案的无线网状网的平均吞吐量

Figure 11. The average throughput of WMN using three methods when |C|=32 and under different interface numbers

下载: 全尺寸图片幻灯片

参考文献(19)

[1]	AKYILDIZ I F, WANG X D, WANG W L. Wireless mesh networks: a survey[J]. Computer Networks, 2004, 47(4): 445-487.
[2]	GALVEEZ J J, RUIZ P M. Efficient rate allocation, routing and channel assignment in wireless mesh networks supporting dynamic traffic flows[J]. Ad Hoc Networks, 2013, 11(6): 1765-1781. doi: 10.1016/j.adhoc.2013.04.002
[3]	CAO Z M, WU C Q, BERRY M L. On routing of multiple concurrent user requests in multi-radio multi-channel wireless mesh networks[C]//Proceedings of the IEEE 17th International Conference on Parallel and Distributed Computing, Applications and Technologies. Piscataway: IEEE, 2016: 24-29.
[4]	GHASEMPOUR A. Internet of things in smart grid: architecture, applications, services, key technologies, and cha-llenges[J]. Inventions, 2019, 4(1): 22-34. doi: 10.3390/inventions4010022
[5]	ROH T, LEE J W. Channel assignment, link scheduling, routing, and rate control for multi-channel wireless mesh networks with directional antennas[J]. Journal of Communications and Networks, 2016, 18(6): 884-891. doi: 10.1109/JCN.2016.000123
[6]	JONATHAN W, XUE Y. The robust joint solution for channel assignment and routing for wireless mesh networks with time partitioning[J]. Ad Hoc Networks, 2014, 13: 210-221. doi: 10.1016/j.adhoc.2011.05.002
[7]	JACQUET P, MUHLETHALER P, CLAUSEN T, et al. Optimized link state routing protocol for ad hoc networks[C]//Proceedings of the 2001 IEEE International Multi Topic Conference on Technology for the 21st Century. Lahore, Pakistan: IEEE, 2001: 62-68.
[8]	PENG Y H, YAO Y, GUO L, et al. An efficient joint channel assignment and QoS routing protocol for IEEE 802.11 multi-radio multi-channel wireless mesh networks[J]. Journal of Network and Computer Applications, 2013, 36(2): 843-857. doi: 10.1016/j.jnca.2012.11.003
[9]	ISLAM M, RAZZAQUE M A, MAMUN-OR-RASHID M. Joint link-channel selection and power allocation in multi-radio wireless mesh networks[C]//Proceedings of the 2017 IEEE 18th International Symposium on a World of Wireless, Mobile and Multimedia Networks (WoWMoM). Macau, China: IEEE, 2017: 1-7.
[10]	SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge: MIT Press, 2018.
[11]	WU C, YOSHINAGA T, JI Y, et al. A reinforcement lear-ning-based data storage scheme for vehicular ad hoc networks[J]. IEEE Transactions on Vehicular Technology, 2016, 66(7): 6336-6348.
[12]	SAVAGLIO C, PACE P, ALOI G, et al. Lightweight reinforcement learning for energy efficient communications in wireless sensor networks[J]. IEEE Access, 2019, 7: 29355-29364. doi: 10.1109/ACCESS.2019.2902371
[13]	CHEN X, ZHAO Z, ZHANG H, et al. Reinforcement lear-ning enhanced iterative power allocation in stochastic cognitive wireless mesh networks[J]. Wireless Personal Communications, 2011, 57(1): 89-104. doi: 10.1007/s11277-010-0008-6
[14]	BOUSHABA M, HAFID A, BELBEKKOUCHE A, et al. Reinforcement learning based routing in wireless mesh networks[J]. Wireless Networks, 2013, 19(8): 2079-2091. doi: 10.1007/s11276-013-0592-y
[15]	COUTINHO N, MATOS R, MARQUES C, et al. Dynamic dual-reinforcement-learning routing strategies for quality of experience-aware wireless mesh networking[J]. Computer Networks, 2015, 88: 269-285. doi: 10.1016/j.comnet.2015.06.016
[16]	黄启嵩, 曹霑懋, 单志龙. 无线网状网中多并发流路由结合调度的组合方案[J]. 华南师范大学学报(自然科学版), 2020, 52(1): 122-128. doi: 10.6054/j.jscnun.2020018 HUANG Q S, CAO Z M, SHAN Z L. A combined scheme of multi concurrent flow routing and scheduling in wireless mesh networks[J]. Journal of South China Normal University(Natural Science Edition), 2020, 52(1): 122-128. doi: 10.6054/j.jscnun.2020018
[17]	WATKINS C J C H, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8(3/4): 279-292. doi: 10.1023/A:1022676722315
[18]	CAO Z M, XIAO W J, PENG L. A mesh×chain graph model for MIMO scheduling in IEEE802.16 WMN[C]//Proceedings of the 2010 Second International Conference on Computer Modeling and Simulation. Sanya, Hainan, China: IEEE, 2010: 547-551.
[19]	CAO Z M, WU C Q, ZHANG Y P, et al. On modeling and analysis of mimo wireless mesh networks with triangular overlay topology[J]. Mathematical Problems in Enginee-ring, 2015, 2015: 185262/1-11.

施引文献(4)

期刊类型引用(1)

聂萌瑶，刘鑫. 考虑最大通信量的物联网群体访问路由算法. 计算机仿真. 2024(02): 415-419 .

百度学术

其他类型引用(3)

资源附件(0)

图(11)

计量

文章访问数: 497
HTML全文浏览量: 210
PDF下载量: 72
被引次数: 4

1. 预备知识
1.1 强化学习的介绍
1.2 网络模型的介绍
2. QRST方案的设计
2.1 路由方案的设计
2.2 调度方案的设计
3. 虚拟计算实验与结果分析
3.1 不同流量模式下的网络性能表现
3.2 不同网络资源配置下的网络性能表现
4. 结论

基于流量模式的Q-学习路由及其连接调度

通讯作者: 曹霑懋, Email: caozhanmao@m.scnu.deu.cn

计量

出版历程