2024年3月10日发(作者:)
第47卷
Vol.47
第4期
No.4
计算机工程
ComputerEngineering
文章编号:1000-3428(2021)04-0013-08文献标志码:A
2021年4月
April2021
中图分类号:TN929.5
·热点与综述·
面向车联网的多智能体强化学习边云协同卸载
叶佩文
1
,贾向东
2
,杨小蓉
1
,牛春雨
1
(1.西北师范大学计算机科学与工程学院,兰州730070;2.南京邮电大学江苏省无线通信重点实验室,南京214215)
摘要:车联网边缘计算是实现车联网系统低时延和高可靠性的关键技术,但现有方法普遍存在场景趋同和系统建
模局限的问题,同时包含复杂的训练过程并面临维灾风险。通过结合云计算技术,提出一种基于多智能体强化学习
的边云协同卸载方案。依据随机几何理论计算卸载节点覆盖概率,对车辆节点与卸载对象进行预配对。利用线性Q函数
分解方法反映每个智能体多效用因子与任务决策间的映射关系,通过云端协同机制将智能体决策记录作为经验上传
到云端,并在云端将训练更完备的神经网络反馈到边缘节点。仿真结果表明,该方案在功耗和延时方面性能优于单
一固定边缘的计算策略,且算法复杂度较低,能够有效提升边云协同卸载能力,实现低时延、高可靠的任务卸载。
关键词:车联网;多智能体强化学习;随机几何理论;边云协同计算;任务卸载策略;资源分配
开放科学(资源服务)标志码(OSID):
中文引用格式:叶佩文,贾向东,杨小蓉,等.面向车联网的多智能体强化学习边云协同卸载[J].计算机工程,2021,
47(4):13-20.
英文引用格式:YEPeiwen,JIAXiangdong,YANGXiaorong,orativeedgeandcloudoffloadingforInternet
ofvehiclesusingmulti-agentreinforcementlearning[J].ComputerEngineering,2021,47(4):13-20.
CollaborativeEdgeandCloudOffloadingforInternetofVehicles
UsingMulti-AgentReinforcementLearning
YEPeiwen
1
,JIAXiangdong
2
,YANGXiaorong
1
,NIUChunyu
1
ssCommunicationKeyLabofJiangsuProvince,NanjingUniversityofPostsandTelecommunications,Nanjing214215,China)
(eofComputerScienceandEngineering,NorthwestNormalUniversity,Lanzhou730070,China;
【Abstract】EdgecomputingforInternetofVehicles(IoV)iskeytorealizinghighlyreliableandlow-latencyIoVsystems.
However,existingmethodsgenerallyhavetheproblemsofsceneconvergenceandsystemmodelinglimitations,andarefaced
iningthecloudcomputingtechnology,thispaper
proposesacollaborativeedgeategyuses
thestochasticgeometrytheorytocalculatethecoverageprobabilityoftheoffloadingnodesandpre-matchthevehicularnodes
basis,thelinearQfunctiondecompositionmethodisusedtoreflectthemappingrelationship
betweeneachagent’roughthecollaborativecloudandedgecomputingmech
anism,eachagent’sdecisionrecordsareuploadedtothecloudasexperience,andthemorecomprehensivelytrainedneuralnetwork
ultsofsimulationshowthattheproposedschemeoutperformsthecomputingstrategiesusing
hodreducesthealgorithmcomplexity,andcan
significantlyimprovethecollaborativeedgeandcloudoffloadingabilitytorealizehighlyreliableandlow-latencytaskoffloading.
【Keywords】InternetofVehicles(IoV);multi-agentreinforcementlearning;stochasticgeometrytheory;collaborative
edgeandcloudcomputing;taskoffloadingstrategy;resourceallocation
DOI:10.19678/.1000-3428.0058323
0概述
展望6G愿景的背景下,构筑“车-人-路-云”泛在连接
的车联网(InternetofVehicles,IoV)成为必然趋势
[1-2]
。
与此同时,在城市中部署智能交通系统(Intelligent
TransportationSystem,ITS)缓解交通压力也已成为
目前,车辆消费升级、道路容量日趋饱和等客观
因素加剧了城市的交通困境。在5G商用落地同时
基金项目:国家自然科学基金(61861039,61561043,61261015);甘肃省科技计划“无人机关键技术研究”(18YF1GA060)。
作者简介:叶佩文(1993—),男,硕士研究生,主研方向为车联网通信、移动边缘计算;贾向东,教授、博士;杨小蓉、牛春雨,硕士研究生。
收稿日期:2020-05-14修回日期:2020-06-26E⁃mail:**************.cn
14
计算机工程
2021年4月15日
主流选择。而车联网作为ITS的核心部分,更需要
在网络架构和使能技术上不断演进
[3]
。
在网络架构方面,得益于云计算技术的迅猛发展,
车联网的大量计算任务可以有效地迁移到分布式云端
服务器上进行数据处理、统一调度和计算资源分配。
然而,单一的车辆云架构不可避免地要求数据进行长
距离、高时延传输,这无法满足需要敏捷响应的V2V安
全类信息通信要求。通过分析车辆行为与预测模型可
以发现车辆群体存在局部性特征
[4-5]
,即计算任务的卸
载范围通常局限于相邻行驶车辆或车与周边路旁单元
之间,而将移动边缘计算(MobileEdgeComputing,
MEC)作为一种新的范式引入车联网,能够将计算能力
下沉至网络边缘,从而减少服务时延
[6]
。
在使能技术上,车联网边缘计算卸载可利用凸优
化、图论以及博弈均衡等方法。但近年来人工智能特
别是深度强化学习
[7-8]
在计算机视觉、自然语言处理、语
音识别等领域获得巨大成功,这吸引了国内外学者重
新思考车联网边缘计算卸载方案的设计思路。
现有车联网边缘卸载策略存在场景同质化严重的
问题,且在性能上仍有较大的提升空间。本文针对更
泛在的城市街道场景,结合强化学习和随机几何理论,
提出一种边云协同的车辆边缘卸载方案。结合随机几
何理论和人工智能方法优化车联网边云卸载过程,将
每个源车辆单元(SourceVehicleUnit,SVU)作为智能
体来进行学习决策,并把由此产生的复杂训练过程转
换到云端训练神经网络中,使SVU仅依靠局部决策即
能把握全局特征。此外,还将资源队列模型作为神经
网络输入前件,以降低维灾风险。
1相关工作
文献[9]针对车辆边缘计算(VehicularEdge
Computing,VEC)网络提出了移动感知的任务卸载
方法,以达到执行成本最小化的目的。文献[10]提
出一种联合云计算、移动边缘计算和本地计算的多
平台智能卸载方案,根据任务属性,利用强化学习算
法选择卸载平台,旨在最小化时延并节省系统总成
本,但网络模型中的控制面和数据面深度耦合,使得
任务处理缺乏灵活性。文献[11]提出了基于软件定
义
[12]
的车载网络框架,其核心思想是将控制面和数
据面分离,使运营商能够更灵活地控制和更快速地
部署网络,但是车辆业务复杂和网络拓扑结构多变
的因素导致这一框架对车辆特征的抽象还不够成
熟,相应的车载网络虚拟化技术仍需要深入研究。
文献[13]针对类似高速路口拥塞场景,利用车联网
异构资源性能互补特性,即计算资源开销来供给通
信资源需求,提出了基于雾计算
[14]
的车联网边缘资
源融合机制,从而弥补车联网资源时空分布不均的
不足,但雾化机制
[15]
涉及大量基础设施的改造和升
级,因此,该机制在构建部署阶段仍面临诸多挑战。
文献[16]针对车联网超可靠低延时通信(Ultra-
ReliableLow-LatencyCommunication,URLLC)过程,
将有异构性需求的车辆节点作为多智能体,利用强化
学习进行数据卸载决策。文献[17]以相邻的车辆节点
作为移动边缘服务器,以路边设施作为固定边缘服务
器,利用半马尔科夫过程对时变信道进行建模,使移动
用户根据Q学习算法确定卸载对象,同时针对增加训
练过程动作状态空间可能引起维灾的问题,提出利用
深度神经网络来逼近Q函数的深度强化学习算法,旨
在使系统总效用最大。文献[18]基于值迭代和策略迭
代两种思路提出动作-评价学习(Actor-Criticlearning,
AC)算法。得益于Actor执行动作然后Critic进行评估
的优势,该算法在高维度空间仍具有良好的收敛属性,
但存在评价策略偏差较大的问题,导致求解所得只是
局部最优解。文献[19]将无线信道状态、缓存状态以
及计算能力均纳入系统状态作为环境进行交互,由于
通信
3
、缓存、计算(Communication,Caching,
衡
C)
Computing,
3
资源在应用场景具有耦合互补的特性
C资源效用为任务调度卸载提供了一个广阔的思
,因此综合权
路。文献[20]在此基础上进一步考虑了时间尺度对协
调优化的影响,提出大时间尺度采用粒子群优化理论
而小时间尺度采用深度Q学习算法调优的细化方案。
然而,现有车联网边缘计算方法普遍存在以下不
足:1)多数方法仅在单一的高速公路场景进行建模,而
此类场景通常假定车辆服从空间泊松过程(Spatial
PoissonProcess,SPP),这明显限制了适用范围,且简化
了车联网实际通信的真实时空分布;2)云计算平台大
多采用集中式部署方案,计算任务从本地迁移到云端
存在重构开销,且队列形式的任务传输易导致额外排
队时延和无序争用,而目前缺乏边缘计算节点协同云
平台的相关研究;3)在利用人工智能手段方面,现有研
究的奖励机制设计单一,从而导致训练模型的泛化性
较差。
本文结合强化学习和随机几何理论,提出一种
边云协同的车辆边缘卸载方案
1)针对场景趋同、系统建模局限的问题
,主要包括以下工作:
道建模为经典Manhattan模型
[21]
,并利用随机CoX
,将城市街
过程
[22]
对移动车辆进行细粒度建模,相应考虑视距(Lineof
Sight,LoS)和非视距(Non-LineofSight,NLoS)两种情
况的信道状态。进一步地,考虑到级联对象包含目标
车辆单元(TargetVehicleUnit,TVU)和路边单元(Rode
SideUnit,RSU),对于SVU而言在时空上具备离散性
和流动性,通过随机几何理论分析级联对象接收信干
比(SignaltoInterferenceRatio,SIR)覆盖概率,从而划
分出卸载节点的优先级,从根本上消除转化成组合优
化问题的必要性,降低计算复杂度。
第47卷第4期叶佩文,贾向东,杨小蓉,等:面向车联网的多智能体强化学习边云协同卸载
15
行决策
2)依据边云协同的思想
,并将决策记录作为经验上传到云端
,将SVU作为智能体进
,云端通
过经验训练神经网络,每隔一段时间将训练更完备
的神经网络反馈到边缘节点上。由此,只专注局部
决策的SVU能够捕捉到云端存储的全局特征而无
需承担复杂的训练过程
励,因
3)
此
由
设
于
计
强
更
化
贴
学
近
习
实
的
。
际
本
的
质
多
是
角
环
色
境
博
交
弈
互
奖
和
励
基
机
于
制
奖
。
同时,为使从全局观察缩小到局部观察具有实质性
作用,将节点资源队列分析作为输入的预先工作,从
而减少计算任务的排队时间,并在一定程度上降低
维灾风险。
2系统模型
本文研究的系统模型如图1所示,其中小区的网
络架构由基站(BaseStation,BS)和RSU共同组成。基
站通过核心网络连接云端服务器,具有计算能力的RSU
作为固定边缘服务器(FixedEdgeServer,FES),中央云
服务器可以通过回程链路连接FES支持远程调度。将
具有计算能力的TVU作为移动边缘服务器(MobileEdge
Server,VES),并从更广义的角度定义边缘节点性质,
包括TVU和RSU两种类型。
图1车联网边云协同卸载系统模型
Fig.1Systemmodelofcollaborativeedgeandcloud
offloadingforIoV
假设本地计算容量已饱和,上述场景下的卸载
途径可分为以下3种情况:1)在LoS范围内,SVU将
计算任务卸载给相邻满足条件的TVU,由于车辆到
BS上行链路的利用相对不充分,且BS端对干扰更
具可控性,因此为提高频谱利用率,SVU可以复用
V2B上行链路进行计算任务卸载;2)在NLoS范围
内,SVU同样可以复用V2B上行链路进行计算任务
卸载;3)在基础设施完备(即已部署RSU)的车辆稀
疏路况场景中,SVU可以将计算任务卸载到满足条
件的RSU端。
本文将车联网的空间分布建模为泊松线性Cox点
过程(PoissonLineCoxPointProcess,PLCPP),对象包
含车辆节点和路边节点。具体过程如下:将车辆节点
空间分布建模为密度为
μ
V
的独立PLCPP,用
Φ
V
表示;
考虑到RSU沿道路布放,将RSU空间分布建模为线密
度为
μ
R
的独立泊松线过程(PoissonLineProcess,PLP),
用
Φ
R
表示。假设车辆节点中TVU占比为
β
,遵循
PLCPP,则TVU服从密度为
μ
TVU
=μ
V
β
的PLCPP,SVU
服从密度为
μ
SVU
=μ
V
(
1-β
)
的PLCPP。
2.1通信模型
不失一般性,本文假设SVU使用最近距离级联
卸载准则
[23]
,并遵循广义边缘节点性质。定义计算
任务集合
T=
{
T
1
T
2
T
J
}
,SVU集合用K表示,
TVU集合用N表示,RVU集合用
ϒ
表示。考虑计算
任务卸载到边缘节点存在视距(LoS)和非视距
NLoS)两种情况,在周期
t
内,SVU卸载计算任务
T
j
(
jÎJ
)
到边缘节点的路径损耗可表示为:
ì
ï
ï
ρ
(
|
|
x
(1t)
2
|
2
)
-e
j
-x
(2t)
|
j
+
|
y
(1t)
-y
(2t)
,
LoS范围
h
(t)
ï
=
ï
||
jj
|
j
í
ï
ï
ï
|
t)t)
|
-e
ï
ξ
(
|
x
(1
-x
(2
g
|
y
(1t)
-y
(2t)
|
jj
||
jj
|
)
,
NLoS范围
î
(1)
其中,
x
(t)t)t)t)t)
j
=
(
x
(1
j
x
(2
j
)
和
y
(t)
j
=
(
y
(1
j
y
(2
j
)
分别表示
SVU和边缘节点的位置信息,
D=
(
x
(t)(t)
j
-
y
j
:
{
x
(t)
j
=
(
x
(1t)
j
x
(2t)
j
)
y
(t)
=
(
y
(1t)t)
jj
y
(2
j
)
}
)
为两者的距离,
ρ
和
ξ
是路径损耗指数,且满足
ξ<ρ(φ
0
/2)
e
。
因此,在LoS范围内,第
n
个(
nÎN
)相邻TVU与
第
k
个(
kÎΚ
)SVU级联接收的SIR可表示为:
t)
SIR
TVULoS
|
-α
kn
=
P
k
g
(
kj
|
D
I
(k)
(2)
RSU
+I
(
k
'
k)
其中,
g
(t)(t))
kj
=ν
k
×h
(t
j
为信道增益,
ν
(t)
k
为瑞利分布快速衰落
因子,
P
k
表示SVU的发射功率,
D
表示SVU到TVU
的距离,
α>2
为频率参数,
I
(k)
RSU
=
RSU的干扰,
∑
P
-α
R
g
R
D
是来自
rÎϒ
P
R
是RSU的传输功率,
g
R
是RSU对SVU
的干扰。类似地,
I
(k)
k
′
=
(
k
′
ÎK
)
Ú
(
k
′
¹k
)
车辆
k
(
′
k
′
¹kk
′
ÎΚ
)对TVU
∑
P
k
′
g
k
′
D
k
′
-α
表示其他
的干扰,
P
k
′
为
k
′
的传输功
率,
g
k
'
为
k
'
对SVU的干扰,
D
k
′
表示第
k
′
个SVU到
第k个SVU的距离。
因此,LoS范围内卸载到第k个TVU的频谱效
率可表示为:
e
TVU
=lb
(
1+SIR
TVULoS
knkn
)
(3)
(
16
计算机工程
2021年4月15日
引理1假设SVU的卸载许可半径为
L
S
,与SVU
级联的TVU接收的SIR覆盖概率可表示为式(4),其中,
Δ'
(
α
)
=πcsc
(
πα
)
α
,
Δ=2πcsc
(
2πα
)
α
。证明见文
献[23]。
P
TVU
Cov
)
SIR
TVULoS
ζ
V
)
=
P
P
(t)
k
g
k
L
S
-α
Cov
(
(
ζ
V
αL
S
=P
Cov
I
(k)k)
RSU
+I
(
k
′
≥ζ
V
)
(
k
≥
=
P
T
-α
V
L
S
Cov
(
g
(t)
k
≥
P
(I
(k)
I
(k)
RSU
+
k
′
)
»
k
é
E
ê
N
ê
ê
ê
wexp
-
u
i
ζ
V
L
S
(
I
k)
RSU
+I
k
′
)
ë
∑
i
i=1
(
)
α
)
ù
(k)(
P
ú
ú
k
ú
ú
=
û
∑
N
w
i
L
I
(k)
(
δ
)
L
I
(k)
(
k
′
δ
)
=
i=1
RSU
∑
N
w
i
exp
(
-2μ
TVU
L
S
u
α
i
ζ
1/
V
Δ'α
i=1
)
×
exp
(
-μ
2
L
2
α
TVU
μ
r
π
S
uζ
2/
iV
Δα
)
(4)
结合式(2)~式(4)可知,从第
k
个SVU卸载到
第
n
个TVU的数据速率为:
R
TVUTVU
n
=P
Cov
(
ζ
V
αL
S
)
e
TVU
kkn
(5)
类似地,对于SVU处于车辆稀疏且RSU设施完
善的区域,SVU可以卸载计算任务到满足条件的
RSU,与第
k
个SVU级联的第
r
个TVU接收的
SIR为:
SIR
RSU
P
t)
-α
k
g
(
k
D
r
kr
=
I
(k)k)
(6)
TVU
+I
(
r
′
其中,
I
(k)
是来自TVU的干扰,
k)
TVU
I
(
r
′
是来自其他TVU
的干扰。
因此,卸载到第
r
个RSU的频谱效率可表示为:
e
RSURSU
kr
=lb
(
1+SIR
kr
)
(7)
引理2假设SVU的卸载许可半径为
L
S
,与
SVU级联的RSU接收SIR覆盖概率可表示为:
t)
P
RSU
P
r
g
(
k
D
-α
Cov
(
ζ
r
α
)
=P
Cov
I
(k)(k)
TVU
+I
r
′
≥ζ
R
{
()
=
1aπe
-a
2
/4b
c
é
2b
+
4b
3/2
ê
ê
erf
a
ú
ë
(
2b
-1
)
ù
ú
û
}
(8)
其中,
a=2μ
TVU
Δ'
(
α
)
,
b=π
2
μ
TVU
μ
R
(
ζ
R
P
r
)
2α
Δ
(
α
)
,
c=
2πμ
R
。证明见文献[23]。
结合式(7)和式(8)可知,从第
k
个SVU卸载到
第
r
个RSU的数据速率为:
R
RSURSU
r
=P
Cov
(
ζ
R
α
)
e
RSU
kkr
(9)
2.2计算模型
在计算卸载过程中,可定义SVU的卸载任务
T
j
(
H
j
Q
j
t
max
j
)
,其中,
H
j
表示计算任务数据大小,
Q
max
j
表示完成任务所需计算资源量,
t
j
表示最大等待
时间。
对于将计算任务卸载到TVU的场景,SVU卸载
计算任务
H
j
到TVU的时间开销包括通信时间和计
算时间两部分。
卸载到TVU的通信时间取决于计算任务数据
大小
H
j
和提供服务TVU的数据速率,结合式(9),通
信时间可以表示为:
t
TVU
H
j
jcomm
=
R
TVU
(10)
kn
对于卸载到TVU的计算任务,依照队列形式保
存到TVU缓存中,并更新资源队列状态,实行任务
迁移,保证排队延时远小于任务计算时间。因此,计
算时间仅依赖于任务所需计算资源
Q
j
和TVU的计
算能力
f
TVU
j
(即单位时间内CPU周期数),可表示为:
t
TVU
jcomp
=
Q
j
f
TVU
(11)
j
结合式(10)和式(11)可知,TVU的总执行时
间为:
t
TVU
=t
TVUTVU
jjcomm
+t
jcomp
(12)
类似地,将计算任务卸载到RSU场景的执行时
间同样包括通信时间和计算时间两部分。
卸载到RSU的通信时间可表示为:
t
RSU
H
j
jcomm
=
R
RSU
(13)
kr
卸载到RSU的计算时间可表示为:
t
RSU
Q
j
jcomp
=
f
RSU
(14)
j
结合式(13)和式(14)可知,RSU的总执行时
间为:
t
RSURSU
j
=t
RSU
jcomm
+t
jcomp
(15)
2.3资源队列分析模型
SVU在卸载计算任务时需要考虑卸载节点计算
队列大小。不失一般性,假设队列节点初始资源量
为
q
initial
,平均计算任务到达率
E[T
j
]=λ
,在许可半径
L
S
内满足资源量的TVU和RSU概率分别可表示为:
q
initial
P
TVU
q
=
∑
Z
i
(
λL
S
)
(16)
i=1
q
initial
P
RSU
q
=
∑
Z
i
(
λL
S
)
(17)
i=1
第47卷第4期叶佩文,贾向东,杨小蓉,等:面向车联网的多智能体强化学习边云协同卸载
17
其中,
Z
i
(
λL
S
)
表示Zipf分布。
假设所考虑的车联网中SVU在周期t内生成任务的
概率为
p
j
,SVU级联卸载节点可提供的资源量表示为
Θ=
P
(
D
2
)
(
1-p
)
2
j
μ
TVU
μ
SVU
E
[
L
]
,其中,
P
(
D
)
表示平面周
长,
E
[
L
]
表示道路平均长度。因此,TVU所需保证的队
列长度为
Θ
TVU
=Θ
(
1-P
TVU
q
)
,SVU所需保证的队列长度
为
Θ
SVU
=ΘP
RSU
q
。相应地,对于周期t内生成任务
T
j
,卸载
节点资源队列长度
q
(j)
{
(
-P
TVURSU
t
=max
Θ1
q
)
ΘP
q
}
。
3问题描述
本节分别从执行时延、能耗约束和费用开销维
度分析车联网任务卸载问题,并量化统一成系统效
用评价卸载性能,将3个维度评价性能的累加作为
奖励机制来反馈训练神经网络。
1执行时延
d
F
j
。定义
F
为指示符,用于区分
TVU和
)
RSU,则计算任务
T
F
{
j
执行时延
d
j
可表示为:
d
F
t
TVU
+t
TVU
jcommjcomp
FµTVU
j
=
t
RSURSU
(18)
jcomm
+t
jcomp
FµRSU
2)能耗约束
Ψ
F
j
。设置计算任务卸载满足能耗约束
条件为正,否则作为惩罚进行负反馈,TVU和RSU完成
计算任务
T
TVU
j
的能耗分别可表示为
E
TVU
j
=P
n
Z
j
R
kn
和
E
RSU
j
=P
TVU
r
Z
j
R
kr
,相应地,设定能耗阈值分别为
δ
TVU
和
δ
RSU
,同时设置指示函数
Ι
{
Ω
}
,若
Ω
成立则
Ι
{
Ω
}
=1
,否则
Ι
{
Ω
}
=-1
,则能耗约束可表示为:
Ψ
F
j
=Ι
{
{
E
TVU
j
>δ
TVU
}
Ú
{
E
RSU
j
>δ
RSU
}
}
(19)
营商(
3
Vehicle
)费用开销
Network
φ
F
j
。考虑实际网络架构包括车联网运
Operator,VNO)、基础设施供应
商(InfrastructureProvider,InP)和业务供应商(Service
Provider,SP)三类角色。假设VNO需向InP支付的频
谱租赁费用为
ε
,VNO需向SP支付计算费用
φ
,则计算
任务
T
j
的费用开销包含通信开销和计算开销两部分,
可以表示为:
(
ε
TVU
+φ
TVU
φ
F
j
=
{
)
×R
TVU
kn
FµTVU
(
ε
RSU
+φ
RSU
)
×R
RSU
(20)
kr
FµRSU
综上所述,基于多角色博弈的奖励机制,卸载任
务的系统效用可由执行时延、能耗约束和费用开销
三者的子效用累计和来表示,即:
u
F
j
=ω
1
d
j
+ω
2
ψ
F
j
+ω
3
φ
F
j
(21)
其中,
ω=[ω
1
ω
2
ω
3
]
表示子效用系数,在训练过程
中通过调整该参数来确定子效用的倾向性,例如在
稀疏场景下更关注费用开销,而在密集场景下更关
注执行时延。
4多智能体强化学习边云卸载机制
车联网是典型的高速移动实时传输场景,在其
中进行单一云端集中式优化存在参数冗余、更新滞
后和耗费通信开销等问题。分布式边云协同机制利
用云端将训练更完备的神经网络反馈到边缘节点,
使得边缘节点仅需要相邻节点信息来更新参数执行
操作。本节首先介绍状态空间、动作空间及系统效
用,然后描述多智能体强化学习流程及改进方案。
态可
1
表
)状态空间
示为
s
(t)
。
{
用
t
S
)
表示状态集合
φ
(Ft)
,在时刻t的状
j
=d
(F
j
ψ
(Ft)
jj
}
ÎS
,该状态表征了
计算任务
T
j
的时延、能耗和开销状态。
的动
2
作
)动
α
作空
α
间。定义动作集为A,计算任务采取
j
ÎA
,
j
=1
代表计算任务
T
j
卸载到TVU上
执行,
α
j
=0
代表计算任务
T
j
卸载到RSU上执行,否
则在该周期内不采取任何动作。
销三者的子效用作为奖励函数评价动作空间与状态
3)系统效用。累计任务时延、能耗约束、费用开
空间的映射关系,结合式(21),在时刻t系统立即效
用可表示为:
U
(
s
(t)
j
α
j
)
=ω
(t)Ft)Ft)
1
d
j
+ω
(
2
ψ
j
+ω
(
3
φ
F
j
(22)
进一步地,由于当前的动作仅受前一时刻状态
影响,当前状态通过执行某一动作转换到下一状态,
因此可利用马尔科夫决策过程来表述。假设状态空
间到动作空间的映射为
Φ
,即
Φ
(
s
(t)
j
)
=a
j
,则系统状态
转移概率可表示为
{
:
Prs
(t+1)
j
|
s
(t)
j
Φ
(
s
(t)
)
}
{
t+1)
j
=Pr
d
(
j
|
d
(t)
j
Φ
(
s
(t)
j
)
}
×
Pr
{
ψ
(t+1)
|
ψ
(t)
Φ
(
s
(t)
jjj
)
}
×
Pr
{
φ
(t)
|
φ
(t)(t)
jj
Φ
(
s
j
)
}
(23)
状态值函数
V
π
(
s
)
和状态动作函数
Q
π
(
sα
)
可
以表示为:
¥
V
éù
π
(
s
)
=Ε
π
ê
ë
(
1-γ
)
γ
)
∑
γ
(t-1)
×U
(
s
(t)
j
α
j
)|
s
(t)
j
=s
(0)
j
ú
(24)
t=0
û
Q
π
(
sα
)
=
(
1-U
(
s
(t)
j
α
j
)
+
γ×
∑
Prs
(t+1)
j
s
(t)
j
Φs
(t)
j
×V
(
s
(t+1)
)
s
(t+1)
{
|
()
}
(25)
其中,
π
表示SVU当前采取的策略,
γ
表示折扣因子。
根据式(25)和贝尔曼公式的定义,进一步可得到式(26):
Q
π
(
sα
)
=
(
1-γ
)
U
(
sα
)
+
γ
∑
Prs
(t+1)
j
|
s
(t)
j
Φ
(
s
(t)
j
)
}
×
s
(t+1)
{
j
maxQ
(
s
(t+1)
a
(t+1)
j
α
(t+1)
j
)
(26)
j
18
计算机工程
2021年4月15日
基于值迭代或策略迭代的传统方法需要智能体
获得全局信息,不适用于信息特征变化频繁的车联
网场景。由于Q学习在与环境交互的过程中通过局
部信息不断地试错来找到最优行为,因此SVU可以
通过Q学习最大化长期效用获得最佳的控制决策。
但结合式(22)和式(26)可知此方法存在以下两点不
足:1)状态空间的大小会随着训练的轮数大幅增加,
影响收敛性;2)出现梯度消失或梯度爆炸现象,导致
模型退化。本文对此做以下改进:
1
将智能体在环境探索过程中获得的经验数据存
)采用经验重放策略。
放在经验池中,在后续训练深度神经网络的过程中
随机采样更新网络参数。经验池表示为
Μ
(j)
={m
(j-M+1)
m
(j-M)
m
(j)
}
,存放的经验数据元组表示为
m
(j)
=
(
s
(t)
αU
(
s
(t)
)
s
(t+1)j)(j)
jjj
α
jj
)
。SVU随机采样
M
(
ÍM
输入
神经网络进行训练,而非直接利用连续样本进行训练。
更新规则可表示为:
Q
(t+1)
(
sα
)
=Q
(t)
(
sα
)
+α
(t)
(
(
1-γ
)
×U
(
sα
)
+γ×
maxQ
(t)
α
j
(
s
α
)
-Q
(t)
jj
(
s
j
α
j
)
)
(27)
2
由式
)采用边云协同思想及线性
(22)可知,系统效用由任务时延
Q函数分解理论
、能耗约束
。
和费用开销累加形成,需要训练大量的参数,不可避
免地需要更多的计算资源和存储资源,并且会增加
训练时间。因此,本文利用边云协同思想,将神经网
络的训练过程放置到云端,利用经验回放池的数据
进行训练。此外,采用线性Q函数分解理论对式(22)
做进一步改进。设智能体指示符
K=
{
123
}
分别对
应3个效用分量,式(22)可表示为:
U
(
sα
)
=
进一步地,
∑
ω
k
u
k
(28)
kÎK
式(25)可以表示为:
Q
(
sα
)
=
∑
Q
k
(
sαθ
)
(29)
kÎK
因此,式(27)所示的更新规则改进为:
Q
(t+1))
k
(
sα
)
=Q
(t
k
(
sα
)
+α
(t)
(
(
1-γ
)
×U
k
(
sα
)
+
γ×Q
(t)
()
j)
k
s
j
α
j
-Q
(
k
(
s
j
α
j
)
)
(30)
5仿真结果与分析
5.1仿真设置
利用MATLAB仿真平台对所提边云协同卸载
方案进行仿真评估。仿真遵循Manhattan模型描述
的参数设置并按照MEC白皮书
[6]
相关规定构建系统
模型,使用SNIA云服务器记录所有数据集,并提供
云端的计算服务支持边缘节点参数更新。具体仿真
参数见表1。
表1仿真参数
Table1Parametersofsimulation
参数数值
车辆节点空间分布密度
μ
V
=50π
TVU占比率/MHz
β=0.2
计算任务数量
J=5000
视距/非视距路径损耗指数/dB
ρ=-68.5ξ=-54.5
SVU/RSU/TVU数量
K=5ϒ=20Ν=10
频率参数
α=4
SVU/RSU/TVU功率/dBm
23,54,23
SVU许可半径/m
L
S
=50
计算任务大小/KB
H
j
=400
资源量/GHz
Z
j
=0.2
最大时延/ms
t
max
j
=20
RSU/TVU计算能力/(GHz·周期
-1
)
计算任务到达率
0.1
4
~
/2
0.9
子效用因子向量
ω
=[0.6,0.2,0.2]
经验重放池容量
M=3000
Mini-batch大小
500
更新步长
80
神经网络层数
4
神经元总数
100
5.2结果分析
为验证所提方案的收敛性并比较不同学习率对其
收敛性的影响,将时延作为参照结果。由图2可以看
出:当学习率为0.01时,收敛到一个局部最优解时延较
大;缩小学习率至0.005可以得到较大的性能提升,但
收敛速度变缓;学习率为0.001时,在收敛结果上仍有
较大提升。考虑到更小的学习率会导致长时间无法收
敛,本文采用0.001的学习率作为后续实验参数。
图2不同学习率下训练周期与时延的关系
Fig.2Therelationshipoftrainingperiodandtimedelay
underdifferentlearningrates
第47卷第4期叶佩文,贾向东,杨小蓉,等:面向车联网的多智能体强化学习边云协同卸载
19
不同方案的累计能耗随训练周期的变化趋势如
图3所示,其中累计能耗的大小代表了计算任务迁
移量。可以看出:对照组没有利用云端技术,边缘节
点累计能耗在短时间内快速上升,随着任务量逐步
均衡迁移而达到稳定状态,因为路边单元的计算能
力强于车辆节点,所以仅V2I卸载方案略优于仅
V2V卸载方案;本文方案利用边云协同优势,在训练
过程中参数更新及时,局部参数的快速迭代能拟合
得到全局最优解,因此在较短的时间内就达到了系
统功耗均衡。
图3不同方案训练周期与能耗的关系
Fig.3Therelationshipoftrainingperiodand
energyconsumptionunderdifferentschemes
不同方案系统效用随计算任务到达率及频谱分
配因子的变化趋势如图4所示。可以看出:一方面,
系统效用随计算任务到达率先增后减,在计算任务
到达率为0.6时达到最佳状态,此时资源队列较优,
使得执行子效用对系统效用倾向性较大,通过调整
子效用系数来应对不同场景需求,本文对于执行时
间有强约束,故将子效用系数设置为
ω
=[0.6,0.2,0.2];
另一方面,计算任务生成率越高也能提升系统效用,
任务数据传输不易丢包。相较于仅V2V卸载和仅
V2I卸载方案,本文方案具有明显优势。在对照组实
验中,当计算任务达到率仅为0.5时资源队列就达到
饱和状态,计算任务已处于排队状态。
图4不同方案计算任务到达率与系统效用的关系
Fig.4Therelationshipofsystemutilityandcomputation
tasksarrivalrateunderdifferentschemes
不同频谱分配因子m下系统效用与计算任务到
达率的关系如图5所示。可以看出,尽管本文方案
计算任务到达率为0.6时系统效用已达到最大值,但
随着到达率的增加仍保持接近最佳值,体现了本文
方案的有效性。
图5不同频谱分配因子下计算任务到达率与系统效用的关系
Fig.5Therelationshipofcomputationtasksarrivalrateand
systemutilityunderdifferentspectrumallocationfactors
不同训练周期和子效用系数设置下时延与能耗
的关系如图6所示。可以看出:一方面,随着训练周
期增加,即训练的迭代次数的增加能反馈给智能体
更完备的神经网络结构,使得计算任务的卸载能耗
有所下降,但值得注意的是,云端训练的开销能否得
到有效供给是一个开放性问题,在本文中训练周期
为4000时达到了收敛状态;另一方面,随着子效用
系数
ω
2
的增大,系统的能耗也逐渐增大。费用开销
子效用系数
ω
3
对于能耗的影响较大,
ω
3
值增大导致
能耗快速增长。
图6不同训练周期和子效用系数设置下时延与能耗的关系
Fig.6Therelationshipofdelayandenergyconsumption
underdifferentsettingsoftrainingperiodand
sub-utilitycoefficient
6结束语
本文提出一种基于多智能体强化学习的车联网
任务卸载方案。采用随机几何理论对资源队列进行
控制,从而降低任务排队时延,同时分离云端训练神
经网络和节点决策神经网络,使云端能够更精准地
提取环境特征,节点端则定时根据云端反馈的优化
20
计算机工程
2021年4月15日
参数进行在线决策。仿真结果表明,与单一固定边
缘的计算策略相比,该方案能够有效减小时延和能
耗并且降低计算复杂度。下一步将结合节点缓存技
术设计更高效的车联网计算任务卸载方案。
参考文献
[1]ZHANGL,LIANGYC,NIYATOD.6Gvisions:
mobileultra-broadband,superInternet-of-things,and
artificial
[2]
16
YANG
(8):1
intelligence[J].ChinaCommunications,2019,
Xiaodong,
-14.
PEIXizhen,ANFaying,e
authenticationschemeforvehicularadhocnetwork
usingidentity-basedaggregatesignature[J].Computer
Engineering,2020,46(2):170-174,182.(inChinese)
杨小东,裴喜祯,安发英,等.基于身份聚合签名的车
载自组网消息认证方案[J].计算机工程,2020,46(2
[3]
170
CHANG
-174,182
Xiang,
.
):
ZHANGRongqing,YANGLiuqing.
Wirelesstowardtheeraofintelligentvehicles[J].IEEE
InternetofThingsJournal,2019,6(1):188-202.
[4]ZHOUHuan,WANGHui,floading
techniquesthroughvehicularadhocnetworks:asurvey[J].
IEEEAccess,2018,6:65250-65259.
[5]YEPeiwen,JIAXiangdong,YANGXiaorong,etal.
End-to-endphysicallayeroptimizationschemeusingauto-
encoder
2019
叶佩文
,45(
based
,贾向东
12):
on
86
deeplearning[J].ComputerEngineering,
,
-
杨小蓉
90,97.(
,等
in
.
Chinese)
基于深度学习的自编码器
端到端物理层优化方案
[6]
86
ZHANG
-90,97
[J].计算机工程,2019,45(12):
Ke,
.
MAOYuming,LENGSupeng,-
edgecomputingforvehicularnetworks:apromising
networkparadigmwithpredictiveoff-loading[J].IEEE
VehicularTechnologyMagazine,2017,12(2):36-44.
[7]NINGZhaolong,DONGPeiran,WANGXiaojie,etal.
DeepreinforcementlearningforintelligentInternetof
vehicles:anenergy-efficientcomputationaloffloading
scheme[J].IEEETransactionsonCognitiveCommunica-
tionsandNetworking,2019,5(4):1060-1072.
[8]wofdeeplearningandintensive
learning
2020
[J].InformationTechnology&Informatization,
解帅
(
.
5
深度学习和深度强化学习综述
):225-227.(inChinese)
[J].信息技术与
信息化,2020(5):225-227.
[9]YANGChao,LIUYi,entmobility
awaretaskoffloadingforvehicularedgecomputing
networks[J].IEEEAccess,2019,7:26652-26664.
[10]CUIYaping,LIANGYingjie,ce
allocationalgorithmwithmulti-platformintelligent
offloadinginD2D-enabledvehicularnetworks[J].IEEE
Access,2019,7:21246-21253.
[11]LIBaozhu,-basedarchitecture
forintegratedvehicularcloudcomputingnetwork[C]//
Proceedingsof2018IEEEInternationalConferenceon
SelectedTopicsinMobileandWirelessNetworking.
WashingtonD.C.,USA:IEEEPress,2018:1-4.
[12]KINGD,ROTSOSC,AGUADOA,tware
definedtransportnetwork:fundamentals,findingsand
futures[C]//ProceedingsofInternationalConferenceon
gtonD.C.,USA:
IEEEPress,2016:1-4.
[13]DAIYY,XUD,MAHARJANS,cial
intelligenceempowerededgecomputingandcachingfor
Internet
[14]
2019
REJIBA
,26(
of
3
vehicles[J].IEEEWirelessCommunications,
Z,
):12
MASIP
-18.
-ationtask
assignmentinvehicularfogcomputing:alearning
approach
18
and
thInternational
vianeighbor
Symposium
advice[C]//Proceedingsofthe
[15]
2019
Applications.
HOU
:1
Xueshi,
-5.
WashingtonD.
on
C.
Network
,USA:IEEE
Computing
Press,
LIYong,CHENMin,larfog
computing:aviewpointofvehiclesastheinfrastructures[J].
IEEE
[16]
3860
TransactionsonVehicularTechnology,2016,65(6
ALTHAMARY
-3873.
):
I,HUANGCW,yon
multi-agentreinforcementlearningmethodsforvehicular
networks[C]//Proceedingsofthe15thInternationalWireless
CommunicationsandMobileComputingConference.
WashingtonD.C.,USA:IEEEPress,2019:1154-1159.
[17]LIUYi,YUHuimin,inforcement
learningforoffloadingandresourceallocationinvehicle
edgecomputingandnetworks[J].IEEETransactionson
VehicularTechnology,2019,68(11):11158-11168.
[18]YANGHL,XIEXZ,igentresource
managementbasedonreinforcementlearningforultra-
reliableandlow-latencyIoVcommunicationnetworks[J].
IEEE
4157-
Transactions
4169.
onVehicularTechnology,2019,68(5):
[19]HEYin,ZHAONan,atednetworking,
caching,andcomputingforconnectedvehicles:adeep
reinforcementlearningapproach[J].IEEETransactionson
VehicularTechnology,2018,67(1):44-55.
[20]TANLT,HURQ,-timescaleartificial
intelligenceaidedmobility-awareedgecachingand
computinginvehicularnetworks[J].IEEETransactions
onVehicularTechnology,2019,68(4):3086-3099.
[21]CHENXF,WUC,ZHANGHG,ralizeddeep
reinforcementlearningfordelay-powertradeoffin
vehicularcommunications[C]//Pro-ceedingsofInternational
gtonD.C.,USA:
IEEEPress,2019:1-6.
[22]CHOICS,ncoxpointprocessesfor
vehicularnetworks[J].IEEETransactionsonVehicular
Technology,2018,67(10):10160-10165.
[23]CHOIC,yticalframeworkfor
coverageincellularnetworksleveragingvehicles[J].
IEEE
4950-4964
Transactions
.
onCommunications,2018,66(10):
编辑金胡考


发布评论