2024年3月10日发(作者:)

第47卷

Vol.47

第4期

No.4

计算机工程

ComputerEngineering

文章编号:1000-3428(2021)04-0013-08文献标志码:A

2021年4月

April2021

中图分类号:TN929.5

·热点与综述·

面向车联网的多智能体强化学习边云协同卸载

叶佩文

1

,贾向东

2

,杨小蓉

1

,牛春雨

1

(1.西北师范大学计算机科学与工程学院,兰州730070;2.南京邮电大学江苏省无线通信重点实验室,南京214215)

摘要:车联网边缘计算是实现车联网系统低时延和高可靠性的关键技术,但现有方法普遍存在场景趋同和系统建

模局限的问题,同时包含复杂的训练过程并面临维灾风险。通过结合云计算技术,提出一种基于多智能体强化学习

的边云协同卸载方案。依据随机几何理论计算卸载节点覆盖概率,对车辆节点与卸载对象进行预配对。利用线性Q函数

分解方法反映每个智能体多效用因子与任务决策间的映射关系,通过云端协同机制将智能体决策记录作为经验上传

到云端,并在云端将训练更完备的神经网络反馈到边缘节点。仿真结果表明,该方案在功耗和延时方面性能优于单

一固定边缘的计算策略,且算法复杂度较低,能够有效提升边云协同卸载能力,实现低时延、高可靠的任务卸载。

关键词:车联网;多智能体强化学习;随机几何理论;边云协同计算;任务卸载策略;资源分配

开放科学(资源服务)标志码(OSID):

中文引用格式:叶佩文,贾向东,杨小蓉,等.面向车联网的多智能体强化学习边云协同卸载[J].计算机工程,2021,

47(4):13-20.

英文引用格式:YEPeiwen,JIAXiangdong,YANGXiaorong,orativeedgeandcloudoffloadingforInternet

ofvehiclesusingmulti-agentreinforcementlearning[J].ComputerEngineering,2021,47(4):13-20.

CollaborativeEdgeandCloudOffloadingforInternetofVehicles

UsingMulti-AgentReinforcementLearning

YEPeiwen

1

,JIAXiangdong

2

,YANGXiaorong

1

,NIUChunyu

1

ssCommunicationKeyLabofJiangsuProvince,NanjingUniversityofPostsandTelecommunications,Nanjing214215,China)

(eofComputerScienceandEngineering,NorthwestNormalUniversity,Lanzhou730070,China;

【Abstract】EdgecomputingforInternetofVehicles(IoV)iskeytorealizinghighlyreliableandlow-latencyIoVsystems.

However,existingmethodsgenerallyhavetheproblemsofsceneconvergenceandsystemmodelinglimitations,andarefaced

iningthecloudcomputingtechnology,thispaper

proposesacollaborativeedgeategyuses

thestochasticgeometrytheorytocalculatethecoverageprobabilityoftheoffloadingnodesandpre-matchthevehicularnodes

basis,thelinearQfunctiondecompositionmethodisusedtoreflectthemappingrelationship

betweeneachagent’roughthecollaborativecloudandedgecomputingmech

anism,eachagent’sdecisionrecordsareuploadedtothecloudasexperience,andthemorecomprehensivelytrainedneuralnetwork

ultsofsimulationshowthattheproposedschemeoutperformsthecomputingstrategiesusing

hodreducesthealgorithmcomplexity,andcan

significantlyimprovethecollaborativeedgeandcloudoffloadingabilitytorealizehighlyreliableandlow-latencytaskoffloading.

【Keywords】InternetofVehicles(IoV);multi-agentreinforcementlearning;stochasticgeometrytheory;collaborative

edgeandcloudcomputing;taskoffloadingstrategy;resourceallocation

DOI:10.19678/.1000-3428.0058323

0概述

展望6G愿景的背景下,构筑“车-人-路-云”泛在连接

的车联网(InternetofVehicles,IoV)成为必然趋势

[1-2]

与此同时,在城市中部署智能交通系统(Intelligent

TransportationSystem,ITS)缓解交通压力也已成为

目前,车辆消费升级、道路容量日趋饱和等客观

因素加剧了城市的交通困境。在5G商用落地同时

基金项目:国家自然科学基金(61861039,61561043,61261015);甘肃省科技计划“无人机关键技术研究”(18YF1GA060)。

作者简介:叶佩文(1993—),男,硕士研究生,主研方向为车联网通信、移动边缘计算;贾向东,教授、博士;杨小蓉、牛春雨,硕士研究生。

收稿日期:2020-05-14修回日期:2020-06-26E⁃mail:**************.cn

14

计算机工程

2021年4月15日

主流选择。而车联网作为ITS的核心部分,更需要

在网络架构和使能技术上不断演进

[3]

在网络架构方面,得益于云计算技术的迅猛发展,

车联网的大量计算任务可以有效地迁移到分布式云端

服务器上进行数据处理、统一调度和计算资源分配。

然而,单一的车辆云架构不可避免地要求数据进行长

距离、高时延传输,这无法满足需要敏捷响应的V2V安

全类信息通信要求。通过分析车辆行为与预测模型可

以发现车辆群体存在局部性特征

[4-5]

,即计算任务的卸

载范围通常局限于相邻行驶车辆或车与周边路旁单元

之间,而将移动边缘计算(MobileEdgeComputing,

MEC)作为一种新的范式引入车联网,能够将计算能力

下沉至网络边缘,从而减少服务时延

[6]

在使能技术上,车联网边缘计算卸载可利用凸优

化、图论以及博弈均衡等方法。但近年来人工智能特

别是深度强化学习

[7-8]

在计算机视觉、自然语言处理、语

音识别等领域获得巨大成功,这吸引了国内外学者重

新思考车联网边缘计算卸载方案的设计思路。

现有车联网边缘卸载策略存在场景同质化严重的

问题,且在性能上仍有较大的提升空间。本文针对更

泛在的城市街道场景,结合强化学习和随机几何理论,

提出一种边云协同的车辆边缘卸载方案。结合随机几

何理论和人工智能方法优化车联网边云卸载过程,将

每个源车辆单元(SourceVehicleUnit,SVU)作为智能

体来进行学习决策,并把由此产生的复杂训练过程转

换到云端训练神经网络中,使SVU仅依靠局部决策即

能把握全局特征。此外,还将资源队列模型作为神经

网络输入前件,以降低维灾风险。

1相关工作

文献[9]针对车辆边缘计算(VehicularEdge

Computing,VEC)网络提出了移动感知的任务卸载

方法,以达到执行成本最小化的目的。文献[10]提

出一种联合云计算、移动边缘计算和本地计算的多

平台智能卸载方案,根据任务属性,利用强化学习算

法选择卸载平台,旨在最小化时延并节省系统总成

本,但网络模型中的控制面和数据面深度耦合,使得

任务处理缺乏灵活性。文献[11]提出了基于软件定

[12]

的车载网络框架,其核心思想是将控制面和数

据面分离,使运营商能够更灵活地控制和更快速地

部署网络,但是车辆业务复杂和网络拓扑结构多变

的因素导致这一框架对车辆特征的抽象还不够成

熟,相应的车载网络虚拟化技术仍需要深入研究。

文献[13]针对类似高速路口拥塞场景,利用车联网

异构资源性能互补特性,即计算资源开销来供给通

信资源需求,提出了基于雾计算

[14]

的车联网边缘资

源融合机制,从而弥补车联网资源时空分布不均的

不足,但雾化机制

[15]

涉及大量基础设施的改造和升

级,因此,该机制在构建部署阶段仍面临诸多挑战。

文献[16]针对车联网超可靠低延时通信(Ultra-

ReliableLow-LatencyCommunication,URLLC)过程,

将有异构性需求的车辆节点作为多智能体,利用强化

学习进行数据卸载决策。文献[17]以相邻的车辆节点

作为移动边缘服务器,以路边设施作为固定边缘服务

器,利用半马尔科夫过程对时变信道进行建模,使移动

用户根据Q学习算法确定卸载对象,同时针对增加训

练过程动作状态空间可能引起维灾的问题,提出利用

深度神经网络来逼近Q函数的深度强化学习算法,旨

在使系统总效用最大。文献[18]基于值迭代和策略迭

代两种思路提出动作-评价学习(Actor-Criticlearning,

AC)算法。得益于Actor执行动作然后Critic进行评估

的优势,该算法在高维度空间仍具有良好的收敛属性,

但存在评价策略偏差较大的问题,导致求解所得只是

局部最优解。文献[19]将无线信道状态、缓存状态以

及计算能力均纳入系统状态作为环境进行交互,由于

通信

3

、缓存、计算(Communication,Caching,

C)

Computing,

3

资源在应用场景具有耦合互补的特性

C资源效用为任务调度卸载提供了一个广阔的思

,因此综合权

路。文献[20]在此基础上进一步考虑了时间尺度对协

调优化的影响,提出大时间尺度采用粒子群优化理论

而小时间尺度采用深度Q学习算法调优的细化方案。

然而,现有车联网边缘计算方法普遍存在以下不

足:1)多数方法仅在单一的高速公路场景进行建模,而

此类场景通常假定车辆服从空间泊松过程(Spatial

PoissonProcess,SPP),这明显限制了适用范围,且简化

了车联网实际通信的真实时空分布;2)云计算平台大

多采用集中式部署方案,计算任务从本地迁移到云端

存在重构开销,且队列形式的任务传输易导致额外排

队时延和无序争用,而目前缺乏边缘计算节点协同云

平台的相关研究;3)在利用人工智能手段方面,现有研

究的奖励机制设计单一,从而导致训练模型的泛化性

较差。

本文结合强化学习和随机几何理论,提出一种

边云协同的车辆边缘卸载方案

1)针对场景趋同、系统建模局限的问题

,主要包括以下工作:

道建模为经典Manhattan模型

[21]

,并利用随机CoX

,将城市街

过程

[22]

对移动车辆进行细粒度建模,相应考虑视距(Lineof

Sight,LoS)和非视距(Non-LineofSight,NLoS)两种情

况的信道状态。进一步地,考虑到级联对象包含目标

车辆单元(TargetVehicleUnit,TVU)和路边单元(Rode

SideUnit,RSU),对于SVU而言在时空上具备离散性

和流动性,通过随机几何理论分析级联对象接收信干

比(SignaltoInterferenceRatio,SIR)覆盖概率,从而划

分出卸载节点的优先级,从根本上消除转化成组合优

化问题的必要性,降低计算复杂度。

第47卷第4期叶佩文,贾向东,杨小蓉,等:面向车联网的多智能体强化学习边云协同卸载

15

行决策

2)依据边云协同的思想

,并将决策记录作为经验上传到云端

,将SVU作为智能体进

,云端通

过经验训练神经网络,每隔一段时间将训练更完备

的神经网络反馈到边缘节点上。由此,只专注局部

决策的SVU能够捕捉到云端存储的全局特征而无

需承担复杂的训练过程

励,因

3)

同时,为使从全局观察缩小到局部观察具有实质性

作用,将节点资源队列分析作为输入的预先工作,从

而减少计算任务的排队时间,并在一定程度上降低

维灾风险。

2系统模型

本文研究的系统模型如图1所示,其中小区的网

络架构由基站(BaseStation,BS)和RSU共同组成。基

站通过核心网络连接云端服务器,具有计算能力的RSU

作为固定边缘服务器(FixedEdgeServer,FES),中央云

服务器可以通过回程链路连接FES支持远程调度。将

具有计算能力的TVU作为移动边缘服务器(MobileEdge

Server,VES),并从更广义的角度定义边缘节点性质,

包括TVU和RSU两种类型。

图1车联网边云协同卸载系统模型

Fig.1Systemmodelofcollaborativeedgeandcloud

offloadingforIoV

假设本地计算容量已饱和,上述场景下的卸载

途径可分为以下3种情况:1)在LoS范围内,SVU将

计算任务卸载给相邻满足条件的TVU,由于车辆到

BS上行链路的利用相对不充分,且BS端对干扰更

具可控性,因此为提高频谱利用率,SVU可以复用

V2B上行链路进行计算任务卸载;2)在NLoS范围

内,SVU同样可以复用V2B上行链路进行计算任务

卸载;3)在基础设施完备(即已部署RSU)的车辆稀

疏路况场景中,SVU可以将计算任务卸载到满足条

件的RSU端。

本文将车联网的空间分布建模为泊松线性Cox点

过程(PoissonLineCoxPointProcess,PLCPP),对象包

含车辆节点和路边节点。具体过程如下:将车辆节点

空间分布建模为密度为

μ

V

的独立PLCPP,用

Φ

V

表示;

考虑到RSU沿道路布放,将RSU空间分布建模为线密

度为

μ

R

的独立泊松线过程(PoissonLineProcess,PLP),

Φ

R

表示。假设车辆节点中TVU占比为

β

,遵循

PLCPP,则TVU服从密度为

μ

TVU

V

β

的PLCPP,SVU

服从密度为

μ

SVU

V

(

1-β

)

的PLCPP。

2.1通信模型

不失一般性,本文假设SVU使用最近距离级联

卸载准则

[23]

,并遵循广义边缘节点性质。定义计算

任务集合

T=

{

T

1

T

2

T

J

}

,SVU集合用K表示,

TVU集合用N表示,RVU集合用

ϒ

表示。考虑计算

任务卸载到边缘节点存在视距(LoS)和非视距

NLoS)两种情况,在周期

t

内,SVU卸载计算任务

T

j

(

jÎJ

)

到边缘节点的路径损耗可表示为:

ì

ï

ï

ρ

(

|

|

x

(1t)

2

|

2

)

-e

j

-x

(2t)

|

j

+

|

y

(1t)

-y

(2t)

LoS范围

h

(t)

ï

=

ï

||

jj

|

j

í

ï

ï

ï

|

t)t)

|

-e

ï

ξ

(

|

x

(1

-x

(2

g

|

y

(1t)

-y

(2t)

|

jj

||

jj

|

)

NLoS范围

î

(1)

其中,

x

(t)t)t)t)t)

j

=

(

x

(1

j

x

(2

j

)

y

(t)

j

=

(

y

(1

j

y

(2

j

)

分别表示

SVU和边缘节点的位置信息,

D=

(

x

(t)(t)

j

-

y

j

{

x

(t)

j

=

(

x

(1t)

j

x

(2t)

j

)

y

(t)

=

(

y

(1t)t)

jj

y

(2

j

)

}

)

为两者的距离,

ρ

ξ

是路径损耗指数,且满足

ξ<ρ(φ

0

/2)

e

因此,在LoS范围内,第

n

个(

nÎN

)相邻TVU与

k

个(

kÎΚ

)SVU级联接收的SIR可表示为:

t)

SIR

TVULoS

|

kn

=

P

k

g

(

kj

|

D

I

(k)

(2)

RSU

+I

(

k

'

k)

其中,

g

(t)(t))

kj

k

×h

(t

j

为信道增益,

ν

(t)

k

为瑞利分布快速衰落

因子,

P

k

表示SVU的发射功率,

D

表示SVU到TVU

的距离,

α>2

为频率参数,

I

(k)

RSU

=

RSU的干扰,

P

R

g

R

D

是来自

rÎϒ

P

R

是RSU的传输功率,

g

R

是RSU对SVU

的干扰。类似地,

I

(k)

k

=

(

k

ÎK

)

Ú

(

k

¹k

)

车辆

k

k

¹kk

ÎΚ

)对TVU

P

k

g

k

D

k

表示其他

的干扰,

P

k

k

的传输功

率,

g

k

'

k

'

对SVU的干扰,

D

k

表示第

k

个SVU到

第k个SVU的距离。

因此,LoS范围内卸载到第k个TVU的频谱效

率可表示为:

e

TVU

=lb

(

1+SIR

TVULoS

knkn

)

(3)

16

计算机工程

2021年4月15日

引理1假设SVU的卸载许可半径为

L

S

,与SVU

级联的TVU接收的SIR覆盖概率可表示为式(4),其中,

Δ'

(

α

)

=πcsc

(

πα

)

α

Δ=2πcsc

(

2πα

)

α

。证明见文

献[23]。

P

TVU

Cov

)

SIR

TVULoS

ζ

V

)

=

P

P

(t)

k

g

k

L

S

Cov

(

(

ζ

V

αL

S

=P

Cov

I

(k)k)

RSU

+I

(

k

≥ζ

V

)

(

k

=

P

T

V

L

S

Cov

(

g

(t)

k

P

(I

(k)

I

(k)

RSU

+

k

)

»

k

é

E

ê

N

ê

ê

ê

wexp

-

u

i

ζ

V

L

S

(

I

k)

RSU

+I

k

)

ë

i

i=1

(

)



α

)

ù

(k)(

P

ú

ú

k

ú

ú

=

û

N

w

i

L

I

(k)

(

δ

)

L

I

(k)

(

k

δ

)

=

i=1

RSU

N

w

i

exp

(

-2μ

TVU

L

S

u

α

i

ζ

1/

V

Δ'α

i=1

)

×

exp

(

2

L

2

α

TVU

μ

r

π

S

2/

iV

Δα

)

(4)

结合式(2)~式(4)可知,从第

k

个SVU卸载到

n

个TVU的数据速率为:

R

TVUTVU

n

=P

Cov

(

ζ

V

αL

S

)

e

TVU

kkn

(5)

类似地,对于SVU处于车辆稀疏且RSU设施完

善的区域,SVU可以卸载计算任务到满足条件的

RSU,与第

k

个SVU级联的第

r

个TVU接收的

SIR为:

SIR

RSU

P

t)

k

g

(

k

D

r

kr

=

I

(k)k)

(6)

TVU

+I

(

r

其中,

I

(k)

是来自TVU的干扰,

k)

TVU

I

(

r

是来自其他TVU

的干扰。

因此,卸载到第

r

个RSU的频谱效率可表示为:

e

RSURSU

kr

=lb

(

1+SIR

kr

)

(7)

引理2假设SVU的卸载许可半径为

L

S

,与

SVU级联的RSU接收SIR覆盖概率可表示为:

t)

P

RSU

P

r

g

(

k

D

Cov

(

ζ

r

α

)

=P

Cov

I

(k)(k)

TVU

+I

r

≥ζ

R

{

()

=

1aπe

-a

2

/4b

c

é

2b

+

4b

3/2

ê

ê

erf

a

ú

ë

(

2b

-1

)

ù

ú

û

}

(8)

其中,

a=2μ

TVU

Δ'

(

α

)

b=π

2

μ

TVU

μ

R

(

ζ

R

P

r

)

Δ

(

α

)

c=

2πμ

R

。证明见文献[23]。

结合式(7)和式(8)可知,从第

k

个SVU卸载到

r

个RSU的数据速率为:

R

RSURSU

r

=P

Cov

(

ζ

R

α

)

e

RSU

kkr

(9)

2.2计算模型

在计算卸载过程中,可定义SVU的卸载任务

T

j

(

H

j

Q

j

t

max

j

)

,其中,

H

j

表示计算任务数据大小,

Q

max

j

表示完成任务所需计算资源量,

t

j

表示最大等待

时间。

对于将计算任务卸载到TVU的场景,SVU卸载

计算任务

H

j

到TVU的时间开销包括通信时间和计

算时间两部分。

卸载到TVU的通信时间取决于计算任务数据

大小

H

j

和提供服务TVU的数据速率,结合式(9),通

信时间可以表示为:

t

TVU

H

j

jcomm

=

R

TVU

(10)

kn

对于卸载到TVU的计算任务,依照队列形式保

存到TVU缓存中,并更新资源队列状态,实行任务

迁移,保证排队延时远小于任务计算时间。因此,计

算时间仅依赖于任务所需计算资源

Q

j

和TVU的计

算能力

f

TVU

j

(即单位时间内CPU周期数),可表示为:

t

TVU

jcomp

=

Q

j

f

TVU

(11)

j

结合式(10)和式(11)可知,TVU的总执行时

间为:

t

TVU

=t

TVUTVU

jjcomm

+t

jcomp

(12)

类似地,将计算任务卸载到RSU场景的执行时

间同样包括通信时间和计算时间两部分。

卸载到RSU的通信时间可表示为:

t

RSU

H

j

jcomm

=

R

RSU

(13)

kr

卸载到RSU的计算时间可表示为:

t

RSU

Q

j

jcomp

=

f

RSU

(14)

j

结合式(13)和式(14)可知,RSU的总执行时

间为:

t

RSURSU

j

=t

RSU

jcomm

+t

jcomp

(15)

2.3资源队列分析模型

SVU在卸载计算任务时需要考虑卸载节点计算

队列大小。不失一般性,假设队列节点初始资源量

q

initial

,平均计算任务到达率

E[T

j

]=λ

,在许可半径

L

S

内满足资源量的TVU和RSU概率分别可表示为:

q

initial

P

TVU

q

=

Z

i

(

λL

S

)

(16)

i=1

q

initial

P

RSU

q

=

Z

i

(

λL

S

)

(17)

i=1

第47卷第4期叶佩文,贾向东,杨小蓉,等:面向车联网的多智能体强化学习边云协同卸载

17

其中,

Z

i

(

λL

S

)

表示Zipf分布。

假设所考虑的车联网中SVU在周期t内生成任务的

概率为

p

j

,SVU级联卸载节点可提供的资源量表示为

Θ=

P

(

D

2

)

(

1-p

)

2

j

μ

TVU

μ

SVU

E

[

L

]

,其中,

P

(

D

)

表示平面周

长,

E

[

L

]

表示道路平均长度。因此,TVU所需保证的队

列长度为

Θ

TVU

(

1-P

TVU

q

)

,SVU所需保证的队列长度

Θ

SVU

=ΘP

RSU

q

。相应地,对于周期t内生成任务

T

j

,卸载

节点资源队列长度

q

(j)

{

(

-P

TVURSU

t

=max

Θ1

q

)

ΘP

q

}

3问题描述

本节分别从执行时延、能耗约束和费用开销维

度分析车联网任务卸载问题,并量化统一成系统效

用评价卸载性能,将3个维度评价性能的累加作为

奖励机制来反馈训练神经网络。

1执行时延

d

F

j

。定义

F

为指示符,用于区分

TVU和

RSU,则计算任务

T

F

{

j

执行时延

d

j

可表示为:

d

F

t

TVU

+t

TVU

jcommjcomp

FµTVU

j

=

t

RSURSU

(18)

jcomm

+t

jcomp

FµRSU

2)能耗约束

Ψ

F

j

。设置计算任务卸载满足能耗约束

条件为正,否则作为惩罚进行负反馈,TVU和RSU完成

计算任务

T

TVU

j

的能耗分别可表示为

E

TVU

j

=P

n

Z

j

R

kn

E

RSU

j

=P

TVU

r

Z

j

R

kr

,相应地,设定能耗阈值分别为

δ

TVU

δ

RSU

,同时设置指示函数

Ι

{

Ω

}

,若

Ω

成立则

Ι

{

Ω

}

=1

,否则

Ι

{

Ω

}

=-1

,则能耗约束可表示为:

Ψ

F

j

{

{

E

TVU

j

TVU

}

Ú

{

E

RSU

j

RSU

}

}

(19)

营商(

3

Vehicle

)费用开销

Network

φ

F

j

。考虑实际网络架构包括车联网运

Operator,VNO)、基础设施供应

商(InfrastructureProvider,InP)和业务供应商(Service

Provider,SP)三类角色。假设VNO需向InP支付的频

谱租赁费用为

ε

,VNO需向SP支付计算费用

φ

,则计算

任务

T

j

的费用开销包含通信开销和计算开销两部分,

可以表示为:

(

ε

TVU

TVU

φ

F

j

=

{

)

×R

TVU

kn

FµTVU

(

ε

RSU

RSU

)

×R

RSU

(20)

kr

FµRSU

综上所述,基于多角色博弈的奖励机制,卸载任

务的系统效用可由执行时延、能耗约束和费用开销

三者的子效用累计和来表示,即:

u

F

j

1

d

j

2

ψ

F

j

3

φ

F

j

(21)

其中,

ω=[ω

1

ω

2

ω

3

]

表示子效用系数,在训练过程

中通过调整该参数来确定子效用的倾向性,例如在

稀疏场景下更关注费用开销,而在密集场景下更关

注执行时延。

4多智能体强化学习边云卸载机制

车联网是典型的高速移动实时传输场景,在其

中进行单一云端集中式优化存在参数冗余、更新滞

后和耗费通信开销等问题。分布式边云协同机制利

用云端将训练更完备的神经网络反馈到边缘节点,

使得边缘节点仅需要相邻节点信息来更新参数执行

操作。本节首先介绍状态空间、动作空间及系统效

用,然后描述多智能体强化学习流程及改进方案。

态可

1

)状态空间

示为

s

(t)

{

t

S

)

表示状态集合

φ

(Ft)

,在时刻t的状

j

=d

(F

j

ψ

(Ft)

jj

}

ÎS

,该状态表征了

计算任务

T

j

的时延、能耗和开销状态。

的动

2

)动

α

作空

α

间。定义动作集为A,计算任务采取

j

ÎA

j

=1

代表计算任务

T

j

卸载到TVU上

执行,

α

j

=0

代表计算任务

T

j

卸载到RSU上执行,否

则在该周期内不采取任何动作。

销三者的子效用作为奖励函数评价动作空间与状态

3)系统效用。累计任务时延、能耗约束、费用开

空间的映射关系,结合式(21),在时刻t系统立即效

用可表示为:

U

(

s

(t)

j

α

j

)

(t)Ft)Ft)

1

d

j

(

2

ψ

j

(

3

φ

F

j

(22)

进一步地,由于当前的动作仅受前一时刻状态

影响,当前状态通过执行某一动作转换到下一状态,

因此可利用马尔科夫决策过程来表述。假设状态空

间到动作空间的映射为

Φ

,即

Φ

(

s

(t)

j

)

=a

j

,则系统状态

转移概率可表示为

{

Prs

(t+1)

j

|

s

(t)

j

Φ

(

s

(t)

)

}

{

t+1)

j

=Pr

d

(

j

|

d

(t)

j

Φ

(

s

(t)

j

)

}

×

Pr

{

ψ

(t+1)

|

ψ

(t)

Φ

(

s

(t)

jjj

)

}

×

Pr

{

φ

(t)

|

φ

(t)(t)

jj

Φ

(

s

j

)

}

(23)

状态值函数

V

π

(

s

)

和状态动作函数

Q

π

(

sα

)

以表示为:

¥

V

éù

π

(

s

)

π

ê

ë

(

1-γ

)

γ

)

γ

(t-1)

×U

(

s

(t)

j

α

j

)|

s

(t)

j

=s

(0)

j

ú

(24)

t=0

û

Q

π

(

sα

)

=

(

1-U

(

s

(t)

j

α

j

)

+

γ×

Prs

(t+1)

j

s

(t)

j

Φs

(t)

j

×V

(

s

(t+1)

)

s

(t+1)

{

|

()

}

(25)

其中,

π

表示SVU当前采取的策略,

γ

表示折扣因子。

根据式(25)和贝尔曼公式的定义,进一步可得到式(26):

Q

π

(

sα

)

=

(

1-γ

)

U

(

sα

)

+

γ

Prs

(t+1)

j

|

s

(t)

j

Φ

(

s

(t)

j

)

}

×

s

(t+1)

{

j

maxQ

(

s

(t+1)

a

(t+1)

j

α

(t+1)

j

)

(26)

j

18

计算机工程

2021年4月15日

基于值迭代或策略迭代的传统方法需要智能体

获得全局信息,不适用于信息特征变化频繁的车联

网场景。由于Q学习在与环境交互的过程中通过局

部信息不断地试错来找到最优行为,因此SVU可以

通过Q学习最大化长期效用获得最佳的控制决策。

但结合式(22)和式(26)可知此方法存在以下两点不

足:1)状态空间的大小会随着训练的轮数大幅增加,

影响收敛性;2)出现梯度消失或梯度爆炸现象,导致

模型退化。本文对此做以下改进:

1

将智能体在环境探索过程中获得的经验数据存

)采用经验重放策略。

放在经验池中,在后续训练深度神经网络的过程中

随机采样更新网络参数。经验池表示为

Μ

(j)

={m

(j-M+1)

m

(j-M)

m

(j)

}

,存放的经验数据元组表示为

m

(j)

=

(

s

(t)

αU

(

s

(t)

)

s

(t+1)j)(j)

jjj

α

jj

)

。SVU随机采样

M

(

ÍM

输入

神经网络进行训练,而非直接利用连续样本进行训练。

更新规则可表示为:

Q

(t+1)

(

sα

)

=Q

(t)

(

sα

)

(t)

(

(

1-γ

)

×U

(

sα

)

+γ×

maxQ

(t)

α

j

(

s

α

)

-Q

(t)

jj

(

s

j

α

j

)

)

(27)

2

由式

)采用边云协同思想及线性

(22)可知,系统效用由任务时延

Q函数分解理论

、能耗约束

和费用开销累加形成,需要训练大量的参数,不可避

免地需要更多的计算资源和存储资源,并且会增加

训练时间。因此,本文利用边云协同思想,将神经网

络的训练过程放置到云端,利用经验回放池的数据

进行训练。此外,采用线性Q函数分解理论对式(22)

做进一步改进。设智能体指示符

K=

{

123

}

分别对

应3个效用分量,式(22)可表示为:

U

(

sα

)

=

进一步地,

ω

k

u

k

(28)

kÎK

式(25)可以表示为:

Q

(

sα

)

=

Q

k

(

sαθ

)

(29)

kÎK

因此,式(27)所示的更新规则改进为:

Q

(t+1))

k

(

sα

)

=Q

(t

k

(

sα

)

(t)

(

(

1-γ

)

×U

k

(

sα

)

+

γ×Q

(t)

()

j)

k

s

j

α

j

-Q

(

k

(

s

j

α

j

)

)

(30)

5仿真结果与分析

5.1仿真设置

利用MATLAB仿真平台对所提边云协同卸载

方案进行仿真评估。仿真遵循Manhattan模型描述

的参数设置并按照MEC白皮书

[6]

相关规定构建系统

模型,使用SNIA云服务器记录所有数据集,并提供

云端的计算服务支持边缘节点参数更新。具体仿真

参数见表1。

表1仿真参数

Table1Parametersofsimulation

参数数值

车辆节点空间分布密度

μ

V

=50π

TVU占比率/MHz

β=0.2

计算任务数量

J=5000

视距/非视距路径损耗指数/dB

ρ=-68.5ξ=-54.5

SVU/RSU/TVU数量

K=5ϒ=20Ν=10

频率参数

α=4

SVU/RSU/TVU功率/dBm

23,54,23

SVU许可半径/m

L

S

=50

计算任务大小/KB

H

j

=400

资源量/GHz

Z

j

=0.2

最大时延/ms

t

max

j

=20

RSU/TVU计算能力/(GHz·周期

-1

)

计算任务到达率

0.1

4

~

/2

0.9

子效用因子向量

ω

=[0.6,0.2,0.2]

经验重放池容量

M=3000

Mini-batch大小

500

更新步长

80

神经网络层数

4

神经元总数

100

5.2结果分析

为验证所提方案的收敛性并比较不同学习率对其

收敛性的影响,将时延作为参照结果。由图2可以看

出:当学习率为0.01时,收敛到一个局部最优解时延较

大;缩小学习率至0.005可以得到较大的性能提升,但

收敛速度变缓;学习率为0.001时,在收敛结果上仍有

较大提升。考虑到更小的学习率会导致长时间无法收

敛,本文采用0.001的学习率作为后续实验参数。

图2不同学习率下训练周期与时延的关系

Fig.2Therelationshipoftrainingperiodandtimedelay

underdifferentlearningrates

第47卷第4期叶佩文,贾向东,杨小蓉,等:面向车联网的多智能体强化学习边云协同卸载

19

不同方案的累计能耗随训练周期的变化趋势如

图3所示,其中累计能耗的大小代表了计算任务迁

移量。可以看出:对照组没有利用云端技术,边缘节

点累计能耗在短时间内快速上升,随着任务量逐步

均衡迁移而达到稳定状态,因为路边单元的计算能

力强于车辆节点,所以仅V2I卸载方案略优于仅

V2V卸载方案;本文方案利用边云协同优势,在训练

过程中参数更新及时,局部参数的快速迭代能拟合

得到全局最优解,因此在较短的时间内就达到了系

统功耗均衡。

图3不同方案训练周期与能耗的关系

Fig.3Therelationshipoftrainingperiodand

energyconsumptionunderdifferentschemes

不同方案系统效用随计算任务到达率及频谱分

配因子的变化趋势如图4所示。可以看出:一方面,

系统效用随计算任务到达率先增后减,在计算任务

到达率为0.6时达到最佳状态,此时资源队列较优,

使得执行子效用对系统效用倾向性较大,通过调整

子效用系数来应对不同场景需求,本文对于执行时

间有强约束,故将子效用系数设置为

ω

=[0.6,0.2,0.2];

另一方面,计算任务生成率越高也能提升系统效用,

任务数据传输不易丢包。相较于仅V2V卸载和仅

V2I卸载方案,本文方案具有明显优势。在对照组实

验中,当计算任务达到率仅为0.5时资源队列就达到

饱和状态,计算任务已处于排队状态。

图4不同方案计算任务到达率与系统效用的关系

Fig.4Therelationshipofsystemutilityandcomputation

tasksarrivalrateunderdifferentschemes

不同频谱分配因子m下系统效用与计算任务到

达率的关系如图5所示。可以看出,尽管本文方案

计算任务到达率为0.6时系统效用已达到最大值,但

随着到达率的增加仍保持接近最佳值,体现了本文

方案的有效性。

图5不同频谱分配因子下计算任务到达率与系统效用的关系

Fig.5Therelationshipofcomputationtasksarrivalrateand

systemutilityunderdifferentspectrumallocationfactors

不同训练周期和子效用系数设置下时延与能耗

的关系如图6所示。可以看出:一方面,随着训练周

期增加,即训练的迭代次数的增加能反馈给智能体

更完备的神经网络结构,使得计算任务的卸载能耗

有所下降,但值得注意的是,云端训练的开销能否得

到有效供给是一个开放性问题,在本文中训练周期

为4000时达到了收敛状态;另一方面,随着子效用

系数

ω

2

的增大,系统的能耗也逐渐增大。费用开销

子效用系数

ω

3

对于能耗的影响较大,

ω

3

值增大导致

能耗快速增长。

图6不同训练周期和子效用系数设置下时延与能耗的关系

Fig.6Therelationshipofdelayandenergyconsumption

underdifferentsettingsoftrainingperiodand

sub-utilitycoefficient

6结束语

本文提出一种基于多智能体强化学习的车联网

任务卸载方案。采用随机几何理论对资源队列进行

控制,从而降低任务排队时延,同时分离云端训练神

经网络和节点决策神经网络,使云端能够更精准地

提取环境特征,节点端则定时根据云端反馈的优化

20

计算机工程

2021年4月15日

参数进行在线决策。仿真结果表明,与单一固定边

缘的计算策略相比,该方案能够有效减小时延和能

耗并且降低计算复杂度。下一步将结合节点缓存技

术设计更高效的车联网计算任务卸载方案。

参考文献

[1]ZHANGL,LIANGYC,NIYATOD.6Gvisions:

mobileultra-broadband,superInternet-of-things,and

artificial

[2]

16

YANG

(8):1

intelligence[J].ChinaCommunications,2019,

Xiaodong,

-14.

PEIXizhen,ANFaying,e

authenticationschemeforvehicularadhocnetwork

usingidentity-basedaggregatesignature[J].Computer

Engineering,2020,46(2):170-174,182.(inChinese)

杨小东,裴喜祯,安发英,等.基于身份聚合签名的车

载自组网消息认证方案[J].计算机工程,2020,46(2

[3]

170

CHANG

-174,182

Xiang,

.

):

ZHANGRongqing,YANGLiuqing.

Wirelesstowardtheeraofintelligentvehicles[J].IEEE

InternetofThingsJournal,2019,6(1):188-202.

[4]ZHOUHuan,WANGHui,floading

techniquesthroughvehicularadhocnetworks:asurvey[J].

IEEEAccess,2018,6:65250-65259.

[5]YEPeiwen,JIAXiangdong,YANGXiaorong,etal.

End-to-endphysicallayeroptimizationschemeusingauto-

encoder

2019

叶佩文

,45(

based

,贾向东

12):

on

86

deeplearning[J].ComputerEngineering,

-

杨小蓉

90,97.(

,等

in

.

Chinese)

基于深度学习的自编码器

端到端物理层优化方案

[6]

86

ZHANG

-90,97

[J].计算机工程,2019,45(12):

Ke,

.

MAOYuming,LENGSupeng,-

edgecomputingforvehicularnetworks:apromising

networkparadigmwithpredictiveoff-loading[J].IEEE

VehicularTechnologyMagazine,2017,12(2):36-44.

[7]NINGZhaolong,DONGPeiran,WANGXiaojie,etal.

DeepreinforcementlearningforintelligentInternetof

vehicles:anenergy-efficientcomputationaloffloading

scheme[J].IEEETransactionsonCognitiveCommunica-

tionsandNetworking,2019,5(4):1060-1072.

[8]wofdeeplearningandintensive

learning

2020

[J].InformationTechnology&Informatization,

解帅

.

5

深度学习和深度强化学习综述

):225-227.(inChinese)

[J].信息技术与

信息化,2020(5):225-227.

[9]YANGChao,LIUYi,entmobility

awaretaskoffloadingforvehicularedgecomputing

networks[J].IEEEAccess,2019,7:26652-26664.

[10]CUIYaping,LIANGYingjie,ce

allocationalgorithmwithmulti-platformintelligent

offloadinginD2D-enabledvehicularnetworks[J].IEEE

Access,2019,7:21246-21253.

[11]LIBaozhu,-basedarchitecture

forintegratedvehicularcloudcomputingnetwork[C]//

Proceedingsof2018IEEEInternationalConferenceon

SelectedTopicsinMobileandWirelessNetworking.

WashingtonD.C.,USA:IEEEPress,2018:1-4.

[12]KINGD,ROTSOSC,AGUADOA,tware

definedtransportnetwork:fundamentals,findingsand

futures[C]//ProceedingsofInternationalConferenceon

gtonD.C.,USA:

IEEEPress,2016:1-4.

[13]DAIYY,XUD,MAHARJANS,cial

intelligenceempowerededgecomputingandcachingfor

Internet

[14]

2019

REJIBA

,26(

of

3

vehicles[J].IEEEWirelessCommunications,

Z,

):12

MASIP

-18.

-ationtask

assignmentinvehicularfogcomputing:alearning

approach

18

and

thInternational

vianeighbor

Symposium

advice[C]//Proceedingsofthe

[15]

2019

Applications.

HOU

:1

Xueshi,

-5.

WashingtonD.

on

C.

Network

,USA:IEEE

Computing

Press,

LIYong,CHENMin,larfog

computing:aviewpointofvehiclesastheinfrastructures[J].

IEEE

[16]

3860

TransactionsonVehicularTechnology,2016,65(6

ALTHAMARY

-3873.

):

I,HUANGCW,yon

multi-agentreinforcementlearningmethodsforvehicular

networks[C]//Proceedingsofthe15thInternationalWireless

CommunicationsandMobileComputingConference.

WashingtonD.C.,USA:IEEEPress,2019:1154-1159.

[17]LIUYi,YUHuimin,inforcement

learningforoffloadingandresourceallocationinvehicle

edgecomputingandnetworks[J].IEEETransactionson

VehicularTechnology,2019,68(11):11158-11168.

[18]YANGHL,XIEXZ,igentresource

managementbasedonreinforcementlearningforultra-

reliableandlow-latencyIoVcommunicationnetworks[J].

IEEE

4157-

Transactions

4169.

onVehicularTechnology,2019,68(5):

[19]HEYin,ZHAONan,atednetworking,

caching,andcomputingforconnectedvehicles:adeep

reinforcementlearningapproach[J].IEEETransactionson

VehicularTechnology,2018,67(1):44-55.

[20]TANLT,HURQ,-timescaleartificial

intelligenceaidedmobility-awareedgecachingand

computinginvehicularnetworks[J].IEEETransactions

onVehicularTechnology,2019,68(4):3086-3099.

[21]CHENXF,WUC,ZHANGHG,ralizeddeep

reinforcementlearningfordelay-powertradeoffin

vehicularcommunications[C]//Pro-ceedingsofInternational

gtonD.C.,USA:

IEEEPress,2019:1-6.

[22]CHOICS,ncoxpointprocessesfor

vehicularnetworks[J].IEEETransactionsonVehicular

Technology,2018,67(10):10160-10165.

[23]CHOIC,yticalframeworkfor

coverageincellularnetworksleveragingvehicles[J].

IEEE

4950-4964

Transactions

.

onCommunications,2018,66(10):

编辑金胡考