面向车联网的多智能体强化学习边云协同卸载编程频道|福州电脑网

2024年3月10日发(作者：)

第47卷

Vol.47

第4期

No.4

计算机工程

ComputerEngineering

文章编号：1000-3428（2021）04-0013-08文献标志码：A

2021年4月

April2021

中图分类号：TN929.5

·热点与综述·

面向车联网的多智能体强化学习边云协同卸载

叶佩文

，贾向东

，杨小蓉

，牛春雨

（1.西北师范大学计算机科学与工程学院，兰州730070；2.南京邮电大学江苏省无线通信重点实验室，南京214215）

摘要：车联网边缘计算是实现车联网系统低时延和高可靠性的关键技术，但现有方法普遍存在场景趋同和系统建

模局限的问题，同时包含复杂的训练过程并面临维灾风险。通过结合云计算技术，提出一种基于多智能体强化学习

的边云协同卸载方案。依据随机几何理论计算卸载节点覆盖概率，对车辆节点与卸载对象进行预配对。利用线性Q函数

分解方法反映每个智能体多效用因子与任务决策间的映射关系，通过云端协同机制将智能体决策记录作为经验上传

到云端，并在云端将训练更完备的神经网络反馈到边缘节点。仿真结果表明，该方案在功耗和延时方面性能优于单

一固定边缘的计算策略，且算法复杂度较低，能够有效提升边云协同卸载能力，实现低时延、高可靠的任务卸载。

关键词：车联网；多智能体强化学习；随机几何理论；边云协同计算；任务卸载策略；资源分配

开放科学（资源服务）标志码（OSID）：

中文引用格式：叶佩文，贾向东，杨小蓉，等.面向车联网的多智能体强化学习边云协同卸载［J］.计算机工程，2021，

47（4）：13-20.

英文引用格式：YEPeiwen，JIAXiangdong，YANGXiaorong，orativeedgeandcloudoffloadingforInternet

ofvehiclesusingmulti-agentreinforcementlearning［J］.ComputerEngineering，2021，47（4）：13-20.

CollaborativeEdgeandCloudOffloadingforInternetofVehicles

UsingMulti-AgentReinforcementLearning

YEPeiwen

，JIAXiangdong

，YANGXiaorong

，NIUChunyu

ssCommunicationKeyLabofJiangsuProvince，NanjingUniversityofPostsandTelecommunications，Nanjing214215，China）

（eofComputerScienceandEngineering，NorthwestNormalUniversity，Lanzhou730070，China；

【Abstract】EdgecomputingforInternetofVehicles（IoV）iskeytorealizinghighlyreliableandlow-latencyIoVsystems.

However，existingmethodsgenerallyhavetheproblemsofsceneconvergenceandsystemmodelinglimitations，andarefaced

iningthecloudcomputingtechnology，thispaper

proposesacollaborativeedgeategyuses

thestochasticgeometrytheorytocalculatethecoverageprobabilityoftheoffloadingnodesandpre-matchthevehicularnodes

basis，thelinearQfunctiondecompositionmethodisusedtoreflectthemappingrelationship

betweeneachagent’roughthecollaborativecloudandedgecomputingmech

anism，eachagent’sdecisionrecordsareuploadedtothecloudasexperience，andthemorecomprehensivelytrainedneuralnetwork

ultsofsimulationshowthattheproposedschemeoutperformsthecomputingstrategiesusing

hodreducesthealgorithmcomplexity，andcan

significantlyimprovethecollaborativeedgeandcloudoffloadingabilitytorealizehighlyreliableandlow-latencytaskoffloading.

【Keywords】InternetofVehicles（IoV）；multi-agentreinforcementlearning；stochasticgeometrytheory；collaborative

edgeandcloudcomputing；taskoffloadingstrategy；resourceallocation

DOI：10.19678/.1000-3428.0058323

0概述

展望6G愿景的背景下，构筑“车-人-路-云”泛在连接

的车联网（InternetofVehicles，IoV）成为必然趋势

［1-2］

。

与此同时，在城市中部署智能交通系统（Intelligent

TransportationSystem，ITS）缓解交通压力也已成为

目前，车辆消费升级、道路容量日趋饱和等客观

因素加剧了城市的交通困境。在5G商用落地同时

基金项目：国家自然科学基金（61861039，61561043，61261015）；甘肃省科技计划“无人机关键技术研究”（18YF1GA060）。

作者简介：叶佩文（1993—），男，硕士研究生，主研方向为车联网通信、移动边缘计算；贾向东，教授、博士；杨小蓉、牛春雨，硕士研究生。

收稿日期：2020-05-14修回日期：2020-06-26E⁃mail：**************.cn

计算机工程

2021年4月15日

主流选择。而车联网作为ITS的核心部分，更需要

在网络架构和使能技术上不断演进

［3］

。

在网络架构方面，得益于云计算技术的迅猛发展，

车联网的大量计算任务可以有效地迁移到分布式云端

服务器上进行数据处理、统一调度和计算资源分配。

然而，单一的车辆云架构不可避免地要求数据进行长

距离、高时延传输，这无法满足需要敏捷响应的V2V安

全类信息通信要求。通过分析车辆行为与预测模型可

以发现车辆群体存在局部性特征

［4-5］

，即计算任务的卸

载范围通常局限于相邻行驶车辆或车与周边路旁单元

之间，而将移动边缘计算（MobileEdgeComputing，

MEC）作为一种新的范式引入车联网，能够将计算能力

下沉至网络边缘，从而减少服务时延

［6］

。

在使能技术上，车联网边缘计算卸载可利用凸优

化、图论以及博弈均衡等方法。但近年来人工智能特

别是深度强化学习

［7-8］

在计算机视觉、自然语言处理、语

音识别等领域获得巨大成功，这吸引了国内外学者重

新思考车联网边缘计算卸载方案的设计思路。

现有车联网边缘卸载策略存在场景同质化严重的

问题，且在性能上仍有较大的提升空间。本文针对更

泛在的城市街道场景，结合强化学习和随机几何理论，

提出一种边云协同的车辆边缘卸载方案。结合随机几

何理论和人工智能方法优化车联网边云卸载过程，将

每个源车辆单元（SourceVehicleUnit，SVU）作为智能

体来进行学习决策，并把由此产生的复杂训练过程转

换到云端训练神经网络中，使SVU仅依靠局部决策即

能把握全局特征。此外，还将资源队列模型作为神经

网络输入前件，以降低维灾风险。

1相关工作

文献［9］针对车辆边缘计算（VehicularEdge

Computing，VEC）网络提出了移动感知的任务卸载

方法，以达到执行成本最小化的目的。文献［10］提

出一种联合云计算、移动边缘计算和本地计算的多

平台智能卸载方案，根据任务属性，利用强化学习算

法选择卸载平台，旨在最小化时延并节省系统总成

本，但网络模型中的控制面和数据面深度耦合，使得

任务处理缺乏灵活性。文献［11］提出了基于软件定

义

［12］

的车载网络框架，其核心思想是将控制面和数

据面分离，使运营商能够更灵活地控制和更快速地

部署网络，但是车辆业务复杂和网络拓扑结构多变

的因素导致这一框架对车辆特征的抽象还不够成

熟，相应的车载网络虚拟化技术仍需要深入研究。

文献［13］针对类似高速路口拥塞场景，利用车联网

异构资源性能互补特性，即计算资源开销来供给通

信资源需求，提出了基于雾计算

［14］

的车联网边缘资

源融合机制，从而弥补车联网资源时空分布不均的

不足，但雾化机制

［15］

涉及大量基础设施的改造和升

级，因此，该机制在构建部署阶段仍面临诸多挑战。

文献［16］针对车联网超可靠低延时通信（Ultra-

ReliableLow-LatencyCommunication，URLLC）过程，

将有异构性需求的车辆节点作为多智能体，利用强化

学习进行数据卸载决策。文献［17］以相邻的车辆节点

作为移动边缘服务器，以路边设施作为固定边缘服务

器，利用半马尔科夫过程对时变信道进行建模，使移动

用户根据Q学习算法确定卸载对象，同时针对增加训

练过程动作状态空间可能引起维灾的问题，提出利用

深度神经网络来逼近Q函数的深度强化学习算法，旨

在使系统总效用最大。文献［18］基于值迭代和策略迭

代两种思路提出动作-评价学习（Actor-Criticlearning，

AC）算法。得益于Actor执行动作然后Critic进行评估

的优势，该算法在高维度空间仍具有良好的收敛属性，

但存在评价策略偏差较大的问题，导致求解所得只是

局部最优解。文献［19］将无线信道状态、缓存状态以

及计算能力均纳入系统状态作为环境进行交互，由于

通信

、缓存、计算（Communication，Caching，

衡

C）

Computing，

资源在应用场景具有耦合互补的特性

C资源效用为任务调度卸载提供了一个广阔的思

，因此综合权

路。文献［20］在此基础上进一步考虑了时间尺度对协

调优化的影响，提出大时间尺度采用粒子群优化理论

而小时间尺度采用深度Q学习算法调优的细化方案。

然而，现有车联网边缘计算方法普遍存在以下不

足：1）多数方法仅在单一的高速公路场景进行建模，而

此类场景通常假定车辆服从空间泊松过程（Spatial

PoissonProcess，SPP），这明显限制了适用范围，且简化

了车联网实际通信的真实时空分布；2）云计算平台大

多采用集中式部署方案，计算任务从本地迁移到云端

存在重构开销，且队列形式的任务传输易导致额外排

队时延和无序争用，而目前缺乏边缘计算节点协同云

平台的相关研究；3）在利用人工智能手段方面，现有研

究的奖励机制设计单一，从而导致训练模型的泛化性

较差。

本文结合强化学习和随机几何理论，提出一种

边云协同的车辆边缘卸载方案

1）针对场景趋同、系统建模局限的问题

，主要包括以下工作：

道建模为经典Manhattan模型

［21］

，并利用随机CoX

，将城市街

过程

［22］

对移动车辆进行细粒度建模，相应考虑视距（Lineof

Sight，LoS）和非视距（Non-LineofSight，NLoS）两种情

况的信道状态。进一步地，考虑到级联对象包含目标

车辆单元（TargetVehicleUnit，TVU）和路边单元（Rode

SideUnit，RSU），对于SVU而言在时空上具备离散性

和流动性，通过随机几何理论分析级联对象接收信干

比（SignaltoInterferenceRatio，SIR）覆盖概率，从而划

分出卸载节点的优先级，从根本上消除转化成组合优

化问题的必要性，降低计算复杂度。

第47卷第4期叶佩文，贾向东，杨小蓉，等：面向车联网的多智能体强化学习边云协同卸载

行决策

2）依据边云协同的思想

，并将决策记录作为经验上传到云端

，将SVU作为智能体进

，云端通

过经验训练神经网络，每隔一段时间将训练更完备

的神经网络反馈到边缘节点上。由此，只专注局部

决策的SVU能够捕捉到云端存储的全局特征而无

需承担复杂的训练过程

励，因

3）

此

由

设

于

计

强

更

化

贴

学

近

习

实

的

。

际

本

的

质

多

是

角

环

色

境

博

交

弈

互

奖

和

励

基

机

于

制

奖

。

同时，为使从全局观察缩小到局部观察具有实质性

作用，将节点资源队列分析作为输入的预先工作，从

而减少计算任务的排队时间，并在一定程度上降低

维灾风险。

2系统模型

本文研究的系统模型如图1所示，其中小区的网

络架构由基站（BaseStation，BS）和RSU共同组成。基

站通过核心网络连接云端服务器，具有计算能力的RSU

作为固定边缘服务器（FixedEdgeServer，FES），中央云

服务器可以通过回程链路连接FES支持远程调度。将

具有计算能力的TVU作为移动边缘服务器（MobileEdge

Server，VES），并从更广义的角度定义边缘节点性质，

包括TVU和RSU两种类型。

图1车联网边云协同卸载系统模型

Fig.1Systemmodelofcollaborativeedgeandcloud

offloadingforIoV

假设本地计算容量已饱和，上述场景下的卸载

途径可分为以下3种情况：1）在LoS范围内，SVU将

计算任务卸载给相邻满足条件的TVU，由于车辆到

BS上行链路的利用相对不充分，且BS端对干扰更

具可控性，因此为提高频谱利用率，SVU可以复用

V2B上行链路进行计算任务卸载；2）在NLoS范围

内，SVU同样可以复用V2B上行链路进行计算任务

卸载；3）在基础设施完备（即已部署RSU）的车辆稀

疏路况场景中，SVU可以将计算任务卸载到满足条

件的RSU端。

本文将车联网的空间分布建模为泊松线性Cox点

过程（PoissonLineCoxPointProcess，PLCPP），对象包

含车辆节点和路边节点。具体过程如下：将车辆节点

空间分布建模为密度为

的独立PLCPP，用

表示；

考虑到RSU沿道路布放，将RSU空间分布建模为线密

度为

的独立泊松线过程（PoissonLineProcess，PLP），

用

表示。假设车辆节点中TVU占比为

，遵循

PLCPP，则TVU服从密度为

TVU

=μ

的PLCPP，SVU

服从密度为

SVU

=μ

(

1-β

)

的PLCPP。

2.1通信模型

不失一般性，本文假设SVU使用最近距离级联

卸载准则

［23］

，并遵循广义边缘节点性质。定义计算

任务集合

{

T

T

}

，SVU集合用K表示，

TVU集合用N表示，RVU集合用

表示。考虑计算

任务卸载到边缘节点存在视距（LoS）和非视距

NLoS）两种情况，在周期

内，SVU卸载计算任务

(

jÎJ

)

到边缘节点的路径损耗可表示为：

(

(1t)

)

-e

-x

(2t)

(1t)

-y

(2t)

，

LoS范围

(t)

t)t)

-e

(

-x

(2

(1t)

-y

(2t)

)

，

NLoS范围

（1）

其中，

(t)t)t)t)t)

(

x

)

和

(t)

(

y

)

分别表示

SVU和边缘节点的位置信息，

(



(t)(t)



：

{

(t)

(

(1t)

x

(2t)

)

y

(t)

(

(1t)t)

y

)

}

)

为两者的距离，

和

是路径损耗指数，且满足

ξ<ρ(φ

/2)

。

因此，在LoS范围内，第

个（

nÎN

）相邻TVU与

第

个（

kÎΚ

）SVU级联接收的SIR可表示为：

SIR

TVULoS

-α

kn

(

kj

(k)

（2）

RSU

(

其中，

(t)(t))

kj

=ν

×h

为信道增益，

(t)

为瑞利分布快速衰落

因子，

表示SVU的发射功率，



表示SVU到TVU

的距离，

α>2

为频率参数，

(k)

RSU

RSU的干扰，

∑

-α



是来自

rÎϒ

是RSU的传输功率，

是RSU对SVU

的干扰。类似地，

(k)

′

(

′

ÎK

)

(

′

¹k

)

车辆

（

′

¹kk

′

ÎΚ

）对TVU

∑

′



′



-α

表示其他

的干扰，

′

为

′

的传输功

率，

为

对SVU的干扰，



′



表示第

′

个SVU到

第k个SVU的距离。

因此，LoS范围内卸载到第k个TVU的频谱效

率可表示为：

TVU

=lb

(

1+SIR

TVULoS

knkn

)

（3）

（

计算机工程

2021年4月15日

引理1假设SVU的卸载许可半径为

，与SVU

级联的TVU接收的SIR覆盖概率可表示为式（4），其中，

Δ'

(

)

=πcsc

(

πα

)

，

Δ=2πcsc

(

2πα

)

。证明见文

献［23］。

TVU

Cov

)

SIR

TVULoS

)

(t)



-α

Cov

(

αL

Cov

(k)k)

RSU

(

′

≥ζ

)

(

≥

-α



Cov

(

(t)

≥

(k)

RSU

′

)

wexp

(

RSU

′

)

∑

i=1

(

)



)

(k)(

∑

(k)

(

)

(k)

(

′

)

i=1

RSU

∑

exp

(

-2μ

TVU



Δ'α

i=1

)

exp

(

-μ



TVU



uζ

Δα

)

（4）

结合式（2）~式（4）可知，从第

个SVU卸载到

第

个TVU的数据速率为：

TVUTVU

n

Cov

(

αL

)

TVU

kkn

（5）

类似地，对于SVU处于车辆稀疏且RSU设施完

善的区域，SVU可以卸载计算任务到满足条件的

RSU，与第

个SVU级联的第

个TVU接收的

SIR为：

SIR

RSU

-α

(



kr

(k)k)

（6）

TVU

(

′

其中，

(k)

是来自TVU的干扰，

TVU

(

′

是来自其他TVU

的干扰。

因此，卸载到第

个RSU的频谱效率可表示为：

RSURSU

kr

=lb

(

1+SIR

kr

)

（7）

引理2假设SVU的卸载许可半径为

，与

SVU级联的RSU接收SIR覆盖概率可表示为：

RSU

(



-α

Cov

(

α

)

Cov

(k)(k)

TVU

′

≥ζ

{

()

1aπe

-a

/4b

3/2

erf

(

-1

)

}

（8）

其中，

a=2μ

TVU

Δ'

(

)

，

b=π

TVU

(

)

2α

(

)

，

2πμ

。证明见文献［23］。

结合式（7）和式（8）可知，从第

个SVU卸载到

第

个RSU的数据速率为：

RSURSU

r

Cov

(

α

)

RSU

kkr

（9）

2.2计算模型

在计算卸载过程中，可定义SVU的卸载任务



(

Q

t

max

)

，其中，

表示计算任务数据大小，

max

表示完成任务所需计算资源量，

表示最大等待

时间。

对于将计算任务卸载到TVU的场景，SVU卸载

计算任务

到TVU的时间开销包括通信时间和计

算时间两部分。

卸载到TVU的通信时间取决于计算任务数据

大小

和提供服务TVU的数据速率，结合式（9），通

信时间可以表示为：

TVU

jcomm

TVU

（10）

kn

对于卸载到TVU的计算任务，依照队列形式保

存到TVU缓存中，并更新资源队列状态，实行任务

迁移，保证排队延时远小于任务计算时间。因此，计

算时间仅依赖于任务所需计算资源

和TVU的计

算能力

TVU

（即单位时间内CPU周期数），可表示为：

TVU

jcomp

TVU

（11）

结合式（10）和式（11）可知，TVU的总执行时

间为：

TVU

TVUTVU

jjcomm

jcomp

（12）

类似地，将计算任务卸载到RSU场景的执行时

间同样包括通信时间和计算时间两部分。

卸载到RSU的通信时间可表示为：

RSU

jcomm

RSU

（13）

kr

卸载到RSU的计算时间可表示为：

RSU

jcomp

RSU

（14）

结合式（13）和式（14）可知，RSU的总执行时

间为：

RSURSU

RSU

jcomm

jcomp

（15）

2.3资源队列分析模型

SVU在卸载计算任务时需要考虑卸载节点计算

队列大小。不失一般性，假设队列节点初始资源量

为

initial

，平均计算任务到达率

E[T

]=λ

，在许可半径

内满足资源量的TVU和RSU概率分别可表示为：

initial

TVU

∑

(

λL

)

（16）

i=1

initial

RSU

∑

(

λL

)

（17）

i=1

第47卷第4期叶佩文，贾向东，杨小蓉，等：面向车联网的多智能体强化学习边云协同卸载

其中，

(

λL

)

表示Zipf分布。

假设所考虑的车联网中SVU在周期t内生成任务的

概率为

，SVU级联卸载节点可提供的资源量表示为

Θ=

(

)

(

1-p

)

TVU

SVU

[

]

，其中，

(

)

表示平面周

长，

[

]

表示道路平均长度。因此，TVU所需保证的队

列长度为

TVU

=Θ

(

1-P

TVU

)

，SVU所需保证的队列长度

为

SVU

=ΘP

RSU

。相应地，对于周期t内生成任务

，卸载

节点资源队列长度

(j)

{

(

-P

TVURSU

=max

Θ1

)

ΘP

}

。

3问题描述

本节分别从执行时延、能耗约束和费用开销维

度分析车联网任务卸载问题，并量化统一成系统效

用评价卸载性能，将3个维度评价性能的累加作为

奖励机制来反馈训练神经网络。

1执行时延

。定义

为指示符，用于区分

TVU和

）

RSU，则计算任务

{

执行时延

可表示为：

TVU

jcommjcomp

FµTVU

RSURSU

（18）

jcomm

jcomp

FµRSU

2）能耗约束

。设置计算任务卸载满足能耗约束

条件为正，否则作为惩罚进行负反馈，TVU和RSU完成

计算任务

TVU

的能耗分别可表示为

TVU

kn

和

RSU

TVU

kr

，相应地，设定能耗阈值分别为

TVU

和

RSU

，同时设置指示函数

{

}

，若

成立则

{

}

，否则

{

}

=-1

，则能耗约束可表示为：

=Ι

{

TVU

>δ

TVU

}

{

RSU

>δ

RSU

}

（19）

营商（

Vehicle

）费用开销

Network

。考虑实际网络架构包括车联网运

Operator，VNO）、基础设施供应

商（InfrastructureProvider，InP）和业务供应商（Service

Provider，SP）三类角色。假设VNO需向InP支付的频

谱租赁费用为

，VNO需向SP支付计算费用

，则计算

任务

的费用开销包含通信开销和计算开销两部分，

可以表示为：

(

TVU

+φ

TVU

{

)

×R

TVU

kn

FµTVU

(

RSU

+φ

RSU

)

×R

RSU

（20）

kr

FµRSU

综上所述，基于多角色博弈的奖励机制，卸载任

务的系统效用可由执行时延、能耗约束和费用开销

三者的子效用累计和来表示，即：

=ω

+ω

（21）

其中，

ω=[ω

ω

]

表示子效用系数，在训练过程

中通过调整该参数来确定子效用的倾向性，例如在

稀疏场景下更关注费用开销，而在密集场景下更关

注执行时延。

4多智能体强化学习边云卸载机制

车联网是典型的高速移动实时传输场景，在其

中进行单一云端集中式优化存在参数冗余、更新滞

后和耗费通信开销等问题。分布式边云协同机制利

用云端将训练更完备的神经网络反馈到边缘节点，

使得边缘节点仅需要相邻节点信息来更新参数执行

操作。本节首先介绍状态空间、动作空间及系统效

用，然后描述多智能体强化学习流程及改进方案。

态可

表

）状态空间

示为

(t)

。

{

用

t

)

表示状态集合

φ

(Ft)

，在时刻t的状

ψ

(Ft)

}

ÎS

，该状态表征了

计算任务

的时延、能耗和开销状态。

的动

作

）动

作空

间。定义动作集为A，计算任务采取

ÎA

，

代表计算任务

卸载到TVU上

执行，

代表计算任务

卸载到RSU上执行，否

则在该周期内不采取任何动作。

销三者的子效用作为奖励函数评价动作空间与状态

3）系统效用。累计任务时延、能耗约束、费用开

空间的映射关系，结合式（21），在时刻t系统立即效

用可表示为：

(

(t)

α

)

=ω

(t)Ft)Ft)

+ω

(

+ω

(

（22）

进一步地，由于当前的动作仅受前一时刻状态

影响，当前状态通过执行某一动作转换到下一状态，

因此可利用马尔科夫决策过程来表述。假设状态空

间到动作空间的映射为

，即

(

(t)

)

，则系统状态

转移概率可表示为

{

：

Prs

(t+1)

(t)

Φ

(

(t)

)

}

{

t+1)

=Pr

(

(t)

Φ

(

(t)

)

}

{

(t+1)

(t)

Φ

(

(t)

jjj

)

}

{

(t)

(t)(t)

Φ

(

)

}

（23）

状态值函数

(

)

和状态动作函数

(

sα

)

可

以表示为：

éù

(

)

=Ε

(

1-γ

)

∑

(t-1)

×U

(

(t)

α

(t)

(0)

（24）

t=0

(

sα

)

(

1-U

(

(t)

α

)

γ×

∑

Prs

(t+1)

(t)

Φs

(t)

×V

(

(t+1)

)

(t+1)

{

()

}

（25）

其中，

表示SVU当前采取的策略，

表示折扣因子。

根据式（25）和贝尔曼公式的定义，进一步可得到式（26）：

(

sα

)

(

1-γ

)

(

sα

)

∑

Prs

(t+1)

(t)

Φ

(

(t)

)

}

(t+1)

{

maxQ

(

(t+1)

α

(t+1)

)

（26）

计算机工程

2021年4月15日

基于值迭代或策略迭代的传统方法需要智能体

获得全局信息，不适用于信息特征变化频繁的车联

网场景。由于Q学习在与环境交互的过程中通过局

部信息不断地试错来找到最优行为，因此SVU可以

通过Q学习最大化长期效用获得最佳的控制决策。

但结合式（22）和式（26）可知此方法存在以下两点不

足：1）状态空间的大小会随着训练的轮数大幅增加，

影响收敛性；2）出现梯度消失或梯度爆炸现象，导致

模型退化。本文对此做以下改进：

将智能体在环境探索过程中获得的经验数据存

）采用经验重放策略。

放在经验池中，在后续训练深度神经网络的过程中

随机采样更新网络参数。经验池表示为

(j)

={m

(j-M+1)



(j-M)

m

(j)

}

，存放的经验数据元组表示为

(j)

(

(t)

αU

(

(t)

)

s

(t+1)j)(j)

jjj

α

)

。SVU随机采样

(

ÍM

输入

神经网络进行训练，而非直接利用连续样本进行训练。

更新规则可表示为：

(t+1)

(

sα

)

(t)

(

sα

)

+α

(t)

(

1-γ

)

×U

(

sα

)

+γ×

maxQ

(t)

(

α

)

-Q

(t)

(

α

)

（27）

由式

）采用边云协同思想及线性

（22）可知，系统效用由任务时延

Q函数分解理论

、能耗约束

。

和费用开销累加形成，需要训练大量的参数，不可避

免地需要更多的计算资源和存储资源，并且会增加

训练时间。因此，本文利用边云协同思想，将神经网

络的训练过程放置到云端，利用经验回放池的数据

进行训练。此外，采用线性Q函数分解理论对式（22）

做进一步改进。设智能体指示符

{

123

}

分别对

应3个效用分量，式（22）可表示为：

(

sα

)

进一步地，

∑

（28）

kÎK

式（25）可以表示为：

(

sα

)

∑

(

sαθ

)

（29）

kÎK

因此，式（27）所示的更新规则改进为：

(t+1))

(

sα

)

(

sα

)

+α

(t)

(

1-γ

)

×U

(

sα

)

γ×Q

(t)

()

α

-Q

(

α

)

（30）

5仿真结果与分析

5.1仿真设置

利用MATLAB仿真平台对所提边云协同卸载

方案进行仿真评估。仿真遵循Manhattan模型描述

的参数设置并按照MEC白皮书

［6］

面向车联网的多智能体强化学习边云协同卸载

发布评论取消回复

最近发表

相关推荐

标签列表

面向车联网的多智能体强化学习边云协同卸载

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复