2024年3月10日发(作者:)

第42卷第1期

2021年1月

通 信 学 报

Vol.42 No.1

Journal on Communications January 2021

车载边缘计算中任务卸载和服务缓存的联合智能优化

刘雷

1

,陈晨

1

,冯杰

1

,裴庆祺

1

,何辞

2

,窦志斌

2

(1. 西安电子科技大学综合业务网理论及关键技术国家重点实验室,陕西 西安 710071;

2. 中国电子科技集团公司第54研究所,河北 石家庄 050081)

摘 要:针对车载环境下有限的网络资源和大量用户需求之间的矛盾,提出了智能驱动的车载边缘计算网络架构,以

实现网络资源的全面协同和智能管理。基于该架构,设计了任务卸载和服务缓存的联合优化机制,对用户任务卸载以

及计算和缓存资源的调度进行了建模。鉴于车载网络的动态、随机和时变的特性,利用异步分布式强化学习算法,给

出了最优的卸载决策和资源管理方案。实验结果表明,与其他算法相比,所提算法取得了明显的性能提升。

关键词:车联网;边缘计算;计算卸载;服务缓存;智能优化

中图分类号:TN92

文献标识码:A

DOI: 10.11959/.1000−436x.2021017

Joint intelligent optimization of task offloading and

service caching for vehicular edge computing

LIU Lei

1

, CHEN Chen

1

, FENG Jie

1

, PEI Qingqi

1

, HE Ci

2

, DOU Zhibin

2

1. State Key Laboratory of Integrated Services Networks, Xidian University, Xi’an 710071, China

2. The 54th Research Institute of China Electronics Technology Group Corporation, Shijiazhuang 050081, China

Abstract: Given the contradiction between limited network resources and massive user demands in Internet of vehicles,

an intelligent vehicular edge computing network architecture was proposed to achieve the comprehensive cooperation and

intelligent management of network resources. Based on this architecture, a joint optimization scheme of task offloading

and service caching was furtherly devised, which formulated an optimization problem about how to offload tasks and al-

locate computation and cache resources. In view of the dynamics, randomness and time variation of vehicular networks,

an asynchronous distributed reinforcement learning algorithm was employed to obtain the optimal task offloading and

resource management policy. Simulation results demonstrate that the proposed algorithm achieves significant perfor-

mance improvement in comparison with the other schemes.

Keywords: Internet of vehicles, edge computing, computation offloading, service caching, intelligent optimization

1 引言

作为交通强国的重要抓手,车联网在国家发展

随着车联网的飞速

战略中起着举足轻重的作用

[1-3]

发展,车辆变得愈发普及和智能化。由此,催生了

一大批车载应用,涵盖信息服务、行驶安全和交通

收稿日期:2020–09–16;修回日期:2020–12–03

通信作者:陈晨,******************.

基金项目:国家重点研发计划基金资助项目(No.2020YFB1807500);国家自然科学基金资助项目(No.62072360, No.61571338,

No.61672131, No.62001357, No.61901367);陕西省重点研发计划基金资助项目(No.2019ZDLGY13-07, No.2019ZDLGY13-04,

No.2020JQ-844);嵌入式系统与服务计算教育部重点实验室开放基金资助项目(同济大学)(2019-05);西安市

科技计划基金资助项目(No.20RGZN0005);西安市重点实验室建设基金资助项目(No.201805052-ZD3CG36)

Foundation Items: The National Key Research and Development Program of China (No.2020YFB1807500), The National Natural

Science Foundation of China (No.62072360, No.61571338, No.61672131, No.62001357, No.61901367), The Key Research and Devel-

opment Plan of Shaanxi Province (No.2019ZDLGY13-07, No.2019ZDLGY13-04, No.2020JQ-844), The Key Laboratory of Embedded

System and Service Computing (Tongji University) (2019-05), Ministry of Education, Xi’an Science and Technology Plan

(No.20RGZN0005), The Xi’an Key Laboratory of Mobile Edge Computing and Security (No.201805052-ZD3CG36)

第1期 刘雷等:车载边缘计算中任务卸载和服务缓存的联合智能优化 ·19·

效率各个方面

[4-6]

。这些应用服务在给人们生活带来

便利的同时,将会造成数据的几何增长,增加了网

络的负荷,对网络带宽提出了更高的需求。车载边

缘计算通过把移动边缘计算应用在车联网,可以实

现计算和存储能力的下沉,能够极大缓解网络的带

宽压力,有效降低任务的响应时延

[7-8]

在复杂的车载网络环境下,为了保障大量用

户多样化的服务需求,亟须设计有效的车载边缘

计算机制

[9]

。利用计算卸载技术,用户可以把任

务卸载给具有丰富资源的边缘节点计算,有助于

响应时延的减少。然而,现有的车载计算卸载工

作,在用户端往往集中在本地处理,未能充分发

掘邻居车辆的资源,而在边缘端大多侧重于计算

资源的管理,忽视了其与服务缓存之间的关系。

特别地,边缘端服务器为了计算用户卸载的任务,

需要具备一定的计算资源,也需要提前缓存相应

的服务应用。换言之,计算卸载和服务缓存彼此

关联,相互耦合。考虑到路边设施存储资源的限

制,如何通过服务缓存的决策保障计算卸载的质

量是要解决的重要问题。鉴于车联网的动态、随

机和时变特性,需要引入更加智能的算法实现网

络通信、计算和缓存资源的有效管理,以应对传

统数学方法的不足

[10]

针对以上问题,本文首先设计了纵向和横向协

同的智能车载边缘计算网络架构,然后通过分析网

络通信、计算和服务缓存资源之间相互作用的机

理,提出了通信、计算和服务缓存资源的联合优化

模型,进而利用异步分布式强化学习实现了任务的

灵活卸载和资源的智能管理。

2 相关工作

区别于一般的移动网络

[11]

,车联网的典型特点

在于车辆的快速移动。车辆的移动会导致网络拓扑

的动态变化,决定车间的连通特性,从而影响任务

的正常卸载。为此,车载边缘计算需要和车辆的移

动性密切结合。文献[12]考虑网络负荷和任务卸载,

研究了多服务器多用户场景下的资源管理。每辆车

通过移动可以将任务选择性地卸载给期望的边缘

服务器。文献[13]呈现了一个移动模型用于设计链

路稳定性指标。基于该指标可以发现任务车辆周边

可用的服务车辆,从中可以挑选满足任务车辆偏好

和服务需求的车辆作为最优的服务提供者。不同于

传统计算卸载工作主要考虑通信和计算资源的调

度,文献[14]设计的基于车辆移动的卸载机制同时

也考虑了任务卸载时间的决策。特别地,任务车辆

与服务器之间的数据传输速率随两者之间的距离

动态变化,由此影响了任务的卸载时间。

在车载环境下,路边单元广泛部署于路测,通

常作为主要的边缘服务器节点参与用户任务的处

理。文献[15]考虑车辆的移动及其与关联的边缘服

务器的连接时间,研究了负载卸载和任务调度问

题。文献[16]提出的双端优化问题旨在同时保障用

户端和服务器端的利益。以上工作主要侧重于单服

务器场景,文献[17-18]则聚焦于多服务场景。文

献[17]提出了具有高可靠性、低时延的车–设施通信

架构,优化了车和基站的耦合及无线资源的管理。

文献[18]的任务卸载机制则同时优化了服务器和传

输模式的选择。

鉴于车联网的复杂特性,人工智能算法以其

巨大的优势也被用于车载边缘计算,以实现资源

的智能管理。文献[19]利用Q–学习算法实现闲置

车辆资源和服务器资源的管理,以加强用户的服

务质量。文献[20-21]均通过深度Q–学习联合优化

了网络的通信、计算和缓存资源,旨在提升系统

的整体收益。文献[22]则利用深度确定性策略梯

度算法实现任务的调度和资源的管理,最大程度

保障移动运营商的收益。

以上工作主要集中在车载计算卸载方面,忽

视了车辆资源的发掘和服务缓存对计算卸载的影

响。相比于文献[12-18],文献[19-22]虽然采用智

能方法实现任务的调度,但依然存在一定的局限

性。为此,本文提出了计算卸载和服务缓存智能

联合优化算法。

3 系统模型

本文构建了一个边缘智能驱动的车载网络架

构,如图1所示。该架构包括三层,即用户层、边

缘层和云层,特点介绍如下。

纵向协作。用户层位于网络的最底端,主要由

车辆组成。部署于道路一侧的路边单元配置相应的

边缘服务器,作为边缘层的关键节点。特别地,在

边缘层引入智能模块,协助实现资源的有效管理和

任务的灵活决策。云层位于网络的最上端,具有丰

富的计算和存储资源。在用户和边缘服务器资源受

限的情况下,云层可提供必要的资源支持。

横向协作。当车辆有任务处理时,可以选择本

·20· 通 信 学 报 第42卷

地执行并通过邻居车辆计算任务,还可利用车–设施

通信方式交由路边单元协助处理。路边单元的资源

往往在空时维度分布不均:轻负载的服务器资源会

呈现闲置状态造成浪费,过负载的服务器则对应接

不暇的任务捉襟见肘。为此路边单元之间可以加强

横向协作,通过任务迁移的策略,最大化网络资源

的利用率。

图1 车载边缘计算网络架构

移动感知。由于高速的移动性,车辆可能频繁地

在不同的路边单元之间切换。所以,需要能够基于对

车辆移动行为的分析对车辆的轨迹准确定位,以便路

边单元将计算结果顺利反馈给车辆。

假设M个路边单元均匀分布于道路一侧,组成

集合

M

。每个路边单元配备一个计算能力为

F

j

存储资源为

S

j

的服务器。

N

个车辆自由移动在道路

上,组成集合

N

。每个车辆

i

携带一个任务,该任

务可以表征为

{

d

i

,

c

i

}

,其中,

d

i

表示输入数据的大

小,

c

i

表示该任务的计算量。路边单元通过有线方

式互联。用户与路边通过无线通信方式进行交互。

车辆本地的卸载决策用

x

i0

表示,其中,

x

i0

=1

表示

车辆在用户侧处理任务;车辆边缘的卸载决策用

x

ij

表示,其中,

x

ij

=

1

表示车辆将任务卸载给路边单

j

处理。特别地,当车辆执行边缘卸载处理时,

优先邻近关联的路边单元。如果当前关联的路边单

元负荷较重,则可以由该服务器将任务迁移至周边

的路边单元。这样有利于负载均衡,提升资源的利

用率,从而加强用户的服务体验。对于每个路边单

元,为了实现任务的处理,需要安装相应的服务应

用。换言之,当其存储了相应的服务应用,即缓存

决策

w

ij

=

1

时,路边单元

j

能够处理车辆

i

卸载的任

务;否则它需要从云端下载该应用,从而带来了额

外的时延开销。

3.1

移动模型

定义

δ

ab

为相邻车辆

a

b

的连通时间,

R

为车

辆的通信范围。令

v

a

(

t

)

v

b

(

t

)

分别为两车在

t

刻的速度,

(

x

a

(

t

),(

y

a

(

t

))

(

x

b

(

t

),(

y

b

(

t

))

分别为两

车在

t

时刻的坐标。那么,两车的连通时间可以

表示

[23]

δ

R

φ

(y

a

(t)

y

b

(t))

2

+

(x

a

(t)

x

b

(t))

2

ab

=

v

a

(t)

ϕ

v

b

(t)

(1)

其中,当

φ

=−

1

ϕ

=

1

时,后车

a

和前车

b

同向行

驶,且前车速度小于后车;当

φ

=

1

ϕ

=

1

时,后

a

和前车

b

同向行驶,且前车速度大于后车;当

φ

=−

1

ϕ

=−

1

时,车辆

a

和车辆

b

位于不同车道

且相向行驶;当

φ

=

1

ϕ

=−

1

时,车辆

a

和车辆

b

位于相同车道,且反向行驶。

3.2

通信模型

车通信模型。车

车通信采用基于分布式协

调功能(

DCF, distributed coordination function

)的

IEEE 802.11p

协议。车辆利用

CSMA/CA

机制竞争

信道。令

E[

s

n

]

表示成功传输一个数据所需要的平

均时隙数目,

E[

s

l

]

表示每个时隙的平均长度。那么,

在车辆

i

和相邻车辆

k

之间成功传输一个数据所需

的平均时延

[24]

E[

t

ik

]

=

E[

s

n

]E[

s

l

] (2)

设施通信模型。任务车辆在执行边缘卸载

时,通过车

设施通信方式将任务上传给路边单元,

其中通信采用

LTE-V2X

协议。定义

h

i

B

i

分别为

车辆与路边单元之间的信道增益和信道带宽。令

ρ

i

表示用户的传输功率,

σ

2

表示传输的噪声。那么,

根据香农定理可得,数据的上传速率为

r

ph

i

=

B

i

lb

1

+

ii

σ

2

(3)

3.3

缓存模型

路边单元执行车辆卸载任务的前提在于其预

先安装了所需要的服务应用。考虑到存储空间的有

限性,路边单元不可能缓存所有需要的服务应用。

定义路边单元

j

的存储大小为

C

j

,任务车辆

i

服务

应用的大小为

ϖ

i

,则有式

(4)

成立。

w

ij

ϖ

i

j

(4)

i

3.4

计算模型

任务车辆可以通过用户层计算和边缘层卸载

2

第1期 刘雷等:车载边缘计算中任务卸载和服务缓存的联合智能优化 ·21·

方式处理任务。下面,对两者的时延性能分别进行分析。

3.4.1

用户层计算

为了充分利用车辆资源,任务车辆除了可以在

本地处理任务外,还可以借助其通信范围内的邻居

车辆实现任务的计算。定义

f

i

为任务车辆

i

自身的

计算能力。那么,车辆

i

通过本地计算方式处理自

己任务所需要的时间可表示为

t

e

i0

=

c

i

f

(5)

i

定义

N

i

为车辆

i

通信范围内的车辆集合。当任

务车辆利用其邻居车辆

k∈

N

i

计算任务时,时延包

括任务在两车之间的传输时延、任务在邻居车辆的

计算时延和结果的反馈时延。这里,本文忽略结果

的反馈时延。对于传输时延而言,根据式

(2)

可求得

平均传输时延

t

ik

;对于计算时延来说,通过式

(5)

以求得平均计算时延

t

e

k

0

综上可得,完成任务车辆任务计算所需要的最

小时延为

t

lee

i

0

=

min{

k

N

t

i

0

,t

ik

+

t

k

0

} (6)

i

约束条件为

t

e

ik

+t

k0

<

δ

ik

其中,约束条件是为了保障选定的邻居车辆能够在

两车有效通信时间

δ

ik

内完成任务的处理和反馈。

3.4.2

边缘层卸载

当任务车辆执行边缘卸载时,一般包括以下阶

段:任务上传、任务执行和结果反馈。本文忽略结

果反馈的时延假设任务车辆

i

选择卸载的路边单位

j

,分别对不同阶段的时延进行分析。

任务上传阶段。车辆

i

首先把任务上传给当前

关联的路边单元

s

i

,该过程的传输时延取决于任务

的大小和数据的传输速率。由式

(3)

可得

t

u

ij

=

d

i

r

(7)

i

任务执行阶段。根据所选定卸载服务器的位

置,任务执行分为以下

2

种情况。

情况1 路边单元

s

i

j

相同。该情况下,任

务在当前路边单元计算。如果路边单元存储了计算

该任务所需的服务应用,则可以直接计算任务,所

需时延取决于任务的算力需求和路边单元分配的

计算资源;否则,还要考虑从云端下载相应服务应

用的额外时延

t

cloud

i

。综上,完成任务计算所需要的

时间为

t

e

ij

=

c

i

f

+

(1

w

ij

)t

cloud

i

(8)

ij

其中,

f

ij

表示路边单元给车辆分配的算力。

情况2

路边单元

s

i

j

不同。该情况下,需要

考虑任务在两者之间的迁移时延。路边单元之间通过

有线链路连接。假设

s

i

j

之间存在

l

s

i

j

个链路,而

每个链路的平均传输时延为

t

one-link

,那么,任务在

2

个路边单元之间的迁移时间为

t

m

s

i

j

=t

one-link

l

s

i

j

。结合

(8)

,可得完成任务处理所需要的时间为

t

e

c

ij

=

i

f

+

(1

w

cloud

ij

)t

i

+

t

one-link

l

s

i

j

(9)

ij

结果反馈阶段。一旦选定的路边单元完成任务的

处理,就需要将结果反馈给车辆。由于移动性,需要

考虑车辆此时是否可能驶出了起初关联的路边单元。

因此,可将任务在上传和执行阶段的时间

T

ij

与车辆在

起初关联服务器传输范围内的时间

ξ

is

i

做比较。其中,

T

ue

ij

=t

ij

+t

ij

ξ

is

i

取决于用户驶出服务器通信范围的时

间和移动速度的比值。如果

T

ij

<

ξ

is

i

,可将结果首先

传输给该路边单元,然后反馈给车辆;否则,需要

对车辆的移动定位,判断当前位于哪个路边单元,

以便将结果传输给该服务器,进而反馈给车辆。

3.5

计算卸载和服务缓存联合优化模型

本文旨在动态、随机和时变的车载环境下,面

对有限网络资源和不同用户需求之间的矛盾,通过

计算卸载和服务缓存资源联合优化,在保障用户服

务需求的前提下,最小化系统整体的处理时延。鉴

于此,设计目标函数如下

min

x,f,w

x

l

i

i0

t

i0

+

xT

ijij

N

j

(10)

M

C1:

x

ij

{0,1},

∀i∈

N

,

j∈

{0,

M

} (11)

C2:x

ij

=

1,

i

N

(12)

j

{0,

M

}

C3:

x

ij

f

ij

j

,∀j∈{0,

M

}

(13)

i

C4:

w

ij

ϖ

i

j

,

∀j∈

{0,

M

}

(14)

i

C5:T

ij

δ

i

,∀i∈

N

(15)

·22· 通 信 学 报 第42卷

其中,

x=

{

x

ij

}

w={w

ij

}

f={f

ij

}

。根据式

(6)

(9)

,可分别得到

t

l

i

0

T

ij

。这里,假设车辆分配

的带宽资源一样。限制性条件

C1

表示每个任务有

用户层处理和边缘层卸载

2

种处理方式;

C2

表示每

个任务仅在一个地方执行;

C3

表示服务器的计算资

源限制;

C4

表示服务器的缓存资源限制,其中,

ϖ

i

表示执行任务所需要的服务应用的大小;

C5

表示车

辆卸载给路边单位的任务应该在其离开关联的服

务器传输范围之前完成,其中,

δ

i

表示用户和其关

联的服务器的连接时间,取决于用户驶出服务器通

信范围的时间和移动速度的比值。

4 基于异步分布式强化学习的问题求解

鉴于车载网络的动态性、随机性和时变性,人

工智能算法相比于传统数学方法更适合资源的管

理和任务的调度。相比较而言,

Q–

学习需要维护

Q

表格,不适应于具有较多状态的网络。深度确定性

策略梯度算法需要利用经验回放机制消除训练数

据间的相关性。对于经验回放机制来说,代理在与

环境的每次交互都需耗费较多的资源,而所采用的

离策略学习方法只能基于旧策略生成的数据进行

更新。所以,考虑利用异步优势的

actor-critic

算法

减少算法执行所需的开销,同时基于实时的网络环

境提供最优的卸载决策和资源管理。

利用异步优势的

actor-critic

算法对系统环境建

模,需要确定其状态空间、动作空间和奖励函数,

具体如下。

状态空间。状态空间

S

由车载网络的计算资源

和缓存资源组成,

S={F

1

,F

2

,",F

M

,S

1

,S

2

,",S

M

}

其中,

F

i

S

i

分别表示路边单元

i

的计算能力和存

储能力。

动作空间。动作空间由车辆的卸载决策、路边

单元的缓存和计算资源管理组成,

A=

(

x

i

,

w

i

,

f

i

)

。其

中,

x

i

w

i

f

i

分别代表车辆

i

的卸载决策、路边单

元存储和计算资源管理的集合,

x

i

={x

i0

,x

i1

,

"

,x

iM

}

w

i

={w

i1

,w

i2

,",w

iM

}

f

i

={f

i1

,f

i2

,

"

,f

iM

}

奖励函数。根据本文的目标函数,即时回报设

计为

x

i0

t

l

i0

+

x

ij

T

ij

i

j

N

M

异步优势的

actor-critic

算法中的公共神经网络

包括多个线程,每个线程具有和公共神经网络一样

2

个模块:策略(

actor

)网络和评价(

critic

)网

络。

actor

网络用于优化参数为

θ

策略

π

(

a

t

|

s

t

;

θ

)

critic

网络尝试估计参数为

θ

v

的价值函数

V

(

s

t

;

θ

)

在时刻

t

actor

网络基于当前状态

s

t

执行动作

a

t

得到奖赏

r

t

并进入下一个状态

s

t

+

1

利用优势函数

A

(

a

t

,

s

t

)

表示动作价值函数

Q

(

a

t

,

s

t

)

和状态价值函数

V

(

s

t

)

的差值,如式

(16)

所示。

A

(

a

t

,

s

t

)

=Q

(

a

t

,

s

t

)

−V

(

s

t

) (16)

为了加速收敛,采用

k

步采样近似估计

Q

(

a

t

,

s

t

)

,如式

(17)

所示。

k

1

Q(a

t

,s

t

)

γ

i

r

t

+

i

+

γ

k

V(s

t

+

k

;

θ

v

)

(17)

i

=

0

其中,

γ

(0,1]

为折扣系数,

r

t

+

i

表示即时奖赏,

V

(

s

t

)

则通过

critic

网络得到。

对于策略损失函数,有

f

π

(

θ

)

=

log

π

(

a

t

|

s

t

;

θ

)

A

(

a

t

,

s

t

)

+

β

H

(

π

(

s

t

;

θ

))

(18)

以参数

θ

为变量,对策略损失函数微分可得

θ

f

π

(

θ

)

=∇

θ

log

π

(

a

t

|

s

t

;

θ

)

A

(

a

t

,

s

t

)

+

β

θ

H

(

π

(

s

t

;

θ

))

(19)

对于价值函数损失函数,有

f

v

(

θ

v

)

=

(

R

t

−V

(

s

t

;

θ

))

2

(20)

其中,

H

为策略的熵,

β

为系数。

以参数

θ

v

为变量,对价值函数损失函数微分可得

d

f

v

(

θ

v

)

=

2(

A

(

a

t

,

s

t

)

V

(

s

t

;

θ

v

))

θ

v

V

(

s

t

;

θ

v

)

(21)

基于

RMSProp

算法,梯度估计可以表示为

g=ag+

(1

−a

)

Δ

θ

2

(22)

其中,

a

表示动量,

Δ

θ

表示损失函数的累计梯度。

RMSProp

算法可以通过式

(23)

进行梯度下降的

更新。

θ

θ

η

Δ

θ

g

+

ε

(23)

其中,

η

表示学习速率,

ε

表示一个正数。

单个线程独立地与环境交互并获取经验,彼此

之间互不干扰。经过一定的交互之后,每个线程独

立地使用累计的梯度更新公共神经网络模型参数,

如图

2

所示。进而,公共神经网络会分发自己的参

数更新每个线程的神经网络参数,指导线程与环境

第1期 刘雷等:车载边缘计算中任务卸载和服务缓存的联合智能优化 ·23·

图2 本文算法网络模型

的交互。本文算法详细描述如下。

算法1

基于异步分布式强化学习的计算卸载

和服务缓存联合优化机制

输入

车辆的任务属性和需求

输出

车辆的卸载决策,路边单元计算和缓存

资源管理决策

初始化

定义

ϑ

ϑ

v

为全局网络中

actor

网络

critic

网络的参数;定义

ϑ

'

根据式

(21)

计算价值函数梯度

ϑ

'

f

v

(

ϑ

v

'

)

v

计算累计梯度

d

ϑ

v

=

d

ϑ

v

+∇

ϑ

'

f

v

(

ϑ

v

'

)

v

end for

根据式

(23)

异步更新权值参数

ϑ

ϑ

v

end while

ϑ

v

'

为局部网络中

5 仿真分析

本节利用

Python

对车载边缘计算卸载算法进行仿

真验证,通过比较各算法随车辆数目、路边单元计算能

力和存储能力的变化在时延和奖赏方面展现的性能,来

评估不同算法的优劣。其中,实现的算法除了本文算法

之外,还包括基于随机卸载策略

random processing

和完

全卸载策略的

offloading processing

。在车载环境下,

设置一个云中心和

3

个路边单元。仿真参数如表

1

示。车辆的计算能力分布于

[100, 500] Mcycle/s

,边缘

服务器计算能力分布于

[2, 6] Gcycle/s

,边缘服务

器缓存能力分布于

[200, 1 000] MB

,车辆计算能

力分布于

[100, 500] Mcycle/s

,每个任务的计算强

度为

297.62 cycle/bit

表1

参数

边缘服务器计算能力/(Gcycle·s

−1

边缘服务器缓存能力/MB

actor

网络和

critic

网络的参数;设置全局计数器

T

=0

,设置局部步进计数器

t

=1

,设置

T

max

t

g

γ

ε

t

max

、学习的速率

η

和代理的数目

W

迭代:

while

T

<

T

max

do

if

w

=

1

to

W

do

重置全局梯度

d

ϑ

=

0

d

ϑ

v

=0

;同步局部参

ϑ

'

=

ϑ

ϑ

v

'

=

ϑ

v

;设置

t

0

=

t

得到系统状态

repeat

根据策略函数获得动作,执行动作,观察奖

赏以及下一个状态

t=t+

1

until

t

t

0

==

t

max

end if

if

t

%

t

g

==0 then

R

=

V

(

S

(

t

);

ϑ

v

'

)

end if

for

i=t−

1

to

t

0

do

R

=

R

(

t

)

+

γ

R

仿真参数

分布

[2,6]

[200,1 000]

车辆数目/辆 25、35、45

车辆计算能力/(Mcycle·s

−1

任务计算强度/(cycle·bit

−1

[100,500]

297.62

根据式

(19)

计算策略函数梯度

ϑ

'

f

π

(

ϑ

'

)

计算累计梯度

d

ϑ

=

d

ϑ

+∇

ϑ

'

f

π

(

ϑ

)

'

3

显示了车辆数目对不同算法时延的影响。

此时,设置每个路边单元的计算能力为

2 GHz

,存

·24· 通 信 学 报 第42卷

储大小为

300 MB

。从图

3

中可以发现,系统任务

处理的时延随着车辆数目的增多而增加。这一方面

是因为处理任务的增多,另外一方面是因为有限计

算资源的竞争。在所有的算法中,

random processing

的时延最大。相对于

offloading processing

和本文算

法,当采用

random processing

时,车辆会承担较多

任务的计算。由于车辆自身计算资源的限制,单独

处理任务会造成较大的时延。

offloading processing

取得了比

random processing

更好的性能。这主要归

因于边缘服务器具有丰富的计算资源。边缘服务器

参与任务的计算,会加快任务的处理,降低任务的

处理时延。本文算法相对于以上

2

种算法,完成任

务处理所需的时延最小,这是因为本文算法考虑了

纵向的端、边和云的协作。为此,所有可用的资源

均可以通过协同用于处理任务,提升了资源的利用

效率,促进了时延的减少。特别地,在端侧,任务

的处理不仅考虑了本地资源,也充分发掘了任务车

辆一跳的邻居车辆资源。本文算法的目标在于最小

化任务的处理时延,而所在用的深度强化学习策略

能够适应车载网络的动态、随机和时变特性获取相

应的最优解。

图3 车辆数目对不同算法时延的影响

4

显示了边缘服务器的计算能力对不同算法

时延的影响。随着边缘服务器的计算能力的增加,

不同算法处理任务的时延随之减少。这是因为任务

的计算与边缘服务器的资源呈正相关的关系。对于

random processing

而言,任务可以在端侧处理,也

可以由边缘服务器计算。由于未能充分发掘边缘服

务器的计算资源,

random processing

所带来的时延

最大。对于

offloading processing

而言,任务全部交

由边缘服务器处理。虽然可以充分发挥边缘服务器

的计算资源,但是,未能考虑计算资源和服务缓存

资源的相互关系。边缘服务器因为缓存资源不足将

从云端下载任务计算所需的服务应用,带来额外的

时延。对于本文算法而言,它联合考虑了计算卸载

和服务缓存,通过本地处理和边缘处理的合理调

度,促使了计算资源和缓存资源的充分利用,进一

步减少了任务的处理时延。此外,深度强化学习算

法有利于在动态的网络环境当中做出最优的卸载

决策,有效地处理好计算资源和服务缓存资源之间

的关系,进而保障任务的快速处理。

图4 边缘服务器的计算能力对不同算法时延的影响

5

描述了边缘服务器的缓存能力对不同算法

时延的影响。从图

5

中可以发现,随着边缘服务器

缓存能力的增加,不同算法处理任务的时延随之减

少。这主要是因为边缘服务器为了执行任务,需要

安装相应的服务应用,否则就需要从云端下载,从

而带来了额外的开销。当边缘服务器的缓存能力增

加时,可以缓存更多任务处理所需要的服务应用。

这样方便任务卸载给边缘服务器之后直接计算,从

而降低了时延。

图5 边缘服务器的缓存能力对不同算法时延的影响

第1期 刘雷等:车载边缘计算中任务卸载和服务缓存的联合智能优化 ·25·

6

描述了本文算法在不同学习速率场景下

的收敛情况。其中,实线表示当

actor

critic

络的学习速率分别为

1×10

−5

1×10

−4

episode

数目对奖励的影响。虚线表示当

actor

critic

络的学习速率分别为

1×10

−4

1×10

−3

episode

数目对奖励的影响。从两者的比较可以发现,随

episode

的增加,奖赏将会趋于稳定。

图6 本文算法在不同学习速率场景下的收敛情况

6 结束语

面对车联网中有限的网络资源,为了保障大量

用户多样化的服务需求,本文提出了智能驱动的车

载边缘计算架构。该架构实现了纵向端

-

-

云资源

的协作和横向端侧、边侧资源的协同,有利于实现

资源的最大化利用。基于该架构,探究了计算卸载

和服务缓存相互作用的机理,进而提出了两者的联

合优化模型。考虑到复杂的车载环境,利用异步优

势的

actor-critic

算法,给出了最优的任务卸载的策

略和资源管理方案。实验结果表明,相对于对比算

法,本文算法在任务处理时延方面取得了良好的性

能提升。

参考文献:

[1] 中国信息通信研究院. 车联网白皮书[R]. 北京: 中国信息通信研

究院, 2017.

CAICT. White paper of Internet of vehicles[R]. Beijing: CAICT,

2017.

[2] 郭辉, 芮兰兰, 高志鹏. 车辆边缘网络中基于多参数 MDP 模型的

动态服务迁移策略[J]. 通信学报, 2020, 41(1): 1-14.

GUO H, RUI L L, GAO Z P. Dynamic service migration strategy

based on MDP model with multiple parameter in vehicular edge net-

work[J]. Journal on Communications, 2020, 41(1): 1-14.

[3] 张海波, 王子心, 贺晓帆. SDN 和 MEC 架构下 V2X 卸载与资

源分配[J]. 通信学报, 2020, 41(1): 114-124.

ZHANG H B, WANG Z X, HE X F. V2X offloading and resource al-

location under SDN and MEC architecture[J]. Journal on Communica-

tions, 2020, 41(1): 114-124.

[4] LIU L, CHEN C, QIU T, et al. A data dissemination scheme based on

clustering and probabilistic broadcasting in VANETs[J]. Vehicular

Communications, 2018, 13: 78-88.

[5] CHEN C, WANG C, QIU T, et al. Caching in vehicular named data

networking: architecture, schemes and future directions[J]. IEEE

Communications Surveys & Tutorials, 2020, 22(4): 2378-2407.

[6] 彭鑫, 邓清勇, 田淑娟, 等. 多信道车联网 V2R/V2V 数据传输调

度算法[J]. 通信学报, 2019, 40(3): 92-101.

PENG X, DENG Q Y, TIAN S J, et al. Data dissemination scheduling

algorithm for V2R/V2V in multi-channel VANET[J]. Journal on

Communications, 2019, 40(3): 92-101.

[7] FENG J, YU F R, PEI Q, et al. Cooperative computation offloading

and resource allocation for blockchain-enabled mobile edge computing:

a deep reinforcement learning approach[J]. IEEE Internet of Things

Journal, 2020, 7(7): 6214-6228.

[8] FENG J, YU F R, PEI Q, et al. Joint optimization of radio and compu-

tational resources allocation in blockchain-enabled mobile edge com-

puting systems[J]. IEEE Transactions on Wireless Communications,

2020, 19(6): 4321-4334.

[9] LIU L, CHEN C, PEI Q, et al. Vehicular edge computing and net-

working: a survey[J]. Mobile Networks and Applications, 2020, doi:

10.1007/s11036-020-01624-1.

[10] WANG T, TANG M B, CAO Y. Resource optimization protocol

based on multicommunity model for intermittently connected mobile

networks[J]. IEEE Systems Journal, 2019, 14(1): 410-421.

[11] WANG T, CAO Y, ZHOU Y, et al. A survey on geographic routing

protocols in delay/disruption tolerant networks[J]. International Jour-

nal of Distributed Sensor Networks, 2016, 12(2): 1-12.

[12] DAI Y, XU D, MAHARJAN S, et al. Joint load balancing and of-

floading in vehicular edge computing and networks[J]. IEEE Internet

of Things Journal, 2018, 6(3): 4377-4387.

[13] TAMANI N, BRIK B, LAGRAA N, et al. On link stability metric and

fuzzy quantification for service selection in mobile vehicular cloud[J].

IEEE Transactions on Intelligent Transportation Systems, 2019, 21(5):

2050-2062.

[14] YANG C, LIU Y, CHEN X, et al. Efficient mobility-aware task of-

floading for vehicular edge computing networks[J]. IEEE Access,

2019, 7: 26652-26664.

[15] SORKHOH I, EBRAHIMI D, ATALLAH R, et al. Workload schedul-

ing in vehicular networks with edge cloud capabilities[J]. IEEE

Transactions on Vehicular Technology, 2019, 68(9): 8472-8486.

[16] DU J, YU F R, CHU X, et al. Computation offloading and resource

·26· 通 信 学 报 第42卷

allocation in vehicular networks based on dual-side cost minimiza-

tion[J]. IEEE Transactions on Vehicular Technology, 2018, 68(2):

1079-1092.

[17] TAREQ M M K, SEMIARI O, SALEHI M A, et al. Ultra reliable, low

latency vehicle-to-infrastructure wireless communications with edge

computing[C]//2018 IEEE Global Communications Conference. Pis-

cataway: IEEE Press, 2018: 1-7.

[18] ZHANG K, MAO Y, LENG S, et al. Mobile-edge computing for ve-

hicular networks: a promising network paradigm with predictive

off-loading[J]. IEEE Vehicular Technology Magazine, 2017, 12(2):

36-44.

[19] LIU Y, YU H, XIE S, et al. Deep reinforcement learning for offloading

and resource allocation in vehicle edge computing and networks[J].

IEEE Transactions on Vehicular Technology, 2019, 68(11):

11158-11168.

[20] HE Y, ZHAO N, YIN H. Integrated networking, caching, and compu-

ting for connected vehicles: a deep reinforcement learning approach[J].

IEEE Transactions on Vehicular Technology, 2017, 67(1): 44-55.

[21] HU R Q. Mobility-aware edge caching and computing in vehicle

networks: a deep reinforcement learning[J]. IEEE Transactions on Ve-

hicular Technology, 2018, 67(11): 10190-10203.

[22] NING Z, ZHANG K, WANG X, et al. Joint computing and caching in

5G-envisioned Internet of vehicles: a deep reinforcement learn-

ing-based traffic control system[J]. IEEE Transactions on Intelligent

Transportation Systems, 2020, doi: 10.1109/TITS.2020.2970276.

[23] CHEN C, LIU L, QIU T, et al. ASGR: an artificial spider-web-based

geographic routing in heterogeneous vehicular networks[J]. IEEE

Transactions on Intelligent Transportation Systems, 2018, 20(5):

1604-1620.

[24] PENG H, LI D, ABBOUD K, et al. Performance analysis of IEEE

802.11p DCF for multiplatooning communications with autonomous

vehicles[J]. IEEE Transactions on Vehicular Technology, 2016, 66(3):

2485-2498.

[作者简介]

刘雷(1987– ),男,河南南阳人,博士,

西安电子科技大学讲师,主要研究方向为

车载边缘计算。

陈晨(1977– ),男,陕西西安人,博士,

西安电子科技大学教授、博士生导师,主

要研究方向为智能交通。

冯杰(1987– ),女,陕西咸阳人,博士,

西安电子科技大学副教授,主要研究方向

为边缘智能。

裴庆祺(1975– ),男,广西百色人,西

安电子科技大学教授、博士生导师,主要

研究方向为区块链。

何辞(1983– ),女,湖北武汉人,中国

电子科技集团公司第54研究所高级工程

师,主要研究方向为空天信息网络。

窦志斌(1980– ),男,山西阳泉人,中

国电子科技集团公司第54研究所高级工程

师,主要研究方向为空天信息网络。