2024年5月7日发(作者:)

周绍发,肖小玲,刘忠意,等.改进的基于YOLOv5s苹果树叶病害检测[J].江苏农业科学,2023,51(13):212-220.

doi:10.15889/j.issn.1002-1302.2023.13.032

改进的基于YOLOv5s苹果树叶病害检测

周绍发,肖小玲,刘忠意,鲁 力

(长江大学计算机科学学院,湖北荆州434000)

  摘要:针对目前在复杂环境下苹果树叶病害检测准确度低、鲁棒性差、计算量大等问题,提出一种改进的基于

YOLOv5s苹果树叶病害的检测方法。首先,该方法在YOLOv5s网络基础上,选择考虑方向性的SIoU边框损失函数替

代CIoU边框损失函数,使网络训练和推理过程更快,更准确。其次,在特征图转换成固定大小的特征向量的过程中,

使用了简单化的快速金字塔池化(SimSPPF)替换快速金字塔池化(SPPF)模块,在不影响效率的情况下丢失的信息更

少。最后在主干网络中使用BoTNet(bottlenecktransformers)注意力机制,使网络准确的学习到每种病害的独有特征,

并且使网络收敛更快。结果表明,相比于基准网络YOLOv5s,改进后的YOLOv5s网络mAP精度为86.5%,计算量为

15.5GFLOPs,模型权重大小为13.1MB,相对于基准YOLOv5s,平均精度提升了6.3百分点、计算量降低了

03GFLOPs、模型权重压缩了1MB。并适用于遮挡、阴影、强光、模糊的复杂环境。本研究所提出的方法,在降低了网

络大小、权重、计算量的情况下提高了复杂环境下苹果树叶病害的检测精度,且对复杂环境具有一定的鲁棒性。在预

防和治理苹果树叶病害上有较高的实际应用价值,在后续研究上,会扩充更多类别的病害数据集,部署到无人机等物

联网设备,从而为实现智能果园种植提供技术参考。

  关键词:苹果树叶病害;目标检测;YOLOv5s;bottlenecktransformers;SIoU

  中图分类号:TP391.41  文献标志码:A  文章编号:1002-1302(2023)13-0212-09

  据国家统计局2016—2018年全国果园数据,苹

果园的占比达到了18%,在所有种植水果种类中,

是仅次于柑橘的第二大果类,其产量已经达到了

[1]

4139万t。苹果产量受到气候、土壤地质、灌溉、

害表现相似,用肉眼难以区分,导致无法准确定位

病害,最终导致产量下降。因此,准确识别出苹果

树叶病害的类别,是防治病害与对症下药的重要

2]

前提

病害等多种因素的影响。在众多因素中,苹果病害

是影响产量的最重要因素之一,而树叶的病害是最

常见的。苹果树叶病害的特点是种类多且某些病

收稿日期:2022-10-15

基金项目:国家自然科学基金(编号:61771354)。

作者简介:周绍发(1998—),男,湖北武汉人,硕士研究生,研究方向

为深度学习与目标检测。E-mail:2021710595@yangtzeu.edu.cn。

通信作者:肖小玲,博士,教授,研究方向为智能信息处理、网络安全、

mail:xxl@yangtzeu.edu.cn。云计算和无线网络。E-

传统的病害检测方法主要为对含有病害的图

片进行分析,一般是基于图片的机器学习方法,其

代表方法有基于支持向量机(SVM)和图片RGB特

性分析,以及利用优化算法提高其他机器学习方法

3]

。但是以上方法表现的好坏太依赖组合类方法

于特征提取的方法以及原本数学方法的局限。

深度学习法对于图像的特征提取与整合有着

较大的进步,已被用于各种植物病害检测。根据网

络结构的不同,Bari等使用改进的FastRCNN(卷积

櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄

[21]杨 坚,钱 振,张燕军,等.采用改进YOLOv4-tiny的复杂环

J].农业工程学报,2022,38(9):215-境下番茄实时识别[

221. 

[22]YangL,ZhangRY,LiL,etal.Simam:asimple,parameter-free

//attentionmoduleforconvolutionalneuralnetworks[C]

ProceedingsoftheIEEEInternationalConferenceonMachine

Learning.Vienna,2021:11863-11874.

[23]袁自然,叶 寅,武 际,等.基于高光谱成像技术的辣椒叶片

叶绿素含量估算[J].江苏农业科学,2021,49(16):189-193.

[24]HeKM,ZhangXY,RenSQ,etal.Delvingdeepintorectifiers:

surpassinghuman-levelperformanceonImageNetclassification

[C]//2015IEEEInternationalConferenceonComputerVision.

Santiago,2015:1026-1034.

[25]金松林,来纯晓,郑 颖,等.基于特征选择和CNN+Bi-RNN

模型的小麦抗寒性识别方法[J].江苏农业科学,2022,50

(10):201-207.

[26]陕西省统计局,国家统计局陕西调查总队.陕西统计年鉴:2021

[M].北京:中国统计出版社,2021.

Copyright©博看网. All Rights Reserved.

神经网络)实现了对稻叶的常见病害检测并具有高

3]

精度实现效果

;王超学等使用YOLOv3来检测葡

4]

;Richey等使用萄的病虫害并实现了实际部署

5]

YOLOv4实现了低时延的玉米病害检测

;Haque

现象,通过旋转、平移、等比例缩放、垂直和水平翻

82张。叶片转等数据增强方法,数据集总量为40

蛙眼病(frogeye)、白粉病病害的种类有4类:

(powderymildew)、锈叶病(rust)、斑点病(scab),具

体见图1。等使用YOLOv5实现了蔬菜病害检测,提高了对小

6]

范围病害的检测和定位效果

;雷建云等使用改进

的残差网络实现了多种类的水稻害虫识别,并实现

7]

了77.12%的高准确率和强鲁棒性

上述方法大多数都能对研究目标实现较为准

确的检测,但是很少考虑所提出方法在面对不同环

境下的苹果树叶病害是否能够实现高准确率、更小

计算量的检测。为解决此类问题,本研究提出一种

OLOv5网络为基础,加入Bottleneck以Y

Transformers注意力机制,并使用简单化后的快速金

字塔池化(SimSPPF)代替原有的快速金字塔池化

SPPF)网络,以期实现在复杂环境下高准确率的苹(

果树叶病害检测。

1 材料与方法

1.1 数据集来源

本研究的苹果树叶病害数据是自建数据集,一

部分来自AIStudio,为收集不同环境下的苹果病害

图片,使用网络爬虫、谷歌搜索等技术获取另外一

部分,总计2041张,图片格式为jpg,像素为1000×

750。为防止数据集过少产生过拟合和泛化性差的

1.2 数据预处理及分析

收集到的数据是没有标注或者标注不准确的。

使用Label-Img对全部苹果树叶做病害标注。采

用最大矩形框标注明显病害处,标注格式为YOLO

的txt格式。每张图片至少有1个病害标注。叶片

标注示例与标签分布见图2。

1.3 YOLOv5网络

YOLOv5网络是在YOLOv4的基础上改进的1

8]

阶段(one-stage)目标检测方法

,相较于生成候

应锚框和K-means算法聚类,并采用遗传算法在

训练过程中调整锚框。使得整个训练过程可以找

OLOv5根据到更好的先验框,提高检测准确率。Y

不同的使用场景目的有YOLOv5l、YOLOv5m、

YOLOv5s等版本,为保证算法的实时性和大小可

控,本研究选择了YOLOv5s版本,具体结构见图3。

选区域(regionproposal),再通过卷积神经网络预测

目标的分类与定位的2阶段(two-stage)检测方法

更加简洁有效。YOLOv5具体的改进是增加了自适

Copyright©博看网. All Rights Reserved.

  YOLOv5s网络结构大致分成4个部分:输入

(input)、主干网络(backone)、颈部(neck)及预测头

(head)。首先输入部分是对图像进行预处理,如

Mosaic增强。主干网络通过卷积神经网络提取图片

特征信息,颈部负责将信息上采样,不同网络层的

特征信息融合并将图像特征传递到预测层。预测

头对图像特征进行预测,生成边界框并预测类别。

1.4 YOLOv5s网络的改进

1.4.1 SIoU 边界框回归损失是评价目标检测算

法准确度的重要评判标准之一,而最常用的计算指

标是交并比(IoU),即目标检测中预测框与真实框

的重叠程度,具体见式1。IoU值越高说明A框与B

框重合程度越高,代表模型预测越准确。

|A

B|

IoU=。

|A

B|

式中:A代表预测框;B代表真实框。

但是IoU对尺度不敏感,如果2个框没有相交,

IoU=0,不能反映2个框的距离大小,会根据定义,

造成Loss=0没有梯度回传,无法进行学习训练。

随着目标检测技术的不断改进,随后出现不同的

IoU改进算法:在IoU的基础上,解决边界框不重合

[9]

IoU;在IoU和GIoU的基础上,考虑时的问题的G

[10]

边界框中心点距离信息的DIoU;在DIoU的基础

[11]

上,考虑边界框宽高比尺度信息的CIoU。

SCYLLA-IoU(SIoU)是Gevorgyan在2022年

提出的新边界框回归损失函数,重新定义了惩罚指

标,极大改进了目标检测算法的训练和推理速度。

通过在损失函数代价中引入方向性,与现有方法

CIoU损失相比,训练阶段的收敛速度更快,推理性

12]

能更好

。主要由角度损失(anglecost)、距离损失

(distancecost)、形状损失(shapecost)、IoU损失

(IoUcost)4个损失函数组成。

Anglecost的目的是如果

α≤

π

就最小化

α

,反

π

之最小化

β

=-。具体见图4-a和式(2)。

α

π

Λ

arcsinx-

1-2×sin

x==sin

α

σ

gt2gt2

(b-b)+(b-b)

cccc

σ

xxyy

gtgt

cmax(b,b)-min(b,b)

cccc

yyyy

()

(1)

2)(

式中:c

σ

为真

为真实框和预测框中心点的高度差;

实框和预测框中心点的距离;sin

α

在训练过程中若

gtgt

大于45°取

β

,否则取

α

;b、b为真实框中心坐标;

cc

xy

b、b为预测框中心坐标。

cc

xy

Distancecost是真实框和预测框的最小外接矩

形相关。具体见图4-b和式(3)。

YOLOv5s默认使用CIoU。

Copyright©博看网. All Rights Reserved.

t=x,y

{

γρ

1-e)

Δ

gtg

式中:w、h,w、h

分别为预测框和真实框的宽和高;

ρ

(

gt

b-b

cc

xx

)

ρ

(

gt

b-b

cc

yy

)

。(3)

,2-

γ

Λ

控制对形状损失的关注程度;、h共同确

θω

是由w

定的幂数值。

oUcost,详见图4-c最终的损失函数包含了I

和式(5)。

式中:c、c

wh

为真实框和预测框最小外接矩形的宽和

次幂来赋权重。高;

ρ

指距离损失使用2

Shapecost具体见式(4):

{

ω

θ

1-e)

Ω

t=w,h

4)

|w-w||h-h|

。(

ωω

gt

gt

maxmax(w,w)(h,h)

gtgt

{

Δ

Ω

L1-IoU+

box

GT

|B

B|

IoU=

GT

|B

B|

(5)

1.4.2 SimSPPF SPP(spatialpyramidpooling)结构

又被称为空间金字塔池化,是He等在2015年提出

的,它能将任意大小的特征图转换成固定大小的特

13]

。这避免了对图像区域裁剪、缩放等操作征向量

计算成本。而YOLOv5在SPP的基础上将原本并行

的Maxpool替换成串行Maxpool,并行和串行的效果

PPF。而一样,但串行的效率更高,称之为S

SimSPPF将SPPF的激活函数SiLU替换为ReLU,更

加高效,具体改变见图

5。

导致的图像失真等问题,解决了提取到重复特征的

问题,极大地提高了产生候选框的速度,且节省了

Copyright©博看网. All Rights Reserved.

1.4.3 BoTNet 当前,注意力机制在目标检测领域

14]

已经得到广泛应用

。注意力机制的灵感来自于

取到更重要的苹果树叶病害特征,引入了BoTNet

(bottlenecktransformers)———基于ResNet改进的一

multi-headself-attention,种多头自注意力机制(

[15]

MHSA)。BoTNet与ResNet相比,是在一个标准

人类视觉面对不同事物时会选择性地关注重要的

信息部分,忽略其他不重要的信息。在注意力机制

的帮助下,神经网络可以将有限的计算能力去捕捉

更重要的图像特征,最终达到更好的检测精度。

为了使网络能够在不加大计算量的前提下获

的bottleneckblock中将空间3×3卷积层替换成

MHSA,差异见图6,而MHSA原理见图7。

  不同的注意力层对应不同的树叶病害类别,在

16]

。具体计自注意力部分采用的是相对位置编码

式中:Attention(Q,K,V)为得到的注意力的值;Q、K、

V分别为查询量(query)、键(key)和值(value);d

是key的维度。

MHSA是由多个不同的单注意力组成,具体见

式(7)~式(8)。

算见式(6)至式(8)。

QK

Attention(Q,K,V)=softmaxV。

()

(6)

Copyright©博看网. All Rights Reserved.

headAttention(QW

KW

,VW

);

ii

7)至式(8)中:W

和W

为参数矩阵。式(

(7)意力机制,能够学习到每种病害独有的特征,在提

取特征时,使用更加高效的SimSPPF,并在预测阶段

IoU,提高了推理速度及准确引入了具有方向性的S

度。整体改进的结构见图8。

MultiHead(Q,K,V)=Concat(head)W

。(8)

ii

综上,改进后的网络结构对不同病害添加了注

2 结果与分析

2.1 试验环境与参数设置

本研究试验的环境:CPU为AMDR55600,GPU

为NVIDIARTX3070,操作系统为Windows10,编译

ython3.7、Pytorch1.12.1深度学习框架,环境为P

GPU训练加速为CUDA11.6。试验时间为2022年

7—9月,试验地点为长江大学农学院与计算机科学

学院。试验初始参数设置见表1。

表1 网络初始参数设置

参数名称

px)图像大小(

初始学习率

优化函数

学习率动量

权重衰减系数

初始值

640×640

0.01

参数名称

IoU训练时的阈值

色调

初始值

0.5

0.015

0.7

0.4

1.0

动态的学习率。Batchsize为16,训练总的轮次为

300次(epoch)。在每个epoch中,对图片的色调、

饱和度、亮度进行变化调整,并使用了Mosaic方式

将多张图片进行拼接,以实现每个轮次的数据都

是不同的,增加网络的泛化性。将原始数据集按

1∶1的比例划分为训练集、验证集和测照8∶

试集。

2.2 评价指标

本研究采用目标检测领域常见的精准率

(precision,P)、召回率(recall,R)、IoU阈值设置为

0.5的平均精度均值mAP(meanaverageprecision,

mAP)和计算量(GFLOPs)作为评价指标。其中

GFLOPs代表10亿次浮点运算量,其他具体计算见

式(9)~式(12)。

P=;

TF

R=;

T+F

pn

(9)

(10)

-2

SGD(×10)

饱和度

0.937

0.0005

亮度

Mosaic概率

  表1中图像大小是调整大小之后得来的,学习

率下降方式采用余弦退火(cosineannealing),实现

Copyright©博看网. All Rights Reserved.

PP(R)dR;

mAP

(11)

(12)

2.3 对比试验

2.3.1 损失对比 对本研究改进后的YOLOv5s与

OLOv5s进行对比试验,除本研究改进部分,其原Y

他网络参数都参照表1设定,类别训练损失与类别

验证损失的过程见图9。由图9可知,改进后的网

络,在同样的迭代轮次的情况下,损失更小,网络训

练更高效。

mAP

P=;

mAP

式中:Ttruepostives)是预测正确的正类样本数

量;Ffalsepostives)是预测错误的正类样本数量;

F(falsenegatives)是预测错误的负类样本数量;n

为预测的类别数。

2.3.2 注意力机制对比 为验证本研究所提出的

BoTNet注意力机制的有效性,在基准模型采用

YOLOv5s,且在超参数和图像输入设置相同的情况

下,分别将其与当前比较热门的SE(squeeze-and-

excitation

)、CBAM(convolutionalblockattention

module)、SimAM(simpleattentionmodule)注意力机

制进行对比,试验结果见表2、图10。

表2 注意力机制对比

名称

SE

CBAM

SimAM

BoTNet

mAP

(%)

79.8

78.6

79.0

85.0

精准率

%)(

81.3

77.3

83.0

86.5

召回率

%)(

76.3

76.8

76.4

81.3

GFLOPs权重大小

(G)MB)(

15.8

15.8

15.8

15.5

14.5

14.5

14.4

13.1

  由表2、图10可知,本研究提出的BoTNet注意

力机制在更小的计算量和模型权重的情况下,能实

现更高的目标检测精度。

2.3.3 网络对比及消融试验 为体现本研究所提

SD、YOLOv3、YOLOv4、出网络性能的优越性,选取S

YOLOX等几种热门目标检测网络。都使用默认网

络参数,且其他条件相同的情况下进行了对比试

验。各种网络试验结果见表3。

表3 不同网络性能对比

网络名称

SSD

YOLOv3

YOLOv4

YOLOv5s

YOLOX

图片大小

(px)

300×300

416×416

416×416

640×640

640×640

mAP

(%)

58.6

59.9

65.9

80.2

70.3

86.5

精准率

(%)

68.9

75.1

69.5

83.4

82.8

87.5

召回率

(%)

47.5

46.6

32.4

77.7

55.5

83.2改进的YOLOv5s640×640

  由表3可知,在最重要的评价指标mAP上,改

进后的YOLOv5s网络比SSD网络提升27.9百分

点;比YOLOv3网络提升26.6百分点;比YOLOv4

提升20.6百分点;比YOLOX网络提升16.2百分

点;比基准YOLOv5s网络提升6.3百分点。在精准

率和召回率上也都远高于其他网络。

为全面地验证本研究所提出每个改进部分的

有效性,对每个改进部分进行消融试验(ablation

Copyright©博看网. All Rights Reserved.

experiment),即在网络其他条件不变下,每次只增加1个改进部分的试验。试验结果见表4。

表4 消融试验结果对比

改进名称

YOLOv5s

改进1

改进2

改进3

SIoU

×

SimSPPF

×

×

BoTNet

×

×

×

精准率

(%)

83.4

83.4

83.4

87.5

召回率

(%)

77.7

79.2

77.7

83.2

mAP

(%)

80.2

81.5

82.5

86.5

GFLOPs

15.8

15.6

15.6

15.5

权重大小

(MB)

14.1

13.9

13.7

13.1

  通过表4的试验数据可知,每个改进的部分都

有效果,在将IoU损失函数改成SIoU后,mAP上升,

IoU相较于同时权重大小有微小的下降,说明S

CIoU是更高效的。使用了SimSPPF和BoTNet后,

在权重大小和计算量(GFLOPs)下降的情况下,mAP

实现了明显的上升。说明在将任意大小的特征图

转换成固定大小的特征向量的过程中,SimSPPF丢

失的信息更少。而BoTNet让整个网络更好地学习

到了每种病害的独有特征。

2.4 实例检测

选取测试集的图片,使用上述训练好的各个网

络进行实例检测,实例检测结果见图11。

  由图11可知,本研究所提出的方法,在识别病

害时平均置信度是最高的,实现了更准确的检测。

为验证本研究所提出网络在不同环境下的鲁

棒性,选择遮挡、阴影、强光、模糊4种非正常环境的

部分测试集图片。环境实例检测见图12。由图12

可知,本研究所提出的方法在复杂的环境下也能达

到较高的准确度。

3 结论

针对目前苹果树叶病害检测准确度低的问题,

本研究提出了一种基于YOLOv5s的方法,首先将边

界框损失函数替换成考虑方向性的SIoU,实现了更

高效的网络训练,更加准确的推理。在提取图片特

征并转换为固定特征的过程中,使用了更优的

SimSPPF,丢失的图片特征信息更少。在网络训练

过程中加入了BoTNet注意力机制,使网络能学习到

每种病害的独有特征。试验表明,所改进的网络相

AP,更低的计算量,更比于其他网络,有着更高的m

小的模型权重。对复杂环境下采集到的叶片病害

图片也能准确地检测,具有一定的环境鲁棒性。在

Copyright©博看网. All Rights Reserved.

实际的病虫害防护中,具有一定的应用价值。后

续,会收集更加复杂环境下的数据,增加数据集,并

采用不同数据预处理方法来提取不同环境下的图

片特征,来达到更好的模型泛化性能与精确度。

参考文献:

[1]李会宾,史 云.果园采摘机器人研究综述[J].中国农业信息,

2019,31(6):1-9.

[2]李书琴,陈 聪,朱 彤,等.基于轻量级残差网络的植物叶片病

害识别[J].农业机械学报,2022,53(3):243-250.

[3]BariBS,IslamMN,RashidM,etal.Areal-timeapproachof

diagnosingriceleafdiseaseusingdeeplearning-basedfasterR-

CNNframework[J].PeerJComputerScience,2021,7:e432.

[4]王超学,祁 昕,马 罡,等.基于YOLOv3的葡萄病害人工智能

识别系统[J].植物保护,2022,48(6):278-288.

[5]RicheyB,ShirvaikarMV.Deeplearningbasedreal-timedetection

ofnortherncornleafblightcropdiseaseusingYOLOv4[C]//Real-

TimeImageProcessingandDeepLearning.2021:39-45.

[6]HaqueME,RahmanA,JunaeidI,etal.Riceleafdisease

classificationanddetectionusingYOLOv5[EB/OL].(2022-09-

04)[2022-10-10].https://arxiv.org/pdf/2209.01579.pdf.

[7]雷建云,陈 楚,郑 禄,等.基于改进残差网络的水稻害虫识别

[J].江苏农业科学,2022,50(14):190-198.

[8]Ultralytics.YOLOv5[EB/OL].(2020-06-26)[2022-02-

].https://github.com/ultralytics/YOLOv5.22

[9]RezatofighiH,TsoiN,GwakJY,etal.Generalizedintersectionover

:ametricandalossforboundingboxregression[C]//

union

ProceedingsoftheIEEE/CVFConferenceonComputerVisionand

PatternRecognition.2019:658-666.

[10]ZhengZ,WangP,LiuW,etal.Distance-IoUloss:fasterand

betterlearningforboundingboxregression[C]//Proceedingsofthe

:12993-13000.AAAIConferenceonArtificialIntelligence.2020

[11]ZhengZH,WangP,RenDW,etal.Enhancinggeometricfactors

inmodellearningandinferenceforobjectdetectionandinstance

segmentation[J].IEEETransactionsonCybernetics,2022,52(8):

8574-8586.

[12]GevorgyanZ.SIoUloss:morepowerfullearningforboundingbox

regression[EB/OL].(2022-05-25)[2022-10-10].

https://arxiv.org/abs/2205.12740.

[13]HeKM,ZhangXY,RenSQ,etal.Spatialpyramidpoolingin

deepconvolutionalnetworksforvisualrecognition[J].IEEE

TransactionsonPatternAnalysisandMachineIntelligence,2015,37

(9):1904-1916.

[14]GuoMH,XuTX,LiuJJ,etal.Attentionmechanismsincomputer

vision:asurvey[J].ComputationalVisualMedia,2022,8(3):

331-368. 

[15]SrinivasA,LinTY,ParmarN,etal.Bottlenecktransformersfor

visualrecognition[C]//2021IEEE/CVFConferenceonComputer

VisionandPatternRecognition.Nashville:IEEE,2021:16514-

16524. 

[16]ShawP,UszkoreitJ,VaswaniA.Self-attentionwithrelative

[EB/OL].(2018-04-12)[2022-09-positionrepresentations

10].https://arxiv.org/pdf/1803.02155.pdf.

Copyright©博看网. All Rights Reserved.