改进的基于YOLOv5s苹果树叶病害检测编程频道|福州电脑网

2024年5月7日发(作者：)

周绍发，肖小玲，刘忠意，等．改进的基于ＹＯＬＯｖ５ｓ苹果树叶病害检测［Ｊ］．江苏农业科学，２０２３，５１（１３）：２１２－２２０．

ｄｏｉ：１０．１５８８９／ｊ．ｉｓｓｎ．１００２－１３０２．２０２３．１３．０３２

改进的基于ＹＯＬＯｖ５ｓ苹果树叶病害检测

周绍发，肖小玲，刘忠意，鲁　力

（长江大学计算机科学学院，湖北荆州４３４０００）

　　摘要：针对目前在复杂环境下苹果树叶病害检测准确度低、鲁棒性差、计算量大等问题，提出一种改进的基于

ＹＯＬＯｖ５ｓ苹果树叶病害的检测方法。首先，该方法在ＹＯＬＯｖ５ｓ网络基础上，选择考虑方向性的ＳＩｏＵ边框损失函数替

代ＣＩｏＵ边框损失函数，使网络训练和推理过程更快，更准确。其次，在特征图转换成固定大小的特征向量的过程中，

使用了简单化的快速金字塔池化（ＳｉｍＳＰＰＦ）替换快速金字塔池化（ＳＰＰＦ）模块，在不影响效率的情况下丢失的信息更

少。最后在主干网络中使用ＢｏＴＮｅｔ（ｂｏｔｔｌｅｎｅｃｋｔｒａｎｓｆｏｒｍｅｒｓ）注意力机制，使网络准确的学习到每种病害的独有特征，

并且使网络收敛更快。结果表明，相比于基准网络ＹＯＬＯｖ５ｓ，改进后的ＹＯＬＯｖ５ｓ网络ｍＡＰ精度为８６．５％，计算量为

１５．５ＧＦＬＯＰｓ，模型权重大小为１３．１ＭＢ，相对于基准ＹＯＬＯｖ５ｓ，平均精度提升了６．３百分点、计算量降低了

０３ＧＦＬＯＰｓ、模型权重压缩了１ＭＢ。并适用于遮挡、阴影、强光、模糊的复杂环境。本研究所提出的方法，在降低了网

络大小、权重、计算量的情况下提高了复杂环境下苹果树叶病害的检测精度，且对复杂环境具有一定的鲁棒性。在预

防和治理苹果树叶病害上有较高的实际应用价值，在后续研究上，会扩充更多类别的病害数据集，部署到无人机等物

联网设备，从而为实现智能果园种植提供技术参考。

　　关键词：苹果树叶病害；目标检测；ＹＯＬＯｖ５ｓ；ｂｏｔｔｌｅｎｅｃｋｔｒａｎｓｆｏｒｍｅｒｓ；ＳＩｏＵ

　　中图分类号：ＴＰ３９１．４１　　文献标志码：Ａ　　文章编号：１００２－１３０２（２０２３）１３－０２１２－０９

　　据国家统计局２０１６—２０１８年全国果园数据，苹

果园的占比达到了１８％，在所有种植水果种类中，

是仅次于柑橘的第二大果类，其产量已经达到了

［１］

４１３９万ｔ。苹果产量受到气候、土壤地质、灌溉、

害表现相似，用肉眼难以区分，导致无法准确定位

病害，最终导致产量下降。因此，准确识别出苹果

树叶病害的类别，是防治病害与对症下药的重要

２］

前提

［

。

病害等多种因素的影响。在众多因素中，苹果病害

是影响产量的最重要因素之一，而树叶的病害是最

常见的。苹果树叶病害的特点是种类多且某些病

收稿日期：２０２２－１０－１５

基金项目：国家自然科学基金（编号：６１７７１３５４）。

作者简介：周绍发（１９９８—），男，湖北武汉人，硕士研究生，研究方向

为深度学习与目标检测。Ｅ－ｍａｉｌ：２０２１７１０５９５＠ｙａｎｇｔｚｅｕ．ｅｄｕ．ｃｎ。

通信作者：肖小玲，博士，教授，研究方向为智能信息处理、网络安全、

ｍａｉｌ：ｘｘｌ＠ｙａｎｇｔｚｅｕ．ｅｄｕ．ｃｎ。云计算和无线网络。Ｅ－

传统的病害检测方法主要为对含有病害的图

片进行分析，一般是基于图片的机器学习方法，其

代表方法有基于支持向量机（ＳＶＭ）和图片ＲＧＢ特

性分析，以及利用优化算法提高其他机器学习方法

３］

。但是以上方法表现的好坏太依赖组合类方法

［

于特征提取的方法以及原本数学方法的局限。

深度学习法对于图像的特征提取与整合有着

较大的进步，已被用于各种植物病害检测。根据网

络结构的不同，Ｂａｒｉ等使用改进的ＦａｓｔＲＣＮＮ（卷积

櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄櫄

［２１］杨　坚，钱　振，张燕军，等．采用改进ＹＯＬＯｖ４－ｔｉｎｙ的复杂环

Ｊ］．农业工程学报，２０２２，３８（９）：２１５－境下番茄实时识别［

２２１．　

［２２］ＹａｎｇＬ，ＺｈａｎｇＲＹ，ＬｉＬ，ｅｔａｌ．Ｓｉｍａｍ：ａｓｉｍｐｌｅ，ｐａｒａｍｅｔｅｒ－ｆｒｅｅ

／／ａｔｔｅｎｔｉｏｎｍｏｄｕｌｅｆｏｒｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｃ］

ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅ

Ｌｅａｒｎｉｎｇ．Ｖｉｅｎｎａ，２０２１：１１８６３－１１８７４．

［２３］袁自然，叶　寅，武　际，等．基于高光谱成像技术的辣椒叶片

叶绿素含量估算［Ｊ］．江苏农业科学，２０２１，４９（１６）：１８９－１９３．

［２４］ＨｅＫＭ，ＺｈａｎｇＸＹ，ＲｅｎＳＱ，ｅｔａｌ．Ｄｅｌｖｉｎｇｄｅｅｐｉｎｔｏｒｅｃｔｉｆｉｅｒｓ：

ｓｕｒｐａｓｓｉｎｇｈｕｍａｎ－ｌｅｖｅｌｐｅｒｆｏｒｍａｎｃｅｏｎＩｍａｇｅＮｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎ

［Ｃ］／／２０１５ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．

Ｓａｎｔｉａｇｏ，２０１５：１０２６－１０３４．

［２５］金松林，来纯晓，郑　颖，等．基于特征选择和ＣＮＮ＋Ｂｉ－ＲＮＮ

模型的小麦抗寒性识别方法［Ｊ］．江苏农业科学，２０２２，５０

（１０）：２０１－２０７．

［２６］陕西省统计局，国家统计局陕西调查总队．陕西统计年鉴：２０２１

［Ｍ］．北京：中国统计出版社，２０２１．

神经网络）实现了对稻叶的常见病害检测并具有高

３］

精度实现效果

［

；王超学等使用ＹＯＬＯｖ３来检测葡

４］

；Ｒｉｃｈｅｙ等使用萄的病虫害并实现了实际部署

［

５］

ＹＯＬＯｖ４实现了低时延的玉米病害检测

［

；Ｈａｑｕｅ

现象，通过旋转、平移、等比例缩放、垂直和水平翻

８２张。叶片转等数据增强方法，数据集总量为４０

蛙眼病（ｆｒｏｇｅｙｅ）、白粉病病害的种类有４类：

（ｐｏｗｄｅｒｙｍｉｌｄｅｗ）、锈叶病（ｒｕｓｔ）、斑点病（ｓｃａｂ），具

体见图１。等使用ＹＯＬＯｖ５实现了蔬菜病害检测，提高了对小

６］

范围病害的检测和定位效果

［

；雷建云等使用改进

的残差网络实现了多种类的水稻害虫识别，并实现

７］

了７７．１２％的高准确率和强鲁棒性

［

。

上述方法大多数都能对研究目标实现较为准

确的检测，但是很少考虑所提出方法在面对不同环

境下的苹果树叶病害是否能够实现高准确率、更小

计算量的检测。为解决此类问题，本研究提出一种

ＯＬＯｖ５网络为基础，加入Ｂｏｔｔｌｅｎｅｃｋ以Ｙ

Ｔｒａｎｓｆｏｒｍｅｒｓ注意力机制，并使用简单化后的快速金

字塔池化（ＳｉｍＳＰＰＦ）代替原有的快速金字塔池化

ＳＰＰＦ）网络，以期实现在复杂环境下高准确率的苹（

果树叶病害检测。

１　材料与方法

１．１　数据集来源

本研究的苹果树叶病害数据是自建数据集，一

部分来自ＡＩＳｔｕｄｉｏ，为收集不同环境下的苹果病害

图片，使用网络爬虫、谷歌搜索等技术获取另外一

部分，总计２０４１张，图片格式为ｊｐｇ，像素为１０００×

７５０。为防止数据集过少产生过拟合和泛化性差的

１．２　数据预处理及分析

收集到的数据是没有标注或者标注不准确的。

使用Ｌａｂｅｌ－Ｉｍｇ对全部苹果树叶做病害标注。采

用最大矩形框标注明显病害处，标注格式为ＹＯＬＯ

的ｔｘｔ格式。每张图片至少有１个病害标注。叶片

标注示例与标签分布见图２。

１．３　ＹＯＬＯｖ５网络

ＹＯＬＯｖ５网络是在ＹＯＬＯｖ４的基础上改进的１

８］

阶段（ｏｎｅ－ｓｔａｇｅ）目标检测方法

［

，相较于生成候

应锚框和Ｋ－ｍｅａｎｓ算法聚类，并采用遗传算法在

训练过程中调整锚框。使得整个训练过程可以找

ＯＬＯｖ５根据到更好的先验框，提高检测准确率。Ｙ

不同的使用场景目的有ＹＯＬＯｖ５ｌ、ＹＯＬＯｖ５ｍ、

ＹＯＬＯｖ５ｓ等版本，为保证算法的实时性和大小可

控，本研究选择了ＹＯＬＯｖ５ｓ版本，具体结构见图３。

选区域（ｒｅｇｉｏｎｐｒｏｐｏｓａｌ），再通过卷积神经网络预测

目标的分类与定位的２阶段（ｔｗｏ－ｓｔａｇｅ）检测方法

更加简洁有效。ＹＯＬＯｖ５具体的改进是增加了自适

　　ＹＯＬＯｖ５ｓ网络结构大致分成４个部分：输入

（ｉｎｐｕｔ）、主干网络（ｂａｃｋｏｎｅ）、颈部（ｎｅｃｋ）及预测头

（ｈｅａｄ）。首先输入部分是对图像进行预处理，如

Ｍｏｓａｉｃ增强。主干网络通过卷积神经网络提取图片

特征信息，颈部负责将信息上采样，不同网络层的

特征信息融合并将图像特征传递到预测层。预测

头对图像特征进行预测，生成边界框并预测类别。

１．４　ＹＯＬＯｖ５ｓ网络的改进

１．４．１　ＳＩｏＵ　边界框回归损失是评价目标检测算

法准确度的重要评判标准之一，而最常用的计算指

标是交并比（ＩｏＵ），即目标检测中预测框与真实框

的重叠程度，具体见式１。ＩｏＵ值越高说明Ａ框与Ｂ

框重合程度越高，代表模型预测越准确。

｜Ａ

∩

Ｂ｜

ＩｏＵ＝。

｜Ａ

∪

Ｂ｜

式中：Ａ代表预测框；Ｂ代表真实框。

但是ＩｏＵ对尺度不敏感，如果２个框没有相交，

ＩｏＵ＝０，不能反映２个框的距离大小，会根据定义，

造成Ｌｏｓｓ＝０没有梯度回传，无法进行学习训练。

随着目标检测技术的不断改进，随后出现不同的

ＩｏＵ改进算法：在ＩｏＵ的基础上，解决边界框不重合

［９］

ＩｏＵ；在ＩｏＵ和ＧＩｏＵ的基础上，考虑时的问题的Ｇ

［１０］

边界框中心点距离信息的ＤＩｏＵ；在ＤＩｏＵ的基础

［１１］

上，考虑边界框宽高比尺度信息的ＣＩｏＵ。

ＳＣＹＬＬＡ－ＩｏＵ（ＳＩｏＵ）是Ｇｅｖｏｒｇｙａｎ在２０２２年

提出的新边界框回归损失函数，重新定义了惩罚指

标，极大改进了目标检测算法的训练和推理速度。

通过在损失函数代价中引入方向性，与现有方法

ＣＩｏＵ损失相比，训练阶段的收敛速度更快，推理性

１２］

能更好

［

。主要由角度损失（ａｎｇｌｅｃｏｓｔ）、距离损失

（ｄｉｓｔａｎｃｅｃｏｓｔ）、形状损失（ｓｈａｐｅｃｏｓｔ）、ＩｏＵ损失

（ＩｏＵｃｏｓｔ）４个损失函数组成。

Ａｎｇｌｅｃｏｓｔ的目的是如果

α≤

就最小化

，反

４

之最小化

＝－。具体见图４－ａ和式（２）。

２



＝

ａｒｃｓｉｎｘ－

１－２×ｓｉｎ

４



ｃ

ｈ



ｘ＝＝ｓｉｎ

。





ｇｔ２ｇｔ２

（ｂ－ｂ）＋（ｂ－ｂ）

ｃｃｃｃ



＝

槡

ｘｘｙｙ



ｇｔｇｔ



ｃｍａｘ（ｂ，ｂ）－ｍｉｎ（ｂ，ｂ）

ｈ

＝

ｃｃｃｃ

ｙｙｙｙ

()

（１）

２）（

式中：ｃ

为真

ｈ

为真实框和预测框中心点的高度差；

实框和预测框中心点的距离；ｓｉｎ

在训练过程中若

ｇｔｇｔ

大于４５°取

，否则取

；ｂ、ｂ为真实框中心坐标；

ｃｃ

ｘｙ

ｂ、ｂ为预测框中心坐标。

ｃｃ

ｘｙ

Ｄｉｓｔａｎｃｅｃｏｓｔ是真实框和预测框的最小外接矩

形相关。具体见图４－ｂ和式（３）。

ＹＯＬＯｖ５ｓ默认使用ＣＩｏＵ。

ｔ＝ｘ，ｙ

{

－

γρ

ｔ

１－ｅ）

＝

∑

（

ｇｔｇ

式中：ｗ、ｈ，ｗ、ｈ

ｔ

分别为预测框和真实框的宽和高；

ｘ

＝

(

ｇｔ

ｂ－ｂ

ｃｃ

ｘｘ

ｃ

ｗ

)

２

，

ｙ

＝

(

ｇｔ

ｂ－ｂ

ｃｃ

ｙｙ

ｃ

ｈ

)

２

。（３）

，２－

＝

控制对形状损失的关注程度；、ｈ共同确

θω

ｔ

是由ｗ

定的幂数值。

ｏＵｃｏｓｔ，详见图４－ｃ最终的损失函数包含了Ｉ

和式（５）。

式中：ｃ、ｃ

ｗｈ

为真实框和预测框最小外接矩形的宽和

次幂来赋权重。高；

ｔ

指距离损失使用２

Ｓｈａｐｅｃｏｓｔ具体见式（４）：

{

－

ｔ

１－ｅ）

＝

∑

（

ｔ＝ｗ，ｈ

４）

｜ｗ－ｗ｜｜ｈ－ｈ｜

。（

ωω

ｗ

＝

ｈ

＝

ｇｔ

，

ｇｔ

ｍａｘｍａｘ（ｗ，ｗ）（ｈ，ｈ）

ｇｔｇｔ

{

＋

Ｌ１－ＩｏＵ＋

ｂｏｘ

＝

２

。

ＧＴ

｜Ｂ

∩

Ｂ｜

ＩｏＵ＝

ＧＴ

｜Ｂ

∪

Ｂ｜

（５）

１．４．２　ＳｉｍＳＰＰＦ　ＳＰＰ（ｓｐａｔｉａｌｐｙｒａｍｉｄｐｏｏｌｉｎｇ）结构

又被称为空间金字塔池化，是Ｈｅ等在２０１５年提出

的，它能将任意大小的特征图转换成固定大小的特

１３］

。这避免了对图像区域裁剪、缩放等操作征向量

［

计算成本。而ＹＯＬＯｖ５在ＳＰＰ的基础上将原本并行

的Ｍａｘｐｏｏｌ替换成串行Ｍａｘｐｏｏｌ，并行和串行的效果

ＰＰＦ。而一样，但串行的效率更高，称之为Ｓ

ＳｉｍＳＰＰＦ将ＳＰＰＦ的激活函数ＳｉＬＵ替换为ＲｅＬＵ，更

加高效，具体改变见图

５。

导致的图像失真等问题，解决了提取到重复特征的

问题，极大地提高了产生候选框的速度，且节省了

１．４．３　ＢｏＴＮｅｔ　当前，注意力机制在目标检测领域

１４］

已经得到广泛应用

［

。注意力机制的灵感来自于

取到更重要的苹果树叶病害特征，引入了ＢｏＴＮｅｔ

（ｂｏｔｔｌｅｎｅｃｋｔｒａｎｓｆｏｒｍｅｒｓ）———基于ＲｅｓＮｅｔ改进的一

ｍｕｌｔｉ－ｈｅａｄｓｅｌｆ－ａｔｔｅｎｔｉｏｎ，种多头自注意力机制（

［１５］

ＭＨＳＡ）。ＢｏＴＮｅｔ与ＲｅｓＮｅｔ相比，是在一个标准

人类视觉面对不同事物时会选择性地关注重要的

信息部分，忽略其他不重要的信息。在注意力机制

的帮助下，神经网络可以将有限的计算能力去捕捉

更重要的图像特征，最终达到更好的检测精度。

为了使网络能够在不加大计算量的前提下获

的ｂｏｔｔｌｅｎｅｃｋｂｌｏｃｋ中将空间３×３卷积层替换成

ＭＨＳＡ，差异见图６，而ＭＨＳＡ原理见图７。

　　不同的注意力层对应不同的树叶病害类别，在

１６］

。具体计自注意力部分采用的是相对位置编码

［

式中：Ａｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）为得到的注意力的值；Ｑ、Ｋ、

Ｖ分别为查询量（ｑｕｅｒｙ）、键（ｋｅｙ）和值（ｖａｌｕｅ）；ｄ

ｋ

是ｋｅｙ的维度。

ＭＨＳＡ是由多个不同的单注意力组成，具体见

式（７）～式（８）。

算见式（６）至式（８）。

Ｔ

ＱＫ

Ａｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）＝ｓｏｆｔｍａｘＶ。

ｄ

槡

ｋ

()

（６）

ｈｅａｄＡｔｔｅｎｔｉｏｎ（ＱＷ

Ｑ

ＫＷ

Ｋ

，ＶＷ

Ｖ

）；

ｉ

＝

ｉ

，

ｉｉ

７）至式（８）中：Ｗ

ｉ

和Ｗ

Ｏ

为参数矩阵。式（

（７）意力机制，能够学习到每种病害独有的特征，在提

取特征时，使用更加高效的ＳｉｍＳＰＰＦ，并在预测阶段

ＩｏＵ，提高了推理速度及准确引入了具有方向性的Ｓ

度。整体改进的结构见图８。

ＭｕｌｔｉＨｅａｄ（Ｑ，Ｋ，Ｖ）＝Ｃｏｎｃａｔ（ｈｅａｄ）Ｗ

Ｏ

。（８）

ｉｉ

综上，改进后的网络结构对不同病害添加了注

２　结果与分析

２．１　试验环境与参数设置

本研究试验的环境：ＣＰＵ为ＡＭＤＲ５５６００，ＧＰＵ

为ＮＶＩＤＩＡＲＴＸ３０７０，操作系统为Ｗｉｎｄｏｗｓ１０，编译

ｙｔｈｏｎ３．７、Ｐｙｔｏｒｃｈ１．１２．１深度学习框架，环境为Ｐ

ＧＰＵ训练加速为ＣＵＤＡ１１．６。试验时间为２０２２年

７—９月，试验地点为长江大学农学院与计算机科学

学院。试验初始参数设置见表１。

表１　网络初始参数设置

参数名称

ｐｘ）图像大小（

初始学习率

优化函数

学习率动量

权重衰减系数

初始值

６４０×６４０

０．０１

参数名称

ＩｏＵ训练时的阈值

色调

初始值

０．５

０．０１５

０．７

０．４

１．０

动态的学习率。Ｂａｔｃｈｓｉｚｅ为１６，训练总的轮次为

３００次（ｅｐｏｃｈ）。在每个ｅｐｏｃｈ中，对图片的色调、

饱和度、亮度进行变化调整，并使用了Ｍｏｓａｉｃ方式

将多张图片进行拼接，以实现每个轮次的数据都

是不同的，增加网络的泛化性。将原始数据集按

１∶１的比例划分为训练集、验证集和测照８∶

试集。

２．２　评价指标

本研究采用目标检测领域常见的精准率

（ｐｒｅｃｉｓｉｏｎ，Ｐ）、召回率（ｒｅｃａｌｌ，Ｒ）、ＩｏＵ阈值设置为

０．５的平均精度均值ｍＡＰ（ｍｅａｎａｖｅｒａｇｅｐｒｅｃｉｓｉｏｎ，

ｍＡＰ）和计算量（ＧＦＬＯＰｓ）作为评价指标。其中

ＧＦＬＯＰｓ代表１０亿次浮点运算量，其他具体计算见

式（９）～式（１２）。

Ｔ

ｐ

Ｐ＝；

ＴＦ

ｐ

＋

ｐ

Ｔ

ｐ

Ｒ＝；

Ｔ＋Ｆ

ｐｎ

（９）

（１０）

－２

ＳＧＤ（×１０）

饱和度

０．９３７

０．０００５

亮度

Ｍｏｓａｉｃ概率

　　表１中图像大小是调整大小之后得来的，学习

率下降方式采用余弦退火（ｃｏｓｉｎｅａｎｎｅａｌｉｎｇ），实现

ＰＰ（Ｒ）ｄＲ；

ｍＡＰ

＝

０

∫

１

（１１）

（１２）

２．３　对比试验

２．３．１　损失对比　对本研究改进后的ＹＯＬＯｖ５ｓ与

ＯＬＯｖ５ｓ进行对比试验，除本研究改进部分，其原Ｙ

他网络参数都参照表１设定，类别训练损失与类别

验证损失的过程见图９。由图９可知，改进后的网

络，在同样的迭代轮次的情况下，损失更小，网络训

练更高效。

∑

Ｐ

ｍＡＰ

Ｐ＝；

ｍＡＰ

ｎ

式中：Ｔｔｒｕｅｐｏｓｔｉｖｅｓ）是预测正确的正类样本数

Ｐ

（

量；Ｆｆａｌｓｅｐｏｓｔｉｖｅｓ）是预测错误的正类样本数量；

Ｐ

（

Ｆ（ｆａｌｓｅｎｅｇａｔｉｖｅｓ）是预测错误的负类样本数量；ｎ

ｎ

为预测的类别数。

２．３．２　注意力机制对比　为验证本研究所提出的

ＢｏＴＮｅｔ注意力机制的有效性，在基准模型采用

ＹＯＬＯｖ５ｓ，且在超参数和图像输入设置相同的情况

下，分别将其与当前比较热门的ＳＥ（ｓｑｕｅｅｚｅ－ａｎｄ－

ｅｘｃｉｔａｔｉｏｎ

）、ＣＢＡＭ（ｃｏｎｖｏｌｕｔｉｏｎａｌｂｌｏｃｋａｔｔｅｎｔｉｏｎ

ｍｏｄｕｌｅ）、ＳｉｍＡＭ（ｓｉｍｐｌｅａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ）注意力机

制进行对比，试验结果见表２、图１０。

表２　注意力机制对比

名称

ＳＥ

ＣＢＡＭ

ＳｉｍＡＭ

ＢｏＴＮｅｔ

ｍＡＰ

（％）

７９．８

７８．６

７９．０

８５．０

精准率

％）（

８１．３

７７．３

８３．０

８６．５

召回率

％）（

７６．３

７６．８

７６．４

８１．３

ＧＦＬＯＰｓ权重大小

（Ｇ）ＭＢ）（

１５．８

１５．５

１４．５

１４．４

１３．１

　　由表２、图１０可知，本研究提出的ＢｏＴＮｅｔ注意

力机制在更小的计算量和模型权重的情况下，能实

现更高的目标检测精度。

２．３．３　网络对比及消融试验　为体现本研究所提

ＳＤ、ＹＯＬＯｖ３、ＹＯＬＯｖ４、出网络性能的优越性，选取Ｓ

ＹＯＬＯＸ等几种热门目标检测网络。都使用默认网

络参数，且其他条件相同的情况下进行了对比试

验。各种网络试验结果见表３。

表３　不同网络性能对比

网络名称

ＳＳＤ

ＹＯＬＯｖ３

ＹＯＬＯｖ４

ＹＯＬＯｖ５ｓ

ＹＯＬＯＸ

图片大小

（ｐｘ）

３００×３００

４１６×４１６

６４０×６４０

ｍＡＰ

（％）

５８．６

５９．９

６５．９

８０．２

７０．３

８６．５

精准率

（％）

６８．９

７５．１

６９．５

８３．４

８２．８

８７．５

召回率

（％）

４７．５

４６．６

３２．４

７７．７

５５．５

８３．２改进的ＹＯＬＯｖ５ｓ６４０×６４０

　　由表３可知，在最重要的评价指标ｍＡＰ上，改

进后的ＹＯＬＯｖ５ｓ网络比ＳＳＤ网络提升２７．９百分

点；比ＹＯＬＯｖ３网络提升２６．６百分点；比ＹＯＬＯｖ４

提升２０．６百分点；比ＹＯＬＯＸ网络提升１６．２百分

点；比基准ＹＯＬＯｖ５ｓ网络提升６．３百分点。在精准

率和召回率上也都远高于其他网络。

为全面地验证本研究所提出每个改进部分的

有效性，对每个改进部分进行消融试验（ａｂｌａｔｉｏｎ

ｅｘｐｅｒｉｍｅｎｔ），即在网络其他条件不变下，每次只增加１个改进部分的试验。试验结果见表４。

表４　消融试验结果对比

改进名称

ＹＯＬＯｖ５ｓ

改进１

改进２

改进３

ＳＩｏＵ

√

ＳｉｍＳＰＰＦ

√

ＢｏＴＮｅｔ

√

精准率

（％）

８３．４

８７．５

召回率

（％）

７７．７

７９．２

７７．７

８３．２

ｍＡＰ

（％）

８０．２

８１．５

８２．５

８６．５

ＧＦＬＯＰｓ

１５．８

１５．６

１５．５

权重大小

（ＭＢ）

１４．１

１３．９

１３．７

１３．１

　　通过表４的试验数据可知，每个改进的部分都

有效果，在将ＩｏＵ损失函数改成ＳＩｏＵ后，ｍＡＰ上升，

ＩｏＵ相较于同时权重大小有微小的下降，说明Ｓ

ＣＩｏＵ是更高效的。使用了ＳｉｍＳＰＰＦ和ＢｏＴＮｅｔ后，

在权重大小和计算量（ＧＦＬＯＰｓ）下降的情况下，ｍＡＰ

实现了明显的上升。说明在将任意大小的特征图

转换成固定大小的特征向量的过程中，ＳｉｍＳＰＰＦ丢

失的信息更少。而ＢｏＴＮｅｔ让整个网络更好地学习

到了每种病害的独有特征。

２．４　实例检测

选取测试集的图片，使用上述训练好的各个网

络进行实例检测，实例检测结果见图１１。

　　由图１１可知，本研究所提出的方法，在识别病

害时平均置信度是最高的，实现了更准确的检测。

为验证本研究所提出网络在不同环境下的鲁

棒性，选择遮挡、阴影、强光、模糊４种非正常环境的

部分测试集图片。环境实例检测见图１２。由图１２

可知，本研究所提出的方法在复杂的环境下也能达

到较高的准确度。

３　结论

针对目前苹果树叶病害检测准确度低的问题，

本研究提出了一种基于ＹＯＬＯｖ５ｓ的方法，首先将边

界框损失函数替换成考虑方向性的ＳＩｏＵ，实现了更

高效的网络训练，更加准确的推理。在提取图片特

征并转换为固定特征的过程中，使用了更优的

ＳｉｍＳＰＰＦ，丢失的图片特征信息更少。在网络训练

过程中加入了ＢｏＴＮｅｔ注意力机制，使网络能学习到

每种病害的独有特征。试验表明，所改进的网络相

ＡＰ，更低的计算量，更比于其他网络，有着更高的ｍ

小的模型权重。对复杂环境下采集到的叶片病害

图片也能准确地检测，具有一定的环境鲁棒性。在

实际的病虫害防护中，具有一定的应用价值。后

续，会收集更加复杂环境下的数据，增加数据集，并

采用不同数据预处理方法来提取不同环境下的图

片特征，来达到更好的模型泛化性能与精确度。

参考文献：

［１］李会宾，史　云．果园采摘机器人研究综述［Ｊ］．中国农业信息，

２０１９，３１（６）：１－９．

［２］李书琴，陈　聪，朱　彤，等．基于轻量级残差网络的植物叶片病

害识别［Ｊ］．农业机械学报，２０２２，５３（３）：２４３－２５０．

［３］ＢａｒｉＢＳ，ＩｓｌａｍＭＮ，ＲａｓｈｉｄＭ，ｅｔａｌ．Ａｒｅａｌ－ｔｉｍｅａｐｐｒｏａｃｈｏｆ

ｄｉａｇｎｏｓｉｎｇｒｉｃｅｌｅａｆｄｉｓｅａｓｅｕｓｉｎｇｄｅｅｐｌｅａｒｎｉｎｇ－ｂａｓｅｄｆａｓｔｅｒＲ－

ＣＮＮｆｒａｍｅｗｏｒｋ［Ｊ］．ＰｅｅｒＪＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０２１，７：ｅ４３２．

［４］王超学，祁　昕，马　罡，等．基于ＹＯＬＯｖ３的葡萄病害人工智能

识别系统［Ｊ］．植物保护，２０２２，４８（６）：２７８－２８８．

［５］ＲｉｃｈｅｙＢ，ＳｈｉｒｖａｉｋａｒＭＶ．Ｄｅｅｐｌｅａｒｎｉｎｇｂａｓｅｄｒｅａｌ－ｔｉｍｅｄｅｔｅｃｔｉｏｎ

ｏｆｎｏｒｔｈｅｒｎｃｏｒｎｌｅａｆｂｌｉｇｈｔｃｒｏｐｄｉｓｅａｓｅｕｓｉｎｇＹＯＬＯｖ４［Ｃ］／／Ｒｅａｌ－

ＴｉｍｅＩｍａｇｅＰｒｏｃｅｓｓｉｎｇａｎｄＤｅｅｐＬｅａｒｎｉｎｇ．２０２１：３９－４５．

［６］ＨａｑｕｅＭＥ，ＲａｈｍａｎＡ，ＪｕｎａｅｉｄＩ，ｅｔａｌ．Ｒｉｃｅｌｅａｆｄｉｓｅａｓｅ

ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｄｅｔｅｃｔｉｏｎｕｓｉｎｇＹＯＬＯｖ５［ＥＢ／ＯＬ］．（２０２２－０９－

０４）［２０２２－１０－１０］．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／２２０９．０１５７９．ｐｄｆ．

［７］雷建云，陈　楚，郑　禄，等．基于改进残差网络的水稻害虫识别

［Ｊ］．江苏农业科学，２０２２，５０（１４）：１９０－１９８．

［８］Ｕｌｔｒａｌｙｔｉｃｓ．ＹＯＬＯｖ５［ＥＢ／ＯＬ］．（２０２０－０６－２６）［２０２２－０２－

］．ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｕｌｔｒａｌｙｔｉｃｓ／ＹＯＬＯｖ５．２２

［９］ＲｅｚａｔｏｆｉｇｈｉＨ，ＴｓｏｉＮ，ＧｗａｋＪＹ，ｅｔａｌ．Ｇｅｎｅｒａｌｉｚｅｄｉｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒ

：ａｍｅｔｒｉｃａｎｄａｌｏｓｓｆｏｒｂｏｕｎｄｉｎｇｂｏｘｒｅｇｒｅｓｓｉｏｎ［Ｃ］／／

ｕｎｉｏｎ

ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄ

ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１９：６５８－６６６．

［１０］ＺｈｅｎｇＺ，ＷａｎｇＰ，ＬｉｕＷ，ｅｔａｌ．Ｄｉｓｔａｎｃｅ－ＩｏＵｌｏｓｓ：ｆａｓｔｅｒａｎｄ

ｂｅｔｔｅｒｌｅａｒｎｉｎｇｆｏｒｂｏｕｎｄｉｎｇｂｏｘｒｅｇｒｅｓｓｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ

：１２９９３－１３０００．ＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．２０２０

［１１］ＺｈｅｎｇＺＨ，ＷａｎｇＰ，ＲｅｎＤＷ，ｅｔａｌ．Ｅｎｈａｎｃｉｎｇｇｅｏｍｅｔｒｉｃｆａｃｔｏｒｓ

ｉｎｍｏｄｅｌｌｅａｒｎｉｎｇａｎｄｉｎｆｅｒｅｎｃｅｆｏｒｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｉｎｓｔａｎｃｅ

ｓｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｙｂｅｒｎｅｔｉｃｓ，２０２２，５２（８）：

８５７４－８５８６．

［１２］ＧｅｖｏｒｇｙａｎＺ．ＳＩｏＵｌｏｓｓ：ｍｏｒｅｐｏｗｅｒｆｕｌｌｅａｒｎｉｎｇｆｏｒｂｏｕｎｄｉｎｇｂｏｘ

ｒｅｇｒｅｓｓｉｏｎ［ＥＢ／ＯＬ］．（２０２２－０５－２５）［２０２２－１０－１０］．

ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２２０５．１２７４０．

［１３］ＨｅＫＭ，ＺｈａｎｇＸＹ，ＲｅｎＳＱ，ｅｔａｌ．Ｓｐａｔｉａｌｐｙｒａｍｉｄｐｏｏｌｉｎｇｉｎ

ｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＥＥＥ

ＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０１５，３７

（９）：１９０４－１９１６．

［１４］ＧｕｏＭＨ，ＸｕＴＸ，ＬｉｕＪＪ，ｅｔａｌ．Ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍｓｉｎｃｏｍｐｕｔｅｒ

ｖｉｓｉｏｎ：ａｓｕｒｖｅｙ［Ｊ］．ＣｏｍｐｕｔａｔｉｏｎａｌＶｉｓｕａｌＭｅｄｉａ，２０２２，８（３）：

３３１－３６８．　

［１５］ＳｒｉｎｉｖａｓＡ，ＬｉｎＴＹ，ＰａｒｍａｒＮ，ｅｔａｌ．Ｂｏｔｔｌｅｎｅｃｋｔｒａｎｓｆｏｒｍｅｒｓｆｏｒ

ｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／２０２１ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒ

ＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｎａｓｈｖｉｌｌｅ：ＩＥＥＥ，２０２１：１６５１４－

１６５２４．　

［１６］ＳｈａｗＰ，ＵｓｚｋｏｒｅｉｔＪ，ＶａｓｗａｎｉＡ．Ｓｅｌｆ－ａｔｔｅｎｔｉｏｎｗｉｔｈｒｅｌａｔｉｖｅ

［ＥＢ／ＯＬ］．（２０１８－０４－１２）［２０２２－０９－ｐｏｓｉｔｉｏｎｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ

１０］．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１８０３．０２１５５．ｐｄｆ．

改进的基于YOLOv5s苹果树叶病害检测

发布评论取消回复

最近发表

相关推荐

标签列表

改进的基于YOLOv5s苹果树叶病害检测

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复