005_SA202311007_张荣华

来自：智慧农业资讯 > 馆藏分类

配色：

字号：大中小

005_SA202311007_张荣华_L

2024-06-04 | 阅：转： | 分享

2024 年 3 月第 6 卷第 2 期智慧农业（中英文） Smart Agriculture Mar. 2024 Vol. 6, No. 2
复杂场景下害虫目标检测算法：YOLOv8-Extend

1 1 2 ， 3
张荣华，白雪，樊江川
（1. 京航创智（北京）科技有限公司，北京 102404 ，中国； 2. 国家农业信息化工程技术研究中心，北京 100097 ，中国；
3. 数字植物北京市重点实验室，北京 100097 ，中国）
摘要：［［目目的的 / 意意义义］］实现复杂的自然环境下农作物害虫的识别检测，改变当前农业生产过程中依赖于专家人工
感官识别判定的现状，提升害虫检测效率和准确率具有重要意义。针对农作物害虫目标检测具有目标小、与农作
物拟态、检测准确率低、算法推理速度慢等问题，本研究提出一种基于改进 YOLOv8 的复杂场景下农作物害虫目
标检测算法。［［方方法法］］首先通过引入 GSConv 提高模型的感受野，部分 Conv 更换为轻量化的幻影卷积（Ghost Convo?
lution ），采用 HorBlock 捕捉更长期的特征依赖关系，Concat 更换为 BiFPN （Bi-directional Feature Pyramid Network ）
更加丰富的特征融合，使用 VoVGSCSP 模块提升微小目标检测，同时引入 CBAM （Convolutional Block Attention
Module ）注意力机制来强化田间虫害目标特征。然后使用 Wise-IoU 损失函数更多地关注普通质量样本，提高网络
模型的泛化能力和整体性能。之后，对改进后的 YOLOv8-Extend 模型与 YOLOv8 原模型、YOLOv5 、YOLOv8-
GSCONV 、YOLOv8-BiFPN 、YOLOv8-CBAM 进行对比，验证模型检测准确度和精度。最后将模型移植到边缘设备
进行推理验证，在实际应用场景中验证模型的有效性。［［结结果果和和讨讨论论］］ YOLOv8-Extend 在对比实验中均取得良好的
表现，其中与原模型对比实验中，精确率、召回率、mAP@0.5 和 mAP@0.5 ∶0.95 评价指标分别提升 2.6% 、3.6% 、
2.4% 和 7.2% ，表现突出，具有更好的检测效果。改进前后的模型分别运行在边缘计算设备 JETSON ORIN NX
16 GB 上并通过 TensorRT 加速相比，mAP@0.5 提升 4.6% ，达到 57.6 FPS ，满足实时性检测要求。在复杂农业场景
中 YOLOv8-Extend 模型具有更好的适应性，在实际采集数据中微小害虫与生长环境相似的害虫检测方面有明显优
势，在困难数据检测方面准确率提高了 11.9% 。［［结结论论］］本研究提出的 YOLOv8 改进模型有效提高了检测精度和识
别率同时保持了较高的运行效率，能够部署在边缘终端计算设备上实现农作物害虫的实时检测，也为其他小目标
智能检测和模型结构优化提供参考和帮助。
关键词： YOLOv8 ；害虫检测；注意力机制；边缘计算；CBAM ；BiFPN ；VoVGSCSP ；GSConv
中图分类号： S433 ； TP391.41 文献标志码： A 文章编号： SA202311007
引用格式：张荣华, 白雪, 樊江川 . 复杂场景下害虫目标检测算法:YOLOv8-Extend[J]. 智慧农业( 中英文), 2024, 6(2):
49-61. DOI ： 10.12133/j.smartag.SA202311007
ZHANG Ronghua, BAI Xue, FAN Jiangchuan. Crop Pest Target Detection Algorithm in Complex Scenes:YOLOv8-Ex ‐
tend[J]. Smart Agriculture, 2024, 6(2): 49-61. DOI ： 10.12133/j.smartag.SA202311007 (in Chinese with English abstract)
［2, 3 ］
的感官识别来判定，耗时费力，且判定结果准
0 引言
确率低下。近几年计算机视觉检测技术与深度学习
通过虫害检测可以了解害虫的分布规律和季节
卷积神经网络的蓬勃发展，为农作物虫害检测提供
［4 ］
性变化规律制定合理的防治方案，为农业管理提供
了新的解决方案。深度学习卷积神经网络（Con ‐
［1 ］
科学依据，以提高农作物的产量和质量。早期的
volutional Neural Networks, CNN ）的出现，相比传
虫害检测主要是靠有经验的专家通过对农作物叶片统图像检测算法具有更丰富的特征提取能力，提高
收稿日期：2023-11-02
基金项目：北京市科技新星计划（Z211100002121065 ，Z20220484202 ）； “ 十四五 ” 国家重点研发计划项目（2022YFD2002302-02 ）
作者简介：张荣华，研究方向为激光雷达目标检测和计算机视觉。E-mail ： zhangronghua@pku.org.cn

通信作者：樊江川，副研究员，研究方向为植物表型大数据获取解析技术装备研发。E-mail ： fanjc@nercita.org.cn
copyright?2024 by the authors50 智慧农业（中英文） Smart Agriculture Vol. 6, No. 2
［5 ］
了检测准确率和精度。具有代表性的有 AlexNet 、
1 实验数据
［6 ］［7 ］［8 ］［9 ］
VGGNet 、GoogLeNet 、ResNet 、DenseNet 、
［10 ］
Faster RCNN 和 YOLO （You Only Look Once ）
1.1 　数据获取　
［11-15 ］
系列等算法。随着深度学习的快速发展，正在
全国农业技术推广服务中心建立了农作物病虫
逐渐应用于农作物害虫检测的识别研究。王建和徐
实时监控物联网，有 38 种害虫样本库，约 18 万张
［16 ］
闯使用 YOLOv5s 目标检测算法进行脐橙虫害检
图像。本研究针对常见的水稻虫害选取蝽卵（Ne ‐
测，对 9 类虫害检测的均值平均精度（Mean Aver ‐
zara Egg ）、稻螟蛉（Naranga aenescens Moore ）、
［17 ］
age Precision, mAP ）值达到 81.46% 。Fuentes 等
大螟幼虫（Sesamia inferens ）、红白蝙蝠蛾（Ghost
在番茄病虫害中使用不同元架构和深度学习特征提
Moth ）、黄肩型稻绿椿（Yellow Shoulder Type Ne ‐
［18 ］
取相结合的方法设计检测网络。何颖采用加权
zara viridula ）、点斑型稻绿蝽（Spotted Pattern Ne ‐
双向特征融合技术修改自适应 Anchor 计算方法优
zara viridula ）、全绿型稻绿蝽（All Green Nezara
化 YOLOv5 网络模型，在 20 种林业虫害的图像上
viridula ）、蝗虫（Locusts ） 8 种共计 2 613 张图像。
［19 ］
测试平均精度均值 mAP 达到 92.3% 。Reza 等结
分辨率像素为 2 000 ×1 325 ，部分害虫图像数据样
合迁移学习和数据增强的策略训练模型实现害虫种
本如图 1 所示。分别对每张图像数据做水平反转和
［20 ］
类识别。Chen 等使用多种深度学习目标检测算
垂直反转将数据扩充到 7 839 张，图像反转增强及
法对害虫进行基于边缘计算平台的检测研究，YO ‐
在模型训练时使用马赛克增强等方式增加训练数据
［21 ］
LOv4 取得了最高的检测精度。魏陈浩等提出了
的多样性，有助于计算机视觉检测模型更好地学习
一种 YOLOv8n_T 方法，构建了基于可变形卷积的
和泛化，提高模型的鲁棒性。
D_C2f 块，增加了双层路由注意力模块，在
1.2 　数据集构建　
BDD100K 数据集上的平均精度比原始 YOLOv8n 提
［22 ］
升 6.8% ，比 YOLOv5n 提升了 11.2% 。Li 等提出
首先对获取的虫害图像样本数据使用 LabelImg
基于 CNN 的从粗到细的网络（Coarse-Fine Net ‐
软件按照矩形框目标检测的方式进行数据标注，按
Work, CFN ）对微小和密集分布的蚜虫进行识别检
照 VOC2012 的数据格式创建 XML 类型标注数据文
测，使用细粒度卷积神经网络（Fully Connected
件，标注的 XML 文件名称和图像名称保持一致。
Neural Network, FCNN ）来细化检测群中的蚜虫区
LabelImg 提供了一个直观的用户界面，能够轻松地
域。上述研究通过优化深度学习目标检测网络结
在图像上绘制边界框，并为每个边界框分配相应的
构，解决了常规视觉检测模型针对害虫识别率不
类别标签。LabelImg 支持多种常见的图像格式，如
高、特征提取难的问题，在农业生产中区分害虫种
JPEG 、PNG 等，还提供了一些实用的功能，如快
类精准施药有较好的应用前景，但其方法存在耗时
捷键操作、自动保存标注结果等，以提高标注的效
长、成本高、技术难度大、复杂场景识别困难等问
率和准确性。
题，不利于推广应用。
按照 2 ∶3 的比例随机选取 5 226 个样本作为训
为了实现复杂自然环境下的农作物害虫的识别
练集，剩下的 2 613 个样本按照 1 ∶1 比例划分为验
检测，提升检测效率和准确率，针对农作物生长环
证集和测试集。各类害虫检测数据集目标统计如
境与害虫特征相似和害虫具有体型微小的特点，本
表 1 所示。
研究提出了一种改进的 YOLOv8 模型强化害虫目标
2 算法设计
［23 ］
检测算法，通过引入 GSConv 提高模型的感受
［24 ］
野，使用轻量化的幻影卷积（Ghost Convolu ‐
2.1 　 YOLOv8-Extend 网络结构　
［25 ］
tion ），并采用 HorBlock 捕捉更长期的特征依赖
［26 ］
关系，融入 BiFPN 更加丰富特征，使用 VoVG ‐
YOLO 是基于深度学习的端到端的卷积神经网
［28 ］
SCSP 模块提升微小目标检测，引入 CBAM （Con ‐ 络，YOLOv8 是 YOLO 系列模型的最新版本。
［27 ］
volutional Block Attention Module ）注意力机制来
本研究提出的 YOLOv8-Extend 继承了 YOLOv8 的
强化田间虫害目标特征，为农作物害虫自动化检测
计算流程，是对 YOLOv8 特征提取网络的一种改
和算法开发提供理论基础。进。将待检测的图像输入到神经网络中，通过Vol. 6, No. 2 张荣华等：复杂场景下害虫目标检测算法： YOLOv8-Extend 51
力机制来强化田间虫害目标特征，在
Neck 还引入 VoVGSCSP 模块提升田间
农作物害虫微小目标的检测。改进后
的 YOLOv8-Extend 网络结构如图 2
所示。
2.1.1 　GSConv 　
GSConv 和范式设计 Slim-Neck 在
无人驾驶领域有非常好的表现。
GSConv 能够减轻模型的复杂度并保
持准确性。由于本研究使用边缘计算
设备部署，GSConv 可以更好地平衡
模型的准确性和速度。GSConv 引入
全局特征聚合机制，能够在节点级别
和全局级别同时进行特征聚合。通过
邻居采样和聚合操作，从每个节点的
邻居节点中获取局部特征。将全局特
图 1 　虫害图像数据样本
征与局部特征进行融合，得到更丰富
Fig. 1 Samples of insect pest image data
的节点表示，提高模型的感受野和语
表 1 各类害虫检测数据集目标统计
义理解能力。GSConv 模块结构如图 3 所示。
Table 1 Target statistics of various pest detection datasets
2.1.2 　GhostConv 　
类别训练集验证集测试集总计
随着卷积层的不断增加，模型复杂度越来越
蝽卵 748 111 110 969
高。而深度学习逐渐向边缘计算迈进，更加轻量化
稻螟蛉 1 586 128 180 1 894
的模型结构是未来发展的趋势。幻影卷积（Ghost
大螟幼虫 789 80 125 994
Convolution ）将卷积操作分解为两个子操作，主干
红白蝙蝠蛾 385 60 39 484
卷积（Main Convolution ）和幻影卷积（Ghost Con ‐
黄肩型稻绿椿 835 205 151 1 191
volution ）。主干卷积通过一个标准的卷积操作进行
点斑型稻绿蝽 924 171 115 1 210
处理，幻影特征图选用较小的卷积核进行处理。之
全绿型稻绿蝽 778 95 113 986
后，主干卷积特征图和幻影特征图融合得到输出特
蝗虫 1 245 189 240 1 674
征图，如图 4 所示。
CNN 进行前向传播，将输入图像转换为特征图。 2.1.3 　HorBlock 　
在特征图上进行多层特征提取，通过卷积和池化等 HorBlock 网络结构如图 5 所示。首先通过 Lay ‐
er Norm 进行层归一化操作。层归一化与 Batch Nor ‐
操作，提取图像的高级语义特征。将不同层次的特
malization （批归一化）不同，Layer Norm 是在每
征进行融合，以获取更全局和更局部的特征信息。
个样本的特征上进行归一化，而不是在批次特征上
在融合后的特征图上进行目标预测，使用标注数据
监督反向传播更新参数进行模型训练。使用非极大归一化。层归一化之后通过 HorBlock 重要组成部分
n
是 g Conv （递归门控卷积），递归门控卷积引入了
值抑制算法，去除重叠的边界框，保留置信度最高
的边界框。门控机制。该门控机制基于传统卷积运算来捕获输
入数据的长期相关性。传统的卷积运算只能捕获局
基于 YOLOv8 优秀的特征提取能力和多尺度特
部特征，递归门卷积可以使用门控机制记忆和传输
征融合能力，本研究在 Backbone 和 Head 引入
GSConv 提高模型的感受野，并将 Backbone 部分先前的信息，捕获长期相关性。
Conv 更换为轻量化的卷积模块 GhostConv 。SPPF 2.1.4 　BiFPN 　
前的 C2f 更换为 HorBlock 捕捉更长期的特征依赖关在设计害虫实时目标检测模型时，充分考虑复
系。Neck 所有的 Concat 更换为 BiFPN 更加丰富的
杂多变的农作物生长的自然环境。为了融合更多的
特征融合，在 SPPF 后的 Concat 后引入 CBAM 注意特征在 YOLOv8 网络结构的基础上，对其 Neck 网52 智慧农业（中英文） Smart Agriculture Vol. 6, No. 2
图 2 　 YOLOv8-Extend 网络结构
Fig. 2 Network architecture of YOLOv8-Extend
图 3 　 GSConv 模块结构
Fig. 3 GSConv module structure
络进行优化，能有效提取图像的深层特征提高其精
度以提高识别效率。多维特征融合的目的是以不同
的分辨率组合特征，而以前的特征融合方法以相同
的方式处理所有输入特征。然而由于不同的输入特
征具有不同的分辨率，因此对特征融合的贡献往往
也是不平等的。为了解决这一问题，本研究使用
图 4 　 GhostConv 模块结构
BiFPN 层加权特征金字塔网络，实现了从上到下和
Fig. 4 Module structure of GhostConv
从下到上的深浅特征的双向融合，增强不同网络层
［29 ］
特征信息的传递。如图 6 所示 BiFPN 模块结构，
蓝色箭头传递高层特征语义信息的自上而下；红色
箭头是自下而上的路径，传递低层特征的位置信
息；紫色箭头是输入节点和输出节点之间同一层的
融合。双向尺度连接和加权特征的融合在准确性和
效率之间有更好的平衡。针对本研究田间害虫检测
识别，使得特征金字塔的各个层级能够更好地平
衡，以提供更全局和更具语义的特征表示，有助于
图 5 　 HorBlock 模块结构
在复杂环境中准确地检测田间害虫，提高对不同尺
Fig. 5 Module structure of HorBlock
度目标的检测能力。Vol. 6, No. 2 张荣华等：复杂场景下害虫目标检测算法： YOLOv8-Extend 53
块，包括通道注意力模块（Channel Attention Mod ‐
ule, CAM ）和空间注意力模块（Spatial Attention
Module, SAM ），分别关注通道和空间。不仅节省
了参数和计算能力，还确保可以作为即插即用模块
集成到现有网络架构中。通道注意力模块保持通道
维度，压缩空间维度，并关注输入图像中的显著特
征信息。空间注意力模块具有固定的空间维度、压
缩的信道维度，集中于目标位置信息的检测。该算
法同时关注信道和空间特征，性能更好。输入 Fea ‐
ture 如公式（1 ）所示。
图 6 　 BiFPN 模块结构
F'' = M ( F ) ? F （1 ）
c
Fig. 6 Module structure of BiFPN
C × H × W C × 1 × 1
其中：F ? {R } ，M ? {R } 是 CAM 输
c
2.1.5 　VoVGSCSP 　
出的通道权重数据为 1 ×1 ×C ，F'' 是通道注意力输
为了提升田间害虫微小目标检测，本研究引
出，如公式（2 ）所示。
入 VoVGSCSP 模块。该模块是基于 GSConv 和跨级
F'''' = M ( F'' ) ? F'' （2 ）
s
部分的网络结构，在 Neck 网络中引入 VoVGSCSP
1 × H × W
其中：M ? {R } 是 SAM 的权重数据为 2 ×
s
的网络，构成跨级部分网络是类似于 ResNet 残差
H ×W ，将通道注意力 CAM 输出结果 F'' 与空间注意
块的结构，如图 7a 所示。拼接前一层的特征图和
力 SAM 权重乘积之后得到 CBAM 输出结果 F'''' 。
后一层的特征图，然后进行卷积的运算。可以避免
2.2 　损失函数　
深层网络结构的信息丢失以及梯度消失问题。使用
VoVGSCSP 代替 Neck 网络中的 C2f 结构，如图
基于 IoU （Intersection over Union ）的损失函数
7b 所示，连接不同比例的特征图以形成更长的特征
被广泛用于对象检测和实例分割任务。YOLOv8 自
图特征向量用于增加模型的多样性，而跨级别部分［30 ］
带了 IoU 方法，包括 GIoU 、DIoU 和 CIoU ，其中
用于增加网络的深度和非线性，并整合结果以减少
默认选择的是 CIoU 。CIoU 考虑目标框之间的位置、
在保持计算复杂性的同时提高模型的准确性，更适
尺寸和角度差异，能够评估两个目标框的相似程
合小目标检测。
度。计算定位损失，如公式（3 ）所示。
2 A B
ρ b ， b
( )
L = 1 - IoU + + αv （3 ）
CloU
2
c
A B
式中：b 和 b 分别为预测框和真实框的中心
点； ρ 为两点之间的欧式距离；c 为预测框和真实框
的最小外接矩形的对角线长度； α 为平衡参数；v 用
于计算预测框和目标框高宽比的一致性，反映高、
宽分别与其置信度的真实差异，它会阻碍模型对相
似性的问题进行优化学习。CIoU 使用的是单调聚
焦机制。该机制致力于强化边界框损失的拟合能
力，但当目标检测训练集中含有低质量示例时，如
a. VoVGSCSP b. C2f
果一味地强化界框对低质量示例的回归，会危害模
图 7 　 C2f 与 VoVGSCSP 网络结构
型检测性能的提升。Focal-EIoU v1 被提出以解决
Fig. 7 Network architectures of C2f and VoVGSCSP
这个问题，但由于其聚焦机制是静态的，并未充分
［31 ］
2.1.6 　CBAM 注意力机制　
挖掘非单调聚焦机制的潜能。Wise-IoU （WIoU ）
田间农作物害虫检测往往检测目标比较密集，
动态非单调聚焦机制使用 “ 离群度 ” 替代 IoU 对锚
本研究融入 CBAM 注意力机制能够使得检测网络增框进行质量评估，并提供梯度增益分配策略。该策
加害虫的特征提取能力，降低繁杂的背景对目标特略在降低高质量锚框的竞争力的同时，也减小了低
征提取的影响。CBAM 是一种轻巧的卷积注意力模质量示例产生的有害梯度。这使得 WIoU 可以聚焦54 智慧农业（中英文） Smart Agriculture Vol. 6, No. 2
于普通质量的锚框，并提高检测器的整体性能。
2.4 　模型训练过程　
根据距离度量构建了距离注意力，得到了具有两层
在农作物害虫检测模型训练过程中，应用 ul ‐
注意力机制的 WIoU ，如公式（4 ） ~ 公式（6 ）
v1
tralytics 框架提供的 YOLOv8n 权重参数作为模型学
所示。
习初始化参数和超参数调优，实现整个网络的最佳
L = R L （4 ）
WIoU WIoU IoU
v1
检测性能。超参数设置如表 3 所示。
2 2
x - x + y - y
( gt ) ( gt )
表 3 模型训练超参数配置
R = exp ( ) （5 ）
WIoU

2 2
W + H
Table 3 Configuration of model training hyperparameter
g g
( )
L = 1 - IoU （6 ）名称试验配置
IoU
Epochs 200
式中：WIoU 为具有两层注意力机制的损失函
v1
Batch_size 64
数；R 为距离度量；W 、H 分别为最小包围框
WIoU g g
Momentum 0.937
的宽和高；X 、Y 分别为真实框的中心点。WIoU
gt gt v3
Weight decay 0.000 5
作为边界框回归损失，包含一种动态非单调机制，
Learn rate 0.01
并设计一种合理的梯度增益分配，减少极端样本中
Optimizer Adam
出现的大梯度或有害梯度。该损失方法计算更多地
Workers 4
关注普通质量的样本，进而提高网络模型的泛化能
Imgsz 640
力和整体性能。如公式（7 ） ~ 公式（9 ）所示。
L = r × L （7 ）
2.5 　试验评价指标　
WIoU WIoU
v3 v1
β
r = （8 ）计算机视觉检测中，先决条件和实际条件之间
β
δ α
的分类有 4 种不同的组合。TP 为模型预测为正类的
L
IoU
β = ∈ [ 0 ， + ∞ ) （9 ）
-
正样本；TN 为模型预测为负类的负样本；FP 为模
L
IoU
型预测为正类的负样本；FN 为模型预测为负类的
式中：r 为非单调聚焦系数； β 为描述针框质量
-
正样本。精确率（Precision ）是指预测结果为正例
的离群度；L 为单调聚焦系数；L 为动量为 m 的
IoU IoU
中实际真实为正例的份额，如公式（10 ）所示。召
滑动平均值。利用 β 构造一个非单调聚焦系数并将
回率（Recall ）是指实际真实为正例中预测结果为
其应用于 WIoU 就得到具有动态非单调 FM （Fo ‐
v1
正例的份额，如公式（11 ）所示。准确率是指模型
cusing Mechanism ）的 WIoU 。利用动态非单调
v3
预测正确的结果（包括正例和负例）所占的份额，
FM 的明智的梯度增益分配策略，WIoU 获得了优
v3
如公式（12 ）所示。
越的性能。模型更加关注锚定普通质量的框，并提
TP
高了模型定位对象的能力。 Precision = （10 ）
TP + FP
TP
2.3 　软硬件试验环境　
Recall = （11 ）
TP + FN
本试验使用 Windous 11 操作系统，基于 Py ‐ TP + TN
Accuracy = （12 ）
TP + TN + FP + FN
torch 深度学习框架和 Python 程序编码实现，在 ul ‐
精确率和召回率两者相互限制、相互影响，追
tralytics 框架下改进，具体软硬件配置如表 2 所示。
求高准确率会导致低召回率；高召回率通常会影响
表 2 模型训练软硬件环境配置
准确性。这需要全面考虑这些因素，最常见的方法
Table 2 Configuration of software and hardware environment
就是 F -Score ，如公式（13 ）所示。
for model training
1
2TP 2 ×Precision ×Recall
名称试验配置
F -Score= =
1
2TP+FN+FP Precision+Recall
编程语言 Python3.9
深度学习框架 Pytorch2.0.1
（13 ）
CPU Inte （ l R ） Core （TM ） i9-10900X CPU @3.70 GHz
在视觉识别问题中，每个图像可能包括多个类
内存 128 GB
别的目标，并且需要评估模型的目标分类和定位性
GPU NVIDIA GeForce RTX 3090
CUDA 11.7 能。图像分类问题的评价指标不能直接适用。mAP
开发平台 Pycharm 2022.2
是多个分类任务的平均精度（Average Precision, Vol. 6, No. 2 张荣华等：复杂场景下害虫目标检测算法： YOLOv8-Extend 55
AP ）的平均值，mAP 和 AP 值越大表明精度越高，
3 实验结果与分析
计算如公式（14 ）和公式（15 ）所示。mAP@0.5
3.1 　模型训练结果分析　
是指 IoU 设为 0.5 时，计算每一类的所有图片的 AP ，
然后所有类别求平均。mAP@0.5 ∶0.95 表示在不同
经过 200 轮的模型训练迭代，模型得以收敛。
IoU 阈值（0.5 ~0.95 ，步长 0.05 ）上的平均 mAP 。
在训练集和验证集上都取得不错的成绩。Box_loss
1
为 Wise-IoU 损失函数均值，值越小检测预测越准
AP = P ( R )dR （14 ）
∫
确；cls_loss 为分类损失函数均值，值越小分类越
0
K
准确；dfl_loss 自由形变损失是用于解决目标检测
AP
∑ i
中由于目标形状和大小的变化而导致的性能下降，
i = 1
mAP = （15 ）
K
值越小预测越准确。mAP@0.5 和 mAP@0.5 ∶ 0.95 值
采用 FPS （Frames Per Second ）评估模型检测
越大模型预测效果越好。YOLOv8-Extend 模型训练
的速度。FPS 越高表示实时性越好。评估结果如图 8 所示。
a. 训练集边界框损失 b. 训练集分类损失 c. 训练集分布焦点损失 d. 精确率 e. 召回率
f. 验证集边界框损失 g. 验证集分类损失 h. 验证集分布焦点损失 i. mAP@0.5 j. mAP@0.5 ： 0.95
图 8 　 YOLOv8-Extend 模型训练评估结果
Fig. 8 Evaluation results of YOLOv8-Extend model training
PR 曲线（Precision-Recall Curve ）是评估模型 YOLOv8 原始模型的热力图，第 3 列图 10c 为改进
性能的通用度量指标。以召回率（Recall ）为横轴，后的 YOLOv8-Extend 模型的热力图，第 4 列图 10d
精确率（Precision ）为纵轴，绘制的曲线反映了在为改进后的 YOLOv8-Extend 模型的检测结果图。归
不同召回率下的精确率变化情况。可以直观地观察一化后以热力图的方式表示，检测网络在颜色越红
模型在不同召回率下的性能。曲线越靠近右上角，的地方分配的权重越大。改进后的 YOLOv8-Extend
模型的准确性和召回率就越高，表明该模型具有良模型的热力图农作物害虫检测目标的红色明显比
好的性能。如图 9 所示。 YOLOv8 原模型层次分明，尤其第 2 行稻螟蛉目标
选取测试集中农作物与害虫特征相似、微小目较小、颜色和背景更加接近，引入了 VoVGSCSP 和
标等具有代表的 3 张图片进行试验，如图 10 所示。注意力机制后的模型可以更加精准地定位和识别微
其中，第 1 列图 10a 为原始图像，第 2 列图 10b 为小目标，检测效果更优。56 智慧农业（中英文） Smart Agriculture Vol. 6, No. 2
3.2 　消融实验　
为了探究使用 CBAM 注意力机制、BiFPN 加权
特征金字塔网络和 GSConv 模块的改进对 YOLOv8
模型带来的性能提升和验证各组件的有效性，进
行消融实验。分析研究 YOLOv5s 、 YOLOv8n 、
YOLOv8n-GSConv 、YOLOv8n-BiFPN 、YOLOv8n-
CBAM 和 YOLOv8-Extend 模型训练过程中在精确
率、召回率、mAP@0.5 和 mAP@0.5 ∶0.95 的实验
数据。从图 11a 可以看出，YOLOv8-Extend 模型在
50 个 epochs 后精确率相比 YOLOv8 原模型有明显提
升，接近 200 个 epochs 时和 YOLOv8-BiFPN 精确率
相差无几。图 11b 召回率消融实验反映了 YOLOv8-
Extend 在 50 ~100 个 epochs 召回率明显高于其他模
型，最终收敛过程中和 YOLOv8-CBAM 相交。这
两个消融实验说明 YOLOv8-Extend 在精确率和召
回率都取得良好的效果。图 11cmAP@0.5 和图 11d
mAP@0.5 ∶0.95 均能明显反映在 100 个 epochs 以上
图 9 　 YOLOv8-Extend 模型训练 PR 曲线
YOLOv8-Extend 都高于其他模型。
Fig. 9 PR training curve of YOLOv8-Extend model
a. 原图 b. 改进前热力图 c. 改进后热力图 d. 实际检测图
图 10 　 YOLOv8 模型改进前后特征热力图对比
Fig. 10 Comparison of feature heat maps before and after the improvement of the YOLOv8 model
从表 4 可以看出，各种改进算法的 Precision 、 cat 后分别提升 2.4% 、3.6% 、1.1% 和 0.6% ，引入
Recall 、 mAP@0.5 和 mAP@0.5 ∶0.95 均高于 YO ‐ CBAM 注意力机制后分别提升 1.7% 、3.7% 、1.8%
LOv8 原模型，改进融入 GSCONV 模块后分别提升和 4.4% ，YOLOv8n-Extend 是融入了多个模块，结
0.7% 、1.5% 、0.6% 和 0.2% ，使用 BiFPN 代替 Con ‐ 合多个模块的优势最终分别提升 2.6% 、 3.6% 、Vol. 6, No. 2 张荣华等：复杂场景下害虫目标检测算法： YOLOv8-Extend 57
a. Precision 消融实验 b. Recall 消融实验
c. mAP@0.5 消融实验 d. mAP@0.5 ： 0.95 消融实验
图 11 　 YOLOv8n-Extend 模型训练消融实验评估指标
Fig. 11 Evaluation metrics for the YOLOv8n-Extend model training ablation experiment
2.4% 和 7.2% 。除了 YOLOv8n-GSCONV 模型中几。FPS 是通过处理 100 张照片所用时间平均计算
Neck 网络中 C2f 全部更换了 VoVGSCSP 导致模型参而来，改进前后 FPS 几乎无差别。
数增大外其他改进模型参数量均与原模型相差无
表 4 YOLOv8n-Extend 改进算法消融实验
Table 4 YOLOv8n-Extend improved algorithm ablation experiment
Methods Precision Recall mAP@0.5 mAP@0.5 ∶0.95 Modelsize/M FPS
YOLOv5s 0.959 0.91 0.947 0.721 13.70 66.7
YOLOv8n 0.958 0.939 0.964 0.739 5.93 72.6
YOLOv8n-GSCONV 0.965 0.954 0.970 0.741 20.20 56.4
YOLOv8n-BiFPN 0.982 0.975 0.975 0.745 5.93 68.5
YOLOv8n-CBAM 0.975 0.976 0.982 0.783 5.95 62.6
YOLOv8n-Extend 0.984 0.975 0.99 0.811 6.07 65.5
通过同一张图像对比改进后的 YOLOv8-Extend 网络中特征提取较为分散而 HorBlock 对每个样本的
和 YOLOv8 原模型的热力图直观地分析网络结构的特征维度上进行归一化通过递归门控卷积能够更加
各个模块学习效果。图 12a 列为 YOLOv8 模型的热集合特征。第 3 行为 Neck 网络中一个 C2f 和相同层
力图输出，图 12b 列为改进后的模型热力图输出。改进为 VoVGSCSP 模块的对比实验，发现两者特征
第 1 行为 Backbone 网络 Conv 和改进为 GhostConv 提取相差不大，VoVGSCSP 通过拼接前一层的特征
的对比实验，可以看出在浅层网络结构中幻影卷积图和后一层的特征图，然后进行卷积运算得到，使
能够较丰富地提取特征。第 2 行为 Backbone 网络最得 VoVGSCSP 特征更加突出热力图颜色较深。第 4
后一个 C2f 和改进为 HorBlock 的消融实验，发现原行为 Neck 网络最后一个 C2f 和改进后的网络 C2f 后58 智慧农业（中英文） Smart Agriculture Vol. 6, No. 2
增加 CBAM 注意力机制，可以明显看出增加了注意 16 GB 边缘计算设备。该设备搭载了 32 个 Tensor
力机制的网络结构对特征的提取能力和聚焦能力更 Core 的 1 024 、NVIDAI Ampere 架构 GPU 和 16 GB
强。第 5 行为改进前后模型对害虫的检测图，通过
128 位 LPDDR5 显存，具有 100TOPS （INT 8 ） AI
网络结构的改进和损失函数更改为 WIoU 动态非单
性能，还配有 2 个 NVDLA V2 和 8 核 Arm Cortex?
调聚焦机制，具有更为丰富的特征提取和语义理解
-A78AEv8.2 64 位 CPU 2 MB L2+4 MB L3 。
能力，通过对比试验原模型的置信度为 0.72 ，改进
TensorRT 是由 NVIDIA 开发的一个高性能推理
后的 YOLOv8-Extend 为 0.88 ，提高 16% 。
引擎，在 GPU 上加速深度学习模型的推理。通过
有效优化网络结构、降低计算量、融合网络层等方
法，实现了对神经网络的高效推理。结合模型中大
量的卷积模块和张量，卷积、BN 层和激活层一次
性融合计算，减少了计算步骤和提高了数据传输效
率。将 Pytorch 框架下训练的农作物害虫检测模型
的.pt 权重文件通过 export 工具转化为.onnx 中间
件，再通过 TensorRT 的 trtexec 工具构建用于推理的
引擎.engine 文件，使用推理引擎推理获得更快的
推理速度，提高深度学习模型在实际应用中的效率
和性能。与 PC 端 Pytorch 推理对比消融实验如表 5
所示。
表 5 模型推理电脑端与边缘计算消融实验
Table 5 Model inference computer terminal and edge
computing ablation experiment
Methods mAP@0.5 FPS
YOLOv5s 0.947 66.7
YOLOv5s-Jetson 0.912 54.7
YOLOv8n 0.964 72.6
YOLOv8n-Jetson 0.922 62.8
YOLOv8n-Extend 0.990 65.5
YOLOv8n-Extend-Jetson 0.968 57.6
随机抽取了 500 张图片进行边缘计算与 PC 端
Pytorch 推理对比消融实验。YOLOv5s 、YOLOv8n
和 YOLOv8n-Extend 分别通过边缘计算和 TensorRT
加速后，mAP@0.5 分别下降 3.5% 、4.2% 和 2.3% ，
FPS 分别下降 12 、9.8 和 7.9 帧。实验中，改进后通
过边缘计算的 YOLOv8n-Extend-Jetson 相比原模型
通过边缘计算的 YOLOv8n-Jetson ，mAP@0.5 提升
a. YOLOv8 b. YOLOv8-Extend
4.6% ，FPS 下降 5.2 帧。YOLOv8n-Extend-Jetson 基
图 12 　 YOLOv8 模型改进前后不同阶段特征热力图
Fig. 12 Heat maps of different stages of YOLOv8 model before 本都保持在较高的准确率和检测效率。由于本试验
and after improvement
最终运行的摄像头帧率仅为 25 帧，有 40 ms 的帧间
隔，而 YOLOv8n-Extend-Jetson 检测帧率可达 57.6
3.3 　边缘计算实验　
帧，帧间隔为 17.3 ms ，完全可以运行摄像头 40 ms
的帧间隔中。结果表明本算法满足实时性检测
本研究目的是应用在边缘端实现农作物害虫检
测，选择 NVIDIA 公司生产的 JETSON ORIN NX 要求。Vol. 6, No. 2 张荣华等：复杂场景下害虫目标检测算法： YOLOv8-Extend 59
目标纹理类似、特征提取困难等问题，本研究提出
3.4 　实际采集数据推理验证分析　
的基于 YOLOv8 改进 YOLOv8n-Extend 实时目标检
为了验证基于 YOLOv8 的改进模型在实际农作
测算法。
物害虫检测场景中的检测效果，使用在农田中实际
通过试验证明 GhostConv （幻影卷积）能够较
采集的未经模型训练的视频作为图像输入源来模拟
丰富地提取特征，HorBlock 网络中的递归门控卷积
真实场景。视频为 1 080 P ，H.265 编码，使用 ffm ‐
具有能捕捉到更长期的依赖关系的特征，BiFPN
peg 推送至 RTMP 流媒体。检测推理模型经过 Ten ‐
（加权特征金字塔）双向融合网络的深浅层特征，
sorRT 加速，运行在 NVIDIA JETSON ORIN NX
增强不同网络层之间特征信息的传递。VoVGSCSP
16 GB 边缘计算设备上，使用 DeepStream 稳定高效
跨级融合增加网络的深度和非线性，并整合结果以
的视频流读取分布式部署实现高吞吐量和低延迟的
减少在保持计算复杂性的同时提高模型的准确性，
数据处理。改进前后的模型经过 DeepStream 部署对
适合小目标检测。引入 CBAM 注意力机制，增加了
比 FPS 均约为 60 ，满足农作物害虫检测实时性的需
注意力机制的网络结构对特征的提取能力和聚焦能
求。在微小害虫和与背景相似的害虫检测方面改进
力。改进的算法使用 Wise-IoU 损失函数具有更多地
后的模型有明显优势，如图 13 所示。
关注普通质量的样本，进而提高网络模型的泛化能
力和整体性能。相比原 YOLOv8 模型在模型参数量
没有增加，没有损失检测速度的前提下，Preci ‐
sion 、Recall 、mAP@0.5 和 mAP@0.5 ∶0.95 评价指
标分别提升 2.6% 、3.6% 、2.4% 和 7.2% 。
研究对比了 YOLOv5s ， YOLOv8n-CBAM 、
YOLOv8n-BiFPN 和 YOLOv8-GSCONV 等 YOLO 系
a. YOLOv8 b. YOLOv8-Extend 列改进算法，消融实验发现，本实验提出的 YO ‐
图 13 　 YOLOv8 模型改进前后实采数据检测结果
LOv8n-Extend 改进算法表现最佳。选择了 NVIDIA
Fig. 13 Real data detection results before and after improve ‐
公司生产的 JETSON ORIN NX 16GB 边缘计算设备
ment of YOLOv8 model
进行部署，改进前后的模型运行在边缘计算均通过
TensorRT 加速后相比 mAP@0.5 提升 4.6% ，FPS 从
将采集的视频数据按照每秒抽取一帧并剔除没
62.8 下降到 57.6 帧因为模型复杂度稍高略有下降，
有害虫的数据保存。通过人工分类把目标在图像画
但满足实时性检测要求。通过改进算法，能够有效
面中大小、前后景差异、检测目标数量和干扰项综
在田间农作物场景中实时进行害虫检测，验证了该
合分类分为简单（330 张）、中等（420 张）和困难
算法在实际用于生产中的可行性和有效性。
（220 张） 3 种类型。在边缘端模型移植后经过统计
改进前后的检测准确率。结果表明，分类为简单的
利益冲突声明：本研究不存在研究者以及与公开
类型准确率相差不大，分类为中等的类型准确率稍
研究成果有关的利益冲突。
高于改进前，分类为困难类型的数据准确率提高了
11.9% ，明显高于改进前。如表 6 所示。
参参考考文文献献：
表 6 YOLOv8-Extend 模型改进前后实采数据分类检测
[ 1 ] 李健, 陈长明 . 基于计算机视觉的农作物害虫自动检测
准确率研究综述[J]. 微型电脑应用, 2009, 25(12): 62-64, 78.
LI J, CHEN C M. Research progress on automatic detec ‐
Table 6 The accuracy of YOLOv8-Extend model''s classifica ‐
tion for crop pests based on computer vision[J]. Micro ‐
tion and detection of actual data before and after improvement
computer applications, 2009, 25(12): 62-64, 78.
Methods 简单（330 张）中等（420 张）困难（220 张） [ 2 ] 刁智华, 王欢, 宋寅卯, 等 . 复杂背景下棉花病叶害螨图
像分割方法[J]. 农业工程学报, 2013, 29(5): 147-152.
YOLOv8n 0.986 0.923 0.726
DIAO Z H, WANG H, SONG Y M, et al. Segmentation
YOLOv8n-Extend 0.993 0.955 0.845
method for cotton mite disease image under complex
background[J]. Transactions of the Chinese society of ag ‐
ricultural engineering, 2013, 29(5): 147-152.
4 结论
[ 3 ] 宋勇, 陈兵, 王琼, 等 . 基于无人机多光谱影像的棉花黄
萎病监测[J]. 棉花学报, 2023, 35(2): 87-100.
针对农作物害虫目标检测具有目标小、背景与 SONG Y, CHEN B, WANG Q, et al. Monitoring of cotton 60 智慧农业（中英文） Smart Agriculture Vol. 6, No. 2
Verticillium wilt based on unmanned aerial vehicle multi ‐ HE Y. Research on object detection algorithm of econom ‐
spectral images[J]. Cotton science, 2023, 35(2): 87-100. ic forestry pests based on improved YOLOv5[D]. Kun ‐
[ 4 ] 张楠楠, 张晓, 白铁成, 等 . 基于 CBAM-YOLO v7 的自 ming: Yunnan Agricultural University, 2022.
然环境下棉叶病虫害识别方法[J]. 农业机械学报, 2023, [19] REZA M T, MEHEDI N, TASNEEM N A, et al. Identifi ‐
54(S1): 239-244. cation of crop consuming insect pest from visual imagery
ZHANG N N, ZHANG X, BAI T C, et al. Identification using transfer learning and data augmentation on deep
method of cotton leaf pests and diseases in natural envi ‐ neural network[C]// 2019 22nd International Conference
ronment based on CBAM-YOLOv7[J]. Transactions of on Computer and Information Technology (ICCIT). Pisca ‐
the Chinese society for agricultural machinery, 2023, 54 taway, New Jersey, USA: IEEE, 2019.
(S1): 239-244. [20] CHEN J W, LIN W J, CHENG H J, et al. A smartphone-
[ 5 ] YUAN Z W, ZHANG J. Feature extraction and image re ‐ based application for scale pest detection using multiple-
trieval based on AlexNet[C]// Proceedings of Eighth Inter ‐ object detection methods[J]. Electronics, 2021, 10(4):
national Conference on Digital Image Processing (ICDIP ID 372.
2016. San Francisco,USA: SPIE, 2016, 10033: 65-69. [21] 魏陈浩, 杨睿, 刘振丙, 等 . 具有双层路由注意力的 YO ‐
[ 6 ] HE J, LI S, SHEN J M, et al. Facial expression recogni ‐ LOv8 道路场景目标检测方法[J]. 图学学报, 2023, 44
tion based on VGGNet convolutional neural network[C]// (6): 1104-1111.
2018 Chinese Automation Congress (CAC). Piscataway, WEI C H, YANG R, LIU Z B, et al. YOLOv8 with bi-lev ‐
New Jersey, USA: IEEE, 2018: 4146-4151. el routing attention for road scene object detection[J].
[ 7 ] AL-QIZWINI M, BARJASTEH I, AL-QASSAB H, et al. Journal of graphics, 2023, 44(6): 1104-1111.
Deep learning algorithm for autonomous driving using [22] LI R, WANG R J, XIE C J, et al. A coarse-to-fine network
GoogLeNet[C]// 2017 IEEE Intelligent Vehicles Sympo ‐ for aphid recognition and detection in the field[J]. Biosys ‐
sium (IV). Piscataway, New Jersey, USA: IEEE, 2017: tems engineering, 2019, 187: 39-52.
89-96. [23] LI H L, LI J, WEI H B, et al. Slim-neck by GSConv: A
[ 8 ] TARG S, ALMEIDA D, LYMAN K. Resnet in resnet: better design paradigm of detector architectures for auton ‐
Generalizing residual architectures[EB/OL]. arXiv: omous vehicles[EB/OL]. arXiv: 2206.02424, 2022.
1603.08029, 2016. [24] HAN K, WANG Y H, TIAN Q, et al. GhostNet: more fea ‐
[ 9 ] ZHU Y, NEWSAM S. DenseNet for dense flow[C]// 2017 tures from cheap operations[C]// 2020 IEEE/CVF Confer ‐
IEEE International Conference on Image Processing ence on Computer Vision and Pattern Recognition
(ICIP). New York, USA: ACM, 2017: 790-794. (CVPR). Piscataway, New Jersey, USA: IEEE, 2020:
[10] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: 1577-1586.
Towards real-time object detection with region proposal [25] RAO Y M, ZHAO W L, TANG Y S, et al. HorNet: Effi ‐
networks[J]. IEEE transactions on pattern analysis and cient high-order spatial interactions with recursive gated
machine intelligence, 2017, 39(6): 1137-1149. convolutions [EB/OL]. [2022-07-28]. https://arxiv.org/pdf/
[11] REDMON J, DIVVALA S, GIRSHICK R, et al. You only 2207.14284v2.pdf.
look once: Unified, real-time object detection[C]// 2016 [26] TAN M X, PANG R M, LE Q V. EfficientDet: scalable
IEEE Conference on Computer Vision and Pattern Recog ‐ and efficient object detection[C]// 2020 IEEE/CVF Con ‐
nition (CVPR). Piscataway, New Jersey, USA: IEEE, ference on Computer Vision and Pattern Recognition
2016: 779-788. (CVPR). Piscataway, New Jersey, USA: IEEE, 2020:
[12] REDMON J, FARHADI A. YOLO9000: better, faster, 10778-10787.
stronger[C]// 2017 IEEE Conference on Computer Vision [27] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional
and Pattern Recognition (CVPR). Piscataway, New Jersey, block attention module[C]// European Conference on
USA: IEEE, 2017: 6517-6525. Computer Vision. Berlin, Germany: Springer, 2018: 3-19.
[13] REDMON J, FARHADI A. YOLOv3: An incremental im ‐ [28] TERVEN J R, ESPARZA D M C. A comprehensive
provement[EB/OL]. arXiv: 1804. 02767, 2018. review of YOLO: From YOLOv1 to YOLOv8 and be ‐
[14] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. yond[EB/OL]. arXiv:2304.00501, 2023.
YOLOv4: Optimal speed and accuracy of object de ‐ [29] 高腾, 张先武, 李柏 . 深度学习在安全帽佩戴检测中的应
tection[EB/OL]. arXiv: 2004.10934, 2020. 用研究综述[J]. 计算机工程与应用, 2023, 59(6): 13-29.
[15] GE Z, LIU S, WANG F, et al. YOLOX: exceeding YOLO GAO T, ZHANG X W, LI B. Review on application of
series in 2021[EB/OL]. arXiv: 2107. 08430, 2021. deep learning in helmet wearing detection[J]. Computer
[16] 王建, 徐闯 . 基于 YOLOv5s 的脐橙虫害检测研究[J]. 工 engineering and applications, 2023, 59(6): 13-29.
业控制计算机, 2023, 36(7): 105-106, 109. [30] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized
WANG J, XU C. Research on detection of navel orange intersection over union: A metric and a loss for bounding
pests based on YOLOv5s[J]. Industrial control computer, box regression[C]// 2019 IEEE/CVF Conference on Com ‐
2023, 36(7): 105-106, 109. puter Vision and Pattern Recognition (CVPR). Piscat ‐
[17] FUENTES A, YOON S, KIM S C, et al. A robust deep- away, New Jersey, USA: IEEE, 2019: 658-666.
learning-based detector for real-time tomato plant diseases [31] TONG Z, CHEN Y, XU Z, et al. Wise-IoU: Bound ‐
and pests recognition[J]. Sensors, 2017, 17(9): 2022. ing box regression loss with dynamic focusing mech ‐
[18] 何颖 . 基于改进 YOLOv5 模型的经济林木虫害目标检测 anism[EB/OL]. arXiv: 2301.10051, 2023.
算法研究[D]. 昆明: 云南农业大学, 2022.Vol. 6, No. 2 张荣华等：复杂场景下害虫目标检测算法： YOLOv8-Extend 61
Crop Pest Target Detection Algorithm in Complex Scenes:
YOLOv8-Extend
1 1 2,3
ZHANG Ronghua , BAI Xue , FAN Jiangchuan
（1. Jinghang Chuangzhi (Beijing) Technology Co. Ltd. , Beijing 102404, China; 2. National Engineering Research Center for Infor ‐
mation Technology in Agriculture, Beijing 100097, China; 3. Beijing Key Laboratory of Digital Plants, Beijing 100097, China ）
Abstract:
[Objective] 　 It is of great significance to improve the efficiency and accuracy of crop pest detection in complex natural environments,
and to change the current reliance on expert manual identification in the agricultural production process. Targeting the problems of
small target size, mimicry with crops, low detection accuracy, and slow algorithm reasoning speed in crop pest detection, a complex
scene crop pest target detection algorithm named YOLOv8-Entend was proposed in this research.
[Methods] 　 Firstly, the GSConv was introduecd to enhance the model''s receptive field, allowing for global feature aggregation. This
mechanism enables feature aggregation at both node and global levels simultaneously, obtaining local features from neighboring
nodes through neighbor sampling and aggregation operations, enhancing the model''s receptive field and semantic understanding abili ‐
ty. Additionally, some Convs were replaced with lightweight Ghost Convolutions and HorBlock was utilized to capture longer-term
feature dependencies. The recursive gate convolution employed gating mechanisms to remember and transmit previous information,
capturing long-term correlations. Furthermore, Concat was replaced with BiFPN for richer feature fusion. The bidirectional fusion of
depth features from top to bottom and from bottom to top enhances the transmission of feature information acrossed different network
layers. Utilizing the VoVGSCSP module, feature maps of different scales were connected to create longer feature map vectors, increas ‐
ing model diversity and enhancing small object detection. The convolutional block attention module (CBAM) attention mechanism
was introduced to strengthen features of field pests and reduce background weights caused by complexity. Next, the Wise IoU dynam ‐
ic non-monotonic focusing mechanism was implemented to evaluate the quality of anchor boxes using "outlier" instead of IoU. This
mechanism also included a gradient gain allocation strategy, which reduced the competitiveness of high-quality anchor frames and
minimizes harmful gradients from low-quality examples. This approach allowed WIoU to concentrate on anchor boxes of average
quality, improving the network model''s generalization ability and overall performance. Subsequently, the improved YOLOv8-Extend
model was compared with the original YOLOv8 model, YOLOv5, YOLOv8-GSCONV, YOLOv8-BiFPN, and YOLOv8-CBAM to
validate the accuracy and precision of model detection. Finally, the model was deployed on edge devices for inference verification to
confirm its effectiveness in practical application scenarios.
[Results and Discussions] 　 The results indicated that the improved YOLOv8-Extend model achieved notable improvements in accuracy,
recall, mAP@0.5, and mAP@0.5:0.95 evaluation indices. Specifically, there were increases of 2.6%, 3.6%, 2.4% and 7.2%, respec ‐
tively, showcasing superior detection performance. YOLOv8-Extend and YOLOv8 run respectively on the edge computing device
JETSON ORIN NX 16 GB and were accelerated by TensorRT, mAP@0.5 improved by 4.6%, FPS reached 57.6, meeting real-time de ‐
tection requirements. The YOLOv8-Extend model demonstrated better adaptability in complex agricultural scenarios and exhibited
clear advantages in detecting small pests and pests sharing similar growth environments in practical data collection. The accuracy in
detecting challenging data saw a notable increased of 11.9%. Through algorithm refinement, the model showcased improved capabili ‐
ty in extracting and focusing on features in crop pest target detection, addressing issues such as small targets, similar background tex ‐
tures, and challenging feature extraction.
[Conclusions] 　 The YOLOv8-Extend model introduced in this study significantly boosts detection accuracy and recognition rates while
upholding high operational efficiency. It is suitable for deployment on edge terminal computing devices to facilitate real-time detec ‐
tion of crop pests, offering technological advancements and methodologies for the advancement of cost-effective terminal-based auto ‐
matic pest recognition systems. This research can serve as a valuable resource and aid in the intelligent detection of other small tar ‐
gets, as well as in optimizing model structures.
Key words: YOLOv8; pest detection; attention mechanism; edge computing; CBAM; BiFPN; VoVGSCSP; GSConv
Foundation items: Beijing Nova Program (Z211100002121065, Z20220484202); National Key Research and Development Program
(2022YFD2002302-02)
Biography: ZHANG Ronghua, E-mail: zhangronghua@pku.org.cn
Corresponding author: FAN Jiangchuan, E-mail: fanjc@nercita.org.cn
（登陆 www.smartag.net.cn 免费获取电子版全文）

献花(0)

(本文系智慧农业资...首藏)

类似文章 更多

发表评论：