配色: 字号:
005_SA202311007_张荣华_L
2024-06-04 | 阅:  转:  |  分享 
  
2024 年 3 月 第 6 卷 第 2 期 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Mar. 2024 Vol. 6, No. 2
复 杂 场 景 下 害 虫 目 标 检 测 算 法 :YOLOv8-Extend

1 1 2 , 3
张 荣 华 , 白 雪 , 樊 江 川
(1. 京 航 创 智 ( 北 京 ) 科 技 有 限 公 司 , 北 京 102404 , 中 国 ; 2. 国 家 农 业 信 息 化 工 程 技 术 研 究 中 心 , 北 京 100097 , 中 国 ;
3. 数 字 植 物 北 京 市 重 点 实 验 室 , 北 京 100097 , 中 国 )
摘 要 : [ [ 目 目 的 的 / 意 意 义 义 ] ] 实 现 复 杂 的 自 然 环 境 下 农 作 物 害 虫 的 识 别 检 测 , 改 变 当 前 农 业 生 产 过 程 中 依 赖 于 专 家 人 工
感 官 识 别 判 定 的 现 状 , 提 升 害 虫 检 测 效 率 和 准 确 率 具 有 重 要 意 义 。 针 对 农 作 物 害 虫 目 标 检 测 具 有 目 标 小 、 与 农 作
物 拟 态 、 检 测 准 确 率 低 、 算 法 推 理 速 度 慢 等 问 题 , 本 研 究 提 出 一 种 基 于 改 进 YOLOv8 的 复 杂 场 景 下 农 作 物 害 虫 目
标 检 测 算 法 。 [ [ 方 方 法 法 ] ] 首 先 通 过 引 入 GSConv 提 高 模 型 的 感 受 野 , 部 分 Conv 更 换 为 轻 量 化 的 幻 影 卷 积 (Ghost Convo?
lution ) , 采 用 HorBlock 捕 捉 更 长 期 的 特 征 依 赖 关 系 ,Concat 更 换 为 BiFPN (Bi-directional Feature Pyramid Network )
更 加 丰 富 的 特 征 融 合 , 使 用 VoVGSCSP 模 块 提 升 微 小 目 标 检 测 , 同 时 引 入 CBAM (Convolutional Block Attention
Module ) 注 意 力 机 制 来 强 化 田 间 虫 害 目 标 特 征 。 然 后 使 用 Wise-IoU 损 失 函 数 更 多 地 关 注 普 通 质 量 样 本 , 提 高 网 络
模 型 的 泛 化 能 力 和 整 体 性 能 。 之 后 , 对 改 进 后 的 YOLOv8-Extend 模 型 与 YOLOv8 原 模 型 、YOLOv5 、YOLOv8-
GSCONV 、YOLOv8-BiFPN 、YOLOv8-CBAM 进 行 对 比 , 验 证 模 型 检 测 准 确 度 和 精 度 。 最 后 将 模 型 移 植 到 边 缘 设 备
进 行 推 理 验 证 , 在 实 际 应 用 场 景 中 验 证 模 型 的 有 效 性 。 [ [ 结 结 果 果 和 和 讨 讨 论 论 ] ] YOLOv8-Extend 在 对 比 实 验 中 均 取 得 良 好 的
表 现 , 其 中 与 原 模 型 对 比 实 验 中 , 精 确 率 、 召 回 率 、mAP@0.5 和 mAP@0.5 ∶0.95 评 价 指 标 分 别 提 升 2.6% 、3.6% 、
2.4% 和 7.2% , 表 现 突 出 , 具 有 更 好 的 检 测 效 果 。 改 进 前 后 的 模 型 分 别 运 行 在 边 缘 计 算 设 备 JETSON ORIN NX
16 GB 上 并 通 过 TensorRT 加 速 相 比 ,mAP@0.5 提 升 4.6% , 达 到 57.6 FPS , 满 足 实 时 性 检 测 要 求 。 在 复 杂 农 业 场 景
中 YOLOv8-Extend 模 型 具 有 更 好 的 适 应 性 , 在 实 际 采 集 数 据 中 微 小 害 虫 与 生 长 环 境 相 似 的 害 虫 检 测 方 面 有 明 显 优
势 , 在 困 难 数 据 检 测 方 面 准 确 率 提 高 了 11.9% 。 [ [ 结 结 论 论 ] ] 本 研 究 提 出 的 YOLOv8 改 进 模 型 有 效 提 高 了 检 测 精 度 和 识
别 率 同 时 保 持 了 较 高 的 运 行 效 率 , 能 够 部 署 在 边 缘 终 端 计 算 设 备 上 实 现 农 作 物 害 虫 的 实 时 检 测 , 也 为 其 他 小 目 标
智 能 检 测 和 模 型 结 构 优 化 提 供 参 考 和 帮 助 。
关 键 词 : YOLOv8 ; 害 虫 检 测 ; 注 意 力 机 制 ; 边 缘 计 算 ;CBAM ;BiFPN ;VoVGSCSP ;GSConv
中 图 分 类 号 : S433 ; TP391.41 文 献 标 志 码 : A 文 章 编 号 : SA202311007
引 用 格 式 : 张 荣 华, 白 雪, 樊 江 川 . 复 杂 场 景 下 害 虫 目 标 检 测 算 法:YOLOv8-Extend[J]. 智 慧 农 业( 中 英 文), 2024, 6(2):
49-61. DOI : 10.12133/j.smartag.SA202311007
ZHANG Ronghua, BAI Xue, FAN Jiangchuan. Crop Pest Target Detection Algorithm in Complex Scenes:YOLOv8-Ex ‐
tend[J]. Smart Agriculture, 2024, 6(2): 49-61. DOI : 10.12133/j.smartag.SA202311007 (in Chinese with English abstract)
[2, 3 ]
的 感 官 识 别 来 判 定 , 耗 时 费 力 , 且 判 定 结 果 准
0 引 言
确 率 低 下 。 近 几 年 计 算 机 视 觉 检 测 技 术 与 深 度 学 习
通 过 虫 害 检 测 可 以 了 解 害 虫 的 分 布 规 律 和 季 节
卷 积 神 经 网 络 的 蓬 勃 发 展 , 为 农 作 物 虫 害 检 测 提 供
[4 ]
性 变 化 规 律 制 定 合 理 的 防 治 方 案 , 为 农 业 管 理 提 供
了 新 的 解 决 方 案 。 深 度 学 习 卷 积 神 经 网 络 (Con ‐
[1 ]
科 学 依 据 , 以 提 高 农 作 物 的 产 量 和 质 量 。 早 期 的
volutional Neural Networks, CNN ) 的 出 现 , 相 比 传
虫 害 检 测 主 要 是 靠 有 经 验 的 专 家 通 过 对 农 作 物 叶 片 统 图 像 检 测 算 法 具 有 更 丰 富 的 特 征 提 取 能 力 , 提 高
收 稿 日 期 :2023-11-02
基 金 项 目 : 北 京 市 科 技 新 星 计 划 (Z211100002121065 ,Z20220484202 ) ; “ 十 四 五 ” 国 家 重 点 研 发 计 划 项 目 (2022YFD2002302-02 )
作 者 简 介 : 张 荣 华 , 研 究 方 向 为 激 光 雷 达 目 标 检 测 和 计 算 机 视 觉 。E-mail : zhangronghua@pku.org.cn

通 信 作 者 : 樊 江 川 , 副 研 究 员 , 研 究 方 向 为 植 物 表 型 大 数 据 获 取 解 析 技 术 装 备 研 发 。E-mail : fanjc@nercita.org.cn
copyright?2024 by the authors50 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 6, No. 2
[5 ]
了 检 测 准 确 率 和 精 度 。 具 有 代 表 性 的 有 AlexNet 、
1 实 验 数 据
[6 ] [7 ] [8 ] [9 ]
VGGNet 、GoogLeNet 、ResNet 、DenseNet 、
[10 ]
Faster RCNN 和 YOLO (You Only Look Once )
1.1   数 据 获 取  
[11-15 ]
系 列 等 算 法 。 随 着 深 度 学 习 的 快 速 发 展 , 正 在
全 国 农 业 技 术 推 广 服 务 中 心 建 立 了 农 作 物 病 虫
逐 渐 应 用 于 农 作 物 害 虫 检 测 的 识 别 研 究 。 王 建 和 徐
实 时 监 控 物 联 网 , 有 38 种 害 虫 样 本 库 , 约 18 万 张
[16 ]
闯 使 用 YOLOv5s 目 标 检 测 算 法 进 行 脐 橙 虫 害 检
图 像 。 本 研 究 针 对 常 见 的 水 稻 虫 害 选 取 蝽 卵 (Ne ‐
测 , 对 9 类 虫 害 检 测 的 均 值 平 均 精 度 (Mean Aver ‐
zara Egg ) 、 稻 螟 蛉 (Naranga aenescens Moore ) 、
[17 ]
age Precision, mAP ) 值 达 到 81.46% 。Fuentes 等
大 螟 幼 虫 (Sesamia inferens ) 、 红 白 蝙 蝠 蛾 (Ghost
在 番 茄 病 虫 害 中 使 用 不 同 元 架 构 和 深 度 学 习 特 征 提
Moth ) 、 黄 肩 型 稻 绿 椿 (Yellow Shoulder Type Ne ‐
[18 ]
取 相 结 合 的 方 法 设 计 检 测 网 络 。 何 颖 采 用 加 权
zara viridula ) 、 点 斑 型 稻 绿 蝽 (Spotted Pattern Ne ‐
双 向 特 征 融 合 技 术 修 改 自 适 应 Anchor 计 算 方 法 优
zara viridula ) 、 全 绿 型 稻 绿 蝽 (All Green Nezara
化 YOLOv5 网 络 模 型 , 在 20 种 林 业 虫 害 的 图 像 上
viridula ) 、 蝗 虫 (Locusts ) 8 种 共 计 2 613 张 图 像 。
[19 ]
测 试 平 均 精 度 均 值 mAP 达 到 92.3% 。Reza 等 结
分 辨 率 像 素 为 2 000 ×1 325 , 部 分 害 虫 图 像 数 据 样
合 迁 移 学 习 和 数 据 增 强 的 策 略 训 练 模 型 实 现 害 虫 种
本 如 图 1 所 示 。 分 别 对 每 张 图 像 数 据 做 水 平 反 转 和
[20 ]
类 识 别 。Chen 等 使 用 多 种 深 度 学 习 目 标 检 测 算
垂 直 反 转 将 数 据 扩 充 到 7 839 张 , 图 像 反 转 增 强 及
法 对 害 虫 进 行 基 于 边 缘 计 算 平 台 的 检 测 研 究 ,YO ‐
在 模 型 训 练 时 使 用 马 赛 克 增 强 等 方 式 增 加 训 练 数 据
[21 ]
LOv4 取 得 了 最 高 的 检 测 精 度 。 魏 陈 浩 等 提 出 了
的 多 样 性 , 有 助 于 计 算 机 视 觉 检 测 模 型 更 好 地 学 习
一 种 YOLOv8n_T 方 法 , 构 建 了 基 于 可 变 形 卷 积 的
和 泛 化 , 提 高 模 型 的 鲁 棒 性 。
D_C2f 块 , 增 加 了 双 层 路 由 注 意 力 模 块 , 在
1.2   数 据 集 构 建  
BDD100K 数 据 集 上 的 平 均 精 度 比 原 始 YOLOv8n 提
[22 ]
升 6.8% , 比 YOLOv5n 提 升 了 11.2% 。Li 等 提 出
首 先 对 获 取 的 虫 害 图 像 样 本 数 据 使 用 LabelImg
基 于 CNN 的 从 粗 到 细 的 网 络 (Coarse-Fine Net ‐
软 件 按 照 矩 形 框 目 标 检 测 的 方 式 进 行 数 据 标 注 , 按
Work, CFN ) 对 微 小 和 密 集 分 布 的 蚜 虫 进 行 识 别 检
照 VOC2012 的 数 据 格 式 创 建 XML 类 型 标 注 数 据 文
测 , 使 用 细 粒 度 卷 积 神 经 网 络 (Fully Connected
件 , 标 注 的 XML 文 件 名 称 和 图 像 名 称 保 持 一 致 。
Neural Network, FCNN ) 来 细 化 检 测 群 中 的 蚜 虫 区
LabelImg 提 供 了 一 个 直 观 的 用 户 界 面 , 能 够 轻 松 地
域 。 上 述 研 究 通 过 优 化 深 度 学 习 目 标 检 测 网 络 结
在 图 像 上 绘 制 边 界 框 , 并 为 每 个 边 界 框 分 配 相 应 的
构 , 解 决 了 常 规 视 觉 检 测 模 型 针 对 害 虫 识 别 率 不
类 别 标 签 。LabelImg 支 持 多 种 常 见 的 图 像 格 式 , 如
高 、 特 征 提 取 难 的 问 题 , 在 农 业 生 产 中 区 分 害 虫 种
JPEG 、PNG 等 , 还 提 供 了 一 些 实 用 的 功 能 , 如 快
类 精 准 施 药 有 较 好 的 应 用 前 景 , 但 其 方 法 存 在 耗 时
捷 键 操 作 、 自 动 保 存 标 注 结 果 等 , 以 提 高 标 注 的 效
长 、 成 本 高 、 技 术 难 度 大 、 复 杂 场 景 识 别 困 难 等 问
率 和 准 确 性 。
题 , 不 利 于 推 广 应 用 。
按 照 2 ∶3 的 比 例 随 机 选 取 5 226 个 样 本 作 为 训
为 了 实 现 复 杂 自 然 环 境 下 的 农 作 物 害 虫 的 识 别
练 集 , 剩 下 的 2 613 个 样 本 按 照 1 ∶1 比 例 划 分 为 验
检 测 , 提 升 检 测 效 率 和 准 确 率 , 针 对 农 作 物 生 长 环
证 集 和 测 试 集 。 各 类 害 虫 检 测 数 据 集 目 标 统 计 如
境 与 害 虫 特 征 相 似 和 害 虫 具 有 体 型 微 小 的 特 点 , 本
表 1 所 示 。
研 究 提 出 了 一 种 改 进 的 YOLOv8 模 型 强 化 害 虫 目 标
2 算 法 设 计
[23 ]
检 测 算 法 , 通 过 引 入 GSConv 提 高 模 型 的 感 受
[24 ]
野 , 使 用 轻 量 化 的 幻 影 卷 积 (Ghost Convolu ‐
2.1   YOLOv8-Extend 网 络 结 构  
[25 ]
tion ) , 并 采 用 HorBlock 捕 捉 更 长 期 的 特 征 依 赖
[26 ]
关 系 , 融 入 BiFPN 更 加 丰 富 特 征 , 使 用 VoVG ‐
YOLO 是 基 于 深 度 学 习 的 端 到 端 的 卷 积 神 经 网
[28 ]
SCSP 模 块 提 升 微 小 目 标 检 测 , 引 入 CBAM (Con ‐ 络 ,YOLOv8 是 YOLO 系 列 模 型 的 最 新 版 本 。
[27 ]
volutional Block Attention Module ) 注 意 力 机 制 来
本 研 究 提 出 的 YOLOv8-Extend 继 承 了 YOLOv8 的
强 化 田 间 虫 害 目 标 特 征 , 为 农 作 物 害 虫 自 动 化 检 测
计 算 流 程 , 是 对 YOLOv8 特 征 提 取 网 络 的 一 种 改
和 算 法 开 发 提 供 理 论 基 础 。 进 。 将 待 检 测 的 图 像 输 入 到 神 经 网 络 中 , 通 过Vol. 6, No. 2 张 荣 华 等 : 复 杂 场 景 下 害 虫 目 标 检 测 算 法 : YOLOv8-Extend 51
力 机 制 来 强 化 田 间 虫 害 目 标 特 征 , 在
Neck 还 引 入 VoVGSCSP 模 块 提 升 田 间
农 作 物 害 虫 微 小 目 标 的 检 测 。 改 进 后
的 YOLOv8-Extend 网 络 结 构 如 图 2
所 示 。
2.1.1  GSConv  
GSConv 和 范 式 设 计 Slim-Neck 在
无 人 驾 驶 领 域 有 非 常 好 的 表 现 。
GSConv 能 够 减 轻 模 型 的 复 杂 度 并 保
持 准 确 性 。 由 于 本 研 究 使 用 边 缘 计 算
设 备 部 署 ,GSConv 可 以 更 好 地 平 衡
模 型 的 准 确 性 和 速 度 。GSConv 引 入
全 局 特 征 聚 合 机 制 , 能 够 在 节 点 级 别
和 全 局 级 别 同 时 进 行 特 征 聚 合 。 通 过
邻 居 采 样 和 聚 合 操 作 , 从 每 个 节 点 的
邻 居 节 点 中 获 取 局 部 特 征 。 将 全 局 特
图 1   虫 害 图 像 数 据 样 本
征 与 局 部 特 征 进 行 融 合 , 得 到 更 丰 富
Fig. 1 Samples of insect pest image data
的 节 点 表 示 , 提 高 模 型 的 感 受 野 和 语
表 1 各 类 害 虫 检 测 数 据 集 目 标 统 计
义 理 解 能 力 。GSConv 模 块 结 构 如 图 3 所 示 。
Table 1 Target statistics of various pest detection datasets
2.1.2  GhostConv  
类 别 训 练 集 验 证 集 测 试 集 总 计
随 着 卷 积 层 的 不 断 增 加 , 模 型 复 杂 度 越 来 越
蝽 卵 748 111 110 969
高 。 而 深 度 学 习 逐 渐 向 边 缘 计 算 迈 进 , 更 加 轻 量 化
稻 螟 蛉 1 586 128 180 1 894
的 模 型 结 构 是 未 来 发 展 的 趋 势 。 幻 影 卷 积 (Ghost
大 螟 幼 虫 789 80 125 994
Convolution ) 将 卷 积 操 作 分 解 为 两 个 子 操 作 , 主 干
红 白 蝙 蝠 蛾 385 60 39 484
卷 积 (Main Convolution ) 和 幻 影 卷 积 (Ghost Con ‐
黄 肩 型 稻 绿 椿 835 205 151 1 191
volution ) 。 主 干 卷 积 通 过 一 个 标 准 的 卷 积 操 作 进 行
点 斑 型 稻 绿 蝽 924 171 115 1 210
处 理 , 幻 影 特 征 图 选 用 较 小 的 卷 积 核 进 行 处 理 。 之
全 绿 型 稻 绿 蝽 778 95 113 986
后 , 主 干 卷 积 特 征 图 和 幻 影 特 征 图 融 合 得 到 输 出 特
蝗 虫 1 245 189 240 1 674
征 图 , 如 图 4 所 示 。
CNN 进 行 前 向 传 播 , 将 输 入 图 像 转 换 为 特 征 图 。 2.1.3  HorBlock  
在 特 征 图 上 进 行 多 层 特 征 提 取 , 通 过 卷 积 和 池 化 等 HorBlock 网 络 结 构 如 图 5 所 示 。 首 先 通 过 Lay ‐
er Norm 进 行 层 归 一 化 操 作 。 层 归 一 化 与 Batch Nor ‐
操 作 , 提 取 图 像 的 高 级 语 义 特 征 。 将 不 同 层 次 的 特
malization ( 批 归 一 化 ) 不 同 ,Layer Norm 是 在 每
征 进 行 融 合 , 以 获 取 更 全 局 和 更 局 部 的 特 征 信 息 。
个 样 本 的 特 征 上 进 行 归 一 化 , 而 不 是 在 批 次 特 征 上
在 融 合 后 的 特 征 图 上 进 行 目 标 预 测 , 使 用 标 注 数 据
监 督 反 向 传 播 更 新 参 数 进 行 模 型 训 练 。 使 用 非 极 大 归 一 化 。 层 归 一 化 之 后 通 过 HorBlock 重 要 组 成 部 分
n
是 g Conv ( 递 归 门 控 卷 积 ) , 递 归 门 控 卷 积 引 入 了
值 抑 制 算 法 , 去 除 重 叠 的 边 界 框 , 保 留 置 信 度 最 高
的 边 界 框 。 门 控 机 制 。 该 门 控 机 制 基 于 传 统 卷 积 运 算 来 捕 获 输
入 数 据 的 长 期 相 关 性 。 传 统 的 卷 积 运 算 只 能 捕 获 局
基 于 YOLOv8 优 秀 的 特 征 提 取 能 力 和 多 尺 度 特
部 特 征 , 递 归 门 卷 积 可 以 使 用 门 控 机 制 记 忆 和 传 输
征 融 合 能 力 , 本 研 究 在 Backbone 和 Head 引 入
GSConv 提 高 模 型 的 感 受 野 , 并 将 Backbone 部 分 先 前 的 信 息 , 捕 获 长 期 相 关 性 。
Conv 更 换 为 轻 量 化 的 卷 积 模 块 GhostConv 。SPPF 2.1.4  BiFPN  
前 的 C2f 更 换 为 HorBlock 捕 捉 更 长 期 的 特 征 依 赖 关 在 设 计 害 虫 实 时 目 标 检 测 模 型 时 , 充 分 考 虑 复
系 。Neck 所 有 的 Concat 更 换 为 BiFPN 更 加 丰 富 的
杂 多 变 的 农 作 物 生 长 的 自 然 环 境 。 为 了 融 合 更 多 的
特 征 融 合 , 在 SPPF 后 的 Concat 后 引 入 CBAM 注 意 特 征 在 YOLOv8 网 络 结 构 的 基 础 上 , 对 其 Neck 网52 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 6, No. 2
图 2   YOLOv8-Extend 网 络 结 构
Fig. 2 Network architecture of YOLOv8-Extend
图 3   GSConv 模 块 结 构
Fig. 3 GSConv module structure
络 进 行 优 化 , 能 有 效 提 取 图 像 的 深 层 特 征 提 高 其 精
度 以 提 高 识 别 效 率 。 多 维 特 征 融 合 的 目 的 是 以 不 同
的 分 辨 率 组 合 特 征 , 而 以 前 的 特 征 融 合 方 法 以 相 同
的 方 式 处 理 所 有 输 入 特 征 。 然 而 由 于 不 同 的 输 入 特
征 具 有 不 同 的 分 辨 率 , 因 此 对 特 征 融 合 的 贡 献 往 往
也 是 不 平 等 的 。 为 了 解 决 这 一 问 题 , 本 研 究 使 用
图 4   GhostConv 模 块 结 构
BiFPN 层 加 权 特 征 金 字 塔 网 络 , 实 现 了 从 上 到 下 和
Fig. 4 Module structure of GhostConv
从 下 到 上 的 深 浅 特 征 的 双 向 融 合 , 增 强 不 同 网 络 层
[29 ]
特 征 信 息 的 传 递 。 如 图 6 所 示 BiFPN 模 块 结 构 ,
蓝 色 箭 头 传 递 高 层 特 征 语 义 信 息 的 自 上 而 下 ; 红 色
箭 头 是 自 下 而 上 的 路 径 , 传 递 低 层 特 征 的 位 置 信
息 ; 紫 色 箭 头 是 输 入 节 点 和 输 出 节 点 之 间 同 一 层 的
融 合 。 双 向 尺 度 连 接 和 加 权 特 征 的 融 合 在 准 确 性 和
效 率 之 间 有 更 好 的 平 衡 。 针 对 本 研 究 田 间 害 虫 检 测
识 别 , 使 得 特 征 金 字 塔 的 各 个 层 级 能 够 更 好 地 平
衡 , 以 提 供 更 全 局 和 更 具 语 义 的 特 征 表 示 , 有 助 于
图 5   HorBlock 模 块 结 构
在 复 杂 环 境 中 准 确 地 检 测 田 间 害 虫 , 提 高 对 不 同 尺
Fig. 5 Module structure of HorBlock
度 目 标 的 检 测 能 力 。Vol. 6, No. 2 张 荣 华 等 : 复 杂 场 景 下 害 虫 目 标 检 测 算 法 : YOLOv8-Extend 53
块 , 包 括 通 道 注 意 力 模 块 (Channel Attention Mod ‐
ule, CAM ) 和 空 间 注 意 力 模 块 (Spatial Attention
Module, SAM ) , 分 别 关 注 通 道 和 空 间 。 不 仅 节 省
了 参 数 和 计 算 能 力 , 还 确 保 可 以 作 为 即 插 即 用 模 块
集 成 到 现 有 网 络 架 构 中 。 通 道 注 意 力 模 块 保 持 通 道
维 度 , 压 缩 空 间 维 度 , 并 关 注 输 入 图 像 中 的 显 著 特
征 信 息 。 空 间 注 意 力 模 块 具 有 固 定 的 空 间 维 度 、 压
缩 的 信 道 维 度 , 集 中 于 目 标 位 置 信 息 的 检 测 。 该 算
法 同 时 关 注 信 道 和 空 间 特 征 , 性 能 更 好 。 输 入 Fea ‐
ture 如 公 式 (1 ) 所 示 。
图 6   BiFPN 模 块 结 构
F'' = M ( F ) ? F (1 )
c
Fig. 6 Module structure of BiFPN
C × H × W C × 1 × 1
其 中 :F ? {R } ,M ? {R } 是 CAM 输
c
2.1.5  VoVGSCSP  
出 的 通 道 权 重 数 据 为 1 ×1 ×C ,F'' 是 通 道 注 意 力 输
为 了 提 升 田 间 害 虫 微 小 目 标 检 测 , 本 研 究 引
出 , 如 公 式 (2 ) 所 示 。
入 VoVGSCSP 模 块 。 该 模 块 是 基 于 GSConv 和 跨 级
F'''' = M ( F'' ) ? F'' (2 )
s
部 分 的 网 络 结 构 , 在 Neck 网 络 中 引 入 VoVGSCSP
1 × H × W
其 中 :M ? {R } 是 SAM 的 权 重 数 据 为 2 ×
s
的 网 络 , 构 成 跨 级 部 分 网 络 是 类 似 于 ResNet 残 差
H ×W , 将 通 道 注 意 力 CAM 输 出 结 果 F'' 与 空 间 注 意
块 的 结 构 , 如 图 7a 所 示 。 拼 接 前 一 层 的 特 征 图 和
力 SAM 权 重 乘 积 之 后 得 到 CBAM 输 出 结 果 F'''' 。
后 一 层 的 特 征 图 , 然 后 进 行 卷 积 的 运 算 。 可 以 避 免
2.2   损 失 函 数  
深 层 网 络 结 构 的 信 息 丢 失 以 及 梯 度 消 失 问 题 。 使 用
VoVGSCSP 代 替 Neck 网 络 中 的 C2f 结 构 , 如 图
基 于 IoU (Intersection over Union ) 的 损 失 函 数
7b 所 示 , 连 接 不 同 比 例 的 特 征 图 以 形 成 更 长 的 特 征
被 广 泛 用 于 对 象 检 测 和 实 例 分 割 任 务 。YOLOv8 自
图 特 征 向 量 用 于 增 加 模 型 的 多 样 性 , 而 跨 级 别 部 分 [30 ]
带 了 IoU 方 法 , 包 括 GIoU 、DIoU 和 CIoU , 其 中
用 于 增 加 网 络 的 深 度 和 非 线 性 , 并 整 合 结 果 以 减 少
默 认 选 择 的 是 CIoU 。CIoU 考 虑 目 标 框 之 间 的 位 置 、
在 保 持 计 算 复 杂 性 的 同 时 提 高 模 型 的 准 确 性 , 更 适
尺 寸 和 角 度 差 异 , 能 够 评 估 两 个 目 标 框 的 相 似 程
合 小 目 标 检 测 。
度 。 计 算 定 位 损 失 , 如 公 式 (3 ) 所 示 。
2 A B
ρ b , b
( )
L = 1 - IoU + + αv (3 )
CloU
2
c
A B
式 中 :b 和 b 分 别 为 预 测 框 和 真 实 框 的 中 心
点 ; ρ 为 两 点 之 间 的 欧 式 距 离 ;c 为 预 测 框 和 真 实 框
的 最 小 外 接 矩 形 的 对 角 线 长 度 ; α 为 平 衡 参 数 ;v 用
于 计 算 预 测 框 和 目 标 框 高 宽 比 的 一 致 性 , 反 映 高 、
宽 分 别 与 其 置 信 度 的 真 实 差 异 , 它 会 阻 碍 模 型 对 相
似 性 的 问 题 进 行 优 化 学 习 。CIoU 使 用 的 是 单 调 聚
焦 机 制 。 该 机 制 致 力 于 强 化 边 界 框 损 失 的 拟 合 能
力 , 但 当 目 标 检 测 训 练 集 中 含 有 低 质 量 示 例 时 , 如
a. VoVGSCSP b. C2f
果 一 味 地 强 化 界 框 对 低 质 量 示 例 的 回 归 , 会 危 害 模
图 7   C2f 与 VoVGSCSP 网 络 结 构
型 检 测 性 能 的 提 升 。Focal-EIoU v1 被 提 出 以 解 决
Fig. 7 Network architectures of C2f and VoVGSCSP
这 个 问 题 , 但 由 于 其 聚 焦 机 制 是 静 态 的 , 并 未 充 分
[31 ]
2.1.6  CBAM 注 意 力 机 制  
挖 掘 非 单 调 聚 焦 机 制 的 潜 能 。Wise-IoU (WIoU )
田 间 农 作 物 害 虫 检 测 往 往 检 测 目 标 比 较 密 集 ,
动 态 非 单 调 聚 焦 机 制 使 用 “ 离 群 度 ” 替 代 IoU 对 锚
本 研 究 融 入 CBAM 注 意 力 机 制 能 够 使 得 检 测 网 络 增 框 进 行 质 量 评 估 , 并 提 供 梯 度 增 益 分 配 策 略 。 该 策
加 害 虫 的 特 征 提 取 能 力 , 降 低 繁 杂 的 背 景 对 目 标 特 略 在 降 低 高 质 量 锚 框 的 竞 争 力 的 同 时 , 也 减 小 了 低
征 提 取 的 影 响 。CBAM 是 一 种 轻 巧 的 卷 积 注 意 力 模 质 量 示 例 产 生 的 有 害 梯 度 。 这 使 得 WIoU 可 以 聚 焦54 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 6, No. 2
于 普 通 质 量 的 锚 框 , 并 提 高 检 测 器 的 整 体 性 能 。
2.4   模 型 训 练 过 程  
根 据 距 离 度 量 构 建 了 距 离 注 意 力 , 得 到 了 具 有 两 层
在 农 作 物 害 虫 检 测 模 型 训 练 过 程 中 , 应 用 ul ‐
注 意 力 机 制 的 WIoU , 如 公 式 (4 ) ~ 公 式 (6 )
v1
tralytics 框 架 提 供 的 YOLOv8n 权 重 参 数 作 为 模 型 学
所 示 。
习 初 始 化 参 数 和 超 参 数 调 优 , 实 现 整 个 网 络 的 最 佳
L = R L (4 )
WIoU WIoU IoU
v1
检 测 性 能 。 超 参 数 设 置 如 表 3 所 示 。
2 2
x - x + y - y
( gt ) ( gt )
表 3 模 型 训 练 超 参 数 配 置
R = exp ( ) (5 )
WIoU

2 2
W + H
Table 3 Configuration of model training hyperparameter
g g
( )
L = 1 - IoU (6 ) 名 称 试 验 配 置
IoU
Epochs 200
式 中 :WIoU 为 具 有 两 层 注 意 力 机 制 的 损 失 函
v1
Batch_size 64
数 ;R 为 距 离 度 量 ;W 、H 分 别 为 最 小 包 围 框
WIoU g g
Momentum 0.937
的 宽 和 高 ;X 、Y 分 别 为 真 实 框 的 中 心 点 。WIoU
gt gt v3
Weight decay 0.000 5
作 为 边 界 框 回 归 损 失 , 包 含 一 种 动 态 非 单 调 机 制 ,
Learn rate 0.01
并 设 计 一 种 合 理 的 梯 度 增 益 分 配 , 减 少 极 端 样 本 中
Optimizer Adam
出 现 的 大 梯 度 或 有 害 梯 度 。 该 损 失 方 法 计 算 更 多 地
Workers 4
关 注 普 通 质 量 的 样 本 , 进 而 提 高 网 络 模 型 的 泛 化 能
Imgsz 640
力 和 整 体 性 能 。 如 公 式 (7 ) ~ 公 式 (9 ) 所 示 。
L = r × L (7 )
2.5   试 验 评 价 指 标  
WIoU WIoU
v3 v1
β
r = (8 ) 计 算 机 视 觉 检 测 中 , 先 决 条 件 和 实 际 条 件 之 间
β
δ α
的 分 类 有 4 种 不 同 的 组 合 。TP 为 模 型 预 测 为 正 类 的
L
IoU
β = ∈ [ 0 , + ∞ ) (9 )
-
正 样 本 ;TN 为 模 型 预 测 为 负 类 的 负 样 本 ;FP 为 模
L
IoU
型 预 测 为 正 类 的 负 样 本 ;FN 为 模 型 预 测 为 负 类 的
式 中 :r 为 非 单 调 聚 焦 系 数 ; β 为 描 述 针 框 质 量
-
正 样 本 。 精 确 率 (Precision ) 是 指 预 测 结 果 为 正 例
的 离 群 度 ;L 为 单 调 聚 焦 系 数 ;L 为 动 量 为 m 的
IoU IoU
中 实 际 真 实 为 正 例 的 份 额 , 如 公 式 (10 ) 所 示 。 召
滑 动 平 均 值 。 利 用 β 构 造 一 个 非 单 调 聚 焦 系 数 并 将
回 率 (Recall ) 是 指 实 际 真 实 为 正 例 中 预 测 结 果 为
其 应 用 于 WIoU 就 得 到 具 有 动 态 非 单 调 FM (Fo ‐
v1
正 例 的 份 额 , 如 公 式 (11 ) 所 示 。 准 确 率 是 指 模 型
cusing Mechanism ) 的 WIoU 。 利 用 动 态 非 单 调
v3
预 测 正 确 的 结 果 ( 包 括 正 例 和 负 例 ) 所 占 的 份 额 ,
FM 的 明 智 的 梯 度 增 益 分 配 策 略 ,WIoU 获 得 了 优
v3
如 公 式 (12 ) 所 示 。
越 的 性 能 。 模 型 更 加 关 注 锚 定 普 通 质 量 的 框 , 并 提
TP
高 了 模 型 定 位 对 象 的 能 力 。 Precision = (10 )
TP + FP
TP
2.3   软 硬 件 试 验 环 境  
Recall = (11 )
TP + FN
本 试 验 使 用 Windous 11 操 作 系 统 , 基 于 Py ‐ TP + TN
Accuracy = (12 )
TP + TN + FP + FN
torch 深 度 学 习 框 架 和 Python 程 序 编 码 实 现 , 在 ul ‐
精 确 率 和 召 回 率 两 者 相 互 限 制 、 相 互 影 响 , 追
tralytics 框 架 下 改 进 , 具 体 软 硬 件 配 置 如 表 2 所 示 。
求 高 准 确 率 会 导 致 低 召 回 率 ; 高 召 回 率 通 常 会 影 响
表 2 模 型 训 练 软 硬 件 环 境 配 置
准 确 性 。 这 需 要 全 面 考 虑 这 些 因 素 , 最 常 见 的 方 法
Table 2 Configuration of software and hardware environment
就 是 F -Score , 如 公 式 (13 ) 所 示 。
for model training
1
2TP 2 ×Precision ×Recall
名 称 试 验 配 置
F -Score= =
1
2TP+FN+FP Precision+Recall
编 程 语 言 Python3.9
深 度 学 习 框 架 Pytorch2.0.1
(13 )
CPU Inte ( l R ) Core (TM ) i9-10900X CPU @3.70 GHz
在 视 觉 识 别 问 题 中 , 每 个 图 像 可 能 包 括 多 个 类
内 存 128 GB
别 的 目 标 , 并 且 需 要 评 估 模 型 的 目 标 分 类 和 定 位 性
GPU NVIDIA GeForce RTX 3090
CUDA 11.7 能 。 图 像 分 类 问 题 的 评 价 指 标 不 能 直 接 适 用 。mAP
开 发 平 台 Pycharm 2022.2
是 多 个 分 类 任 务 的 平 均 精 度 (Average Precision, Vol. 6, No. 2 张 荣 华 等 : 复 杂 场 景 下 害 虫 目 标 检 测 算 法 : YOLOv8-Extend 55
AP ) 的 平 均 值 ,mAP 和 AP 值 越 大 表 明 精 度 越 高 ,
3 实 验 结 果 与 分 析
计 算 如 公 式 (14 ) 和 公 式 (15 ) 所 示 。mAP@0.5
3.1   模 型 训 练 结 果 分 析  
是 指 IoU 设 为 0.5 时 , 计 算 每 一 类 的 所 有 图 片 的 AP ,
然 后 所 有 类 别 求 平 均 。mAP@0.5 ∶0.95 表 示 在 不 同
经 过 200 轮 的 模 型 训 练 迭 代 , 模 型 得 以 收 敛 。
IoU 阈 值 (0.5 ~0.95 , 步 长 0.05 ) 上 的 平 均 mAP 。
在 训 练 集 和 验 证 集 上 都 取 得 不 错 的 成 绩 。Box_loss
1
为 Wise-IoU 损 失 函 数 均 值 , 值 越 小 检 测 预 测 越 准
AP = P ( R )dR (14 )

确 ;cls_loss 为 分 类 损 失 函 数 均 值 , 值 越 小 分 类 越
0
K
准 确 ;dfl_loss 自 由 形 变 损 失 是 用 于 解 决 目 标 检 测
AP
∑ i
中 由 于 目 标 形 状 和 大 小 的 变 化 而 导 致 的 性 能 下 降 ,
i = 1
mAP = (15 )
K
值 越 小 预 测 越 准 确 。mAP@0.5 和 mAP@0.5 ∶ 0.95 值
采 用 FPS (Frames Per Second ) 评 估 模 型 检 测
越 大 模 型 预 测 效 果 越 好 。YOLOv8-Extend 模 型 训 练
的 速 度 。FPS 越 高 表 示 实 时 性 越 好 。 评 估 结 果 如 图 8 所 示 。
a. 训 练 集 边 界 框 损 失 b. 训 练 集 分 类 损 失 c. 训 练 集 分 布 焦 点 损 失 d. 精 确 率 e. 召 回 率
f. 验 证 集 边 界 框 损 失 g. 验 证 集 分 类 损 失 h. 验 证 集 分 布 焦 点 损 失 i. mAP@0.5 j. mAP@0.5 : 0.95
图 8   YOLOv8-Extend 模 型 训 练 评 估 结 果
Fig. 8 Evaluation results of YOLOv8-Extend model training
PR 曲 线 (Precision-Recall Curve ) 是 评 估 模 型 YOLOv8 原 始 模 型 的 热 力 图 , 第 3 列 图 10c 为 改 进
性 能 的 通 用 度 量 指 标 。 以 召 回 率 (Recall ) 为 横 轴 , 后 的 YOLOv8-Extend 模 型 的 热 力 图 , 第 4 列 图 10d
精 确 率 (Precision ) 为 纵 轴 , 绘 制 的 曲 线 反 映 了 在 为 改 进 后 的 YOLOv8-Extend 模 型 的 检 测 结 果 图 。 归
不 同 召 回 率 下 的 精 确 率 变 化 情 况 。 可 以 直 观 地 观 察 一 化 后 以 热 力 图 的 方 式 表 示 , 检 测 网 络 在 颜 色 越 红
模 型 在 不 同 召 回 率 下 的 性 能 。 曲 线 越 靠 近 右 上 角 , 的 地 方 分 配 的 权 重 越 大 。 改 进 后 的 YOLOv8-Extend
模 型 的 准 确 性 和 召 回 率 就 越 高 , 表 明 该 模 型 具 有 良 模 型 的 热 力 图 农 作 物 害 虫 检 测 目 标 的 红 色 明 显 比
好 的 性 能 。 如 图 9 所 示 。 YOLOv8 原 模 型 层 次 分 明 , 尤 其 第 2 行 稻 螟 蛉 目 标
选 取 测 试 集 中 农 作 物 与 害 虫 特 征 相 似 、 微 小 目 较 小 、 颜 色 和 背 景 更 加 接 近 , 引 入 了 VoVGSCSP 和
标 等 具 有 代 表 的 3 张 图 片 进 行 试 验 , 如 图 10 所 示 。 注 意 力 机 制 后 的 模 型 可 以 更 加 精 准 地 定 位 和 识 别 微
其 中 , 第 1 列 图 10a 为 原 始 图 像 , 第 2 列 图 10b 为 小 目 标 , 检 测 效 果 更 优 。56 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 6, No. 2
3.2   消 融 实 验  
为 了 探 究 使 用 CBAM 注 意 力 机 制 、BiFPN 加 权
特 征 金 字 塔 网 络 和 GSConv 模 块 的 改 进 对 YOLOv8
模 型 带 来 的 性 能 提 升 和 验 证 各 组 件 的 有 效 性 , 进
行 消 融 实 验 。 分 析 研 究 YOLOv5s 、 YOLOv8n 、
YOLOv8n-GSConv 、YOLOv8n-BiFPN 、YOLOv8n-
CBAM 和 YOLOv8-Extend 模 型 训 练 过 程 中 在 精 确
率 、 召 回 率 、mAP@0.5 和 mAP@0.5 ∶0.95 的 实 验
数 据 。 从 图 11a 可 以 看 出 ,YOLOv8-Extend 模 型 在
50 个 epochs 后 精 确 率 相 比 YOLOv8 原 模 型 有 明 显 提
升 , 接 近 200 个 epochs 时 和 YOLOv8-BiFPN 精 确 率
相 差 无 几 。 图 11b 召 回 率 消 融 实 验 反 映 了 YOLOv8-
Extend 在 50 ~100 个 epochs 召 回 率 明 显 高 于 其 他 模
型 , 最 终 收 敛 过 程 中 和 YOLOv8-CBAM 相 交 。 这
两 个 消 融 实 验 说 明 YOLOv8-Extend 在 精 确 率 和 召
回 率 都 取 得 良 好 的 效 果 。 图 11cmAP@0.5 和 图 11d
mAP@0.5 ∶0.95 均 能 明 显 反 映 在 100 个 epochs 以 上
图 9   YOLOv8-Extend 模 型 训 练 PR 曲 线
YOLOv8-Extend 都 高 于 其 他 模 型 。
Fig. 9 PR training curve of YOLOv8-Extend model
a. 原 图 b. 改 进 前 热 力 图 c. 改 进 后 热 力 图 d. 实 际 检 测 图
图 10   YOLOv8 模 型 改 进 前 后 特 征 热 力 图 对 比
Fig. 10 Comparison of feature heat maps before and after the improvement of the YOLOv8 model
从 表 4 可 以 看 出 , 各 种 改 进 算 法 的 Precision 、 cat 后 分 别 提 升 2.4% 、3.6% 、1.1% 和 0.6% , 引 入
Recall 、 mAP@0.5 和 mAP@0.5 ∶0.95 均 高 于 YO ‐ CBAM 注 意 力 机 制 后 分 别 提 升 1.7% 、3.7% 、1.8%
LOv8 原 模 型 , 改 进 融 入 GSCONV 模 块 后 分 别 提 升 和 4.4% ,YOLOv8n-Extend 是 融 入 了 多 个 模 块 , 结
0.7% 、1.5% 、0.6% 和 0.2% , 使 用 BiFPN 代 替 Con ‐ 合 多 个 模 块 的 优 势 最 终 分 别 提 升 2.6% 、 3.6% 、Vol. 6, No. 2 张 荣 华 等 : 复 杂 场 景 下 害 虫 目 标 检 测 算 法 : YOLOv8-Extend 57
a. Precision 消 融 实 验 b. Recall 消 融 实 验
c. mAP@0.5 消 融 实 验 d. mAP@0.5 : 0.95 消 融 实 验
图 11   YOLOv8n-Extend 模 型 训 练 消 融 实 验 评 估 指 标
Fig. 11 Evaluation metrics for the YOLOv8n-Extend model training ablation experiment
2.4% 和 7.2% 。 除 了 YOLOv8n-GSCONV 模 型 中 几 。FPS 是 通 过 处 理 100 张 照 片 所 用 时 间 平 均 计 算
Neck 网 络 中 C2f 全 部 更 换 了 VoVGSCSP 导 致 模 型 参 而 来 , 改 进 前 后 FPS 几 乎 无 差 别 。
数 增 大 外 其 他 改 进 模 型 参 数 量 均 与 原 模 型 相 差 无
表 4 YOLOv8n-Extend 改 进 算 法 消 融 实 验
Table 4 YOLOv8n-Extend improved algorithm ablation experiment
Methods Precision Recall mAP@0.5 mAP@0.5 ∶0.95 Modelsize/M FPS
YOLOv5s 0.959 0.91 0.947 0.721 13.70 66.7
YOLOv8n 0.958 0.939 0.964 0.739 5.93 72.6
YOLOv8n-GSCONV 0.965 0.954 0.970 0.741 20.20 56.4
YOLOv8n-BiFPN 0.982 0.975 0.975 0.745 5.93 68.5
YOLOv8n-CBAM 0.975 0.976 0.982 0.783 5.95 62.6
YOLOv8n-Extend 0.984 0.975 0.99 0.811 6.07 65.5
通 过 同 一 张 图 像 对 比 改 进 后 的 YOLOv8-Extend 网 络 中 特 征 提 取 较 为 分 散 而 HorBlock 对 每 个 样 本 的
和 YOLOv8 原 模 型 的 热 力 图 直 观 地 分 析 网 络 结 构 的 特 征 维 度 上 进 行 归 一 化 通 过 递 归 门 控 卷 积 能 够 更 加
各 个 模 块 学 习 效 果 。 图 12a 列 为 YOLOv8 模 型 的 热 集 合 特 征 。 第 3 行 为 Neck 网 络 中 一 个 C2f 和 相 同 层
力 图 输 出 , 图 12b 列 为 改 进 后 的 模 型 热 力 图 输 出 。 改 进 为 VoVGSCSP 模 块 的 对 比 实 验 , 发 现 两 者 特 征
第 1 行 为 Backbone 网 络 Conv 和 改 进 为 GhostConv 提 取 相 差 不 大 ,VoVGSCSP 通 过 拼 接 前 一 层 的 特 征
的 对 比 实 验 , 可 以 看 出 在 浅 层 网 络 结 构 中 幻 影 卷 积 图 和 后 一 层 的 特 征 图 , 然 后 进 行 卷 积 运 算 得 到 , 使
能 够 较 丰 富 地 提 取 特 征 。 第 2 行 为 Backbone 网 络 最 得 VoVGSCSP 特 征 更 加 突 出 热 力 图 颜 色 较 深 。 第 4
后 一 个 C2f 和 改 进 为 HorBlock 的 消 融 实 验 , 发 现 原 行 为 Neck 网 络 最 后 一 个 C2f 和 改 进 后 的 网 络 C2f 后58 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 6, No. 2
增 加 CBAM 注 意 力 机 制 , 可 以 明 显 看 出 增 加 了 注 意 16 GB 边 缘 计 算 设 备 。 该 设 备 搭 载 了 32 个 Tensor
力 机 制 的 网 络 结 构 对 特 征 的 提 取 能 力 和 聚 焦 能 力 更 Core 的 1 024 、NVIDAI Ampere 架 构 GPU 和 16 GB
强 。 第 5 行 为 改 进 前 后 模 型 对 害 虫 的 检 测 图 , 通 过
128 位 LPDDR5 显 存 , 具 有 100TOPS (INT 8 ) AI
网 络 结 构 的 改 进 和 损 失 函 数 更 改 为 WIoU 动 态 非 单
性 能 , 还 配 有 2 个 NVDLA V2 和 8 核 Arm Cortex?
调 聚 焦 机 制 , 具 有 更 为 丰 富 的 特 征 提 取 和 语 义 理 解
-A78AEv8.2 64 位 CPU 2 MB L2+4 MB L3 。
能 力 , 通 过 对 比 试 验 原 模 型 的 置 信 度 为 0.72 , 改 进
TensorRT 是 由 NVIDIA 开 发 的 一 个 高 性 能 推 理
后 的 YOLOv8-Extend 为 0.88 , 提 高 16% 。
引 擎 , 在 GPU 上 加 速 深 度 学 习 模 型 的 推 理 。 通 过
有 效 优 化 网 络 结 构 、 降 低 计 算 量 、 融 合 网 络 层 等 方
法 , 实 现 了 对 神 经 网 络 的 高 效 推 理 。 结 合 模 型 中 大
量 的 卷 积 模 块 和 张 量 , 卷 积 、BN 层 和 激 活 层 一 次
性 融 合 计 算 , 减 少 了 计 算 步 骤 和 提 高 了 数 据 传 输 效
率 。 将 Pytorch 框 架 下 训 练 的 农 作 物 害 虫 检 测 模 型
的.pt 权 重 文 件 通 过 export 工 具 转 化 为.onnx 中 间
件 , 再 通 过 TensorRT 的 trtexec 工 具 构 建 用 于 推 理 的
引 擎.engine 文 件 , 使 用 推 理 引 擎 推 理 获 得 更 快 的
推 理 速 度 , 提 高 深 度 学 习 模 型 在 实 际 应 用 中 的 效 率
和 性 能 。 与 PC 端 Pytorch 推 理 对 比 消 融 实 验 如 表 5
所 示 。
表 5 模 型 推 理 电 脑 端 与 边 缘 计 算 消 融 实 验
Table 5 Model inference computer terminal and edge
computing ablation experiment
Methods mAP@0.5 FPS
YOLOv5s 0.947 66.7
YOLOv5s-Jetson 0.912 54.7
YOLOv8n 0.964 72.6
YOLOv8n-Jetson 0.922 62.8
YOLOv8n-Extend 0.990 65.5
YOLOv8n-Extend-Jetson 0.968 57.6
随 机 抽 取 了 500 张 图 片 进 行 边 缘 计 算 与 PC 端
Pytorch 推 理 对 比 消 融 实 验 。YOLOv5s 、YOLOv8n
和 YOLOv8n-Extend 分 别 通 过 边 缘 计 算 和 TensorRT
加 速 后 ,mAP@0.5 分 别 下 降 3.5% 、4.2% 和 2.3% ,
FPS 分 别 下 降 12 、9.8 和 7.9 帧 。 实 验 中 , 改 进 后 通
过 边 缘 计 算 的 YOLOv8n-Extend-Jetson 相 比 原 模 型
通 过 边 缘 计 算 的 YOLOv8n-Jetson ,mAP@0.5 提 升
a. YOLOv8 b. YOLOv8-Extend
4.6% ,FPS 下 降 5.2 帧 。YOLOv8n-Extend-Jetson 基
图 12   YOLOv8 模 型 改 进 前 后 不 同 阶 段 特 征 热 力 图
Fig. 12 Heat maps of different stages of YOLOv8 model before 本 都 保 持 在 较 高 的 准 确 率 和 检 测 效 率 。 由 于 本 试 验
and after improvement
最 终 运 行 的 摄 像 头 帧 率 仅 为 25 帧 , 有 40 ms 的 帧 间
隔 , 而 YOLOv8n-Extend-Jetson 检 测 帧 率 可 达 57.6
3.3   边 缘 计 算 实 验  
帧 , 帧 间 隔 为 17.3 ms , 完 全 可 以 运 行 摄 像 头 40 ms
的 帧 间 隔 中 。 结 果 表 明 本 算 法 满 足 实 时 性 检 测
本 研 究 目 的 是 应 用 在 边 缘 端 实 现 农 作 物 害 虫 检
测 , 选 择 NVIDIA 公 司 生 产 的 JETSON ORIN NX 要 求 。Vol. 6, No. 2 张 荣 华 等 : 复 杂 场 景 下 害 虫 目 标 检 测 算 法 : YOLOv8-Extend 59
目 标 纹 理 类 似 、 特 征 提 取 困 难 等 问 题 , 本 研 究 提 出
3.4   实 际 采 集 数 据 推 理 验 证 分 析  
的 基 于 YOLOv8 改 进 YOLOv8n-Extend 实 时 目 标 检
为 了 验 证 基 于 YOLOv8 的 改 进 模 型 在 实 际 农 作
测 算 法 。
物 害 虫 检 测 场 景 中 的 检 测 效 果 , 使 用 在 农 田 中 实 际
通 过 试 验 证 明 GhostConv ( 幻 影 卷 积 ) 能 够 较
采 集 的 未 经 模 型 训 练 的 视 频 作 为 图 像 输 入 源 来 模 拟
丰 富 地 提 取 特 征 ,HorBlock 网 络 中 的 递 归 门 控 卷 积
真 实 场 景 。 视 频 为 1 080 P ,H.265 编 码 , 使 用 ffm ‐
具 有 能 捕 捉 到 更 长 期 的 依 赖 关 系 的 特 征 ,BiFPN
peg 推 送 至 RTMP 流 媒 体 。 检 测 推 理 模 型 经 过 Ten ‐
( 加 权 特 征 金 字 塔 ) 双 向 融 合 网 络 的 深 浅 层 特 征 ,
sorRT 加 速 , 运 行 在 NVIDIA JETSON ORIN NX
增 强 不 同 网 络 层 之 间 特 征 信 息 的 传 递 。VoVGSCSP
16 GB 边 缘 计 算 设 备 上 , 使 用 DeepStream 稳 定 高 效
跨 级 融 合 增 加 网 络 的 深 度 和 非 线 性 , 并 整 合 结 果 以
的 视 频 流 读 取 分 布 式 部 署 实 现 高 吞 吐 量 和 低 延 迟 的
减 少 在 保 持 计 算 复 杂 性 的 同 时 提 高 模 型 的 准 确 性 ,
数 据 处 理 。 改 进 前 后 的 模 型 经 过 DeepStream 部 署 对
适 合 小 目 标 检 测 。 引 入 CBAM 注 意 力 机 制 , 增 加 了
比 FPS 均 约 为 60 , 满 足 农 作 物 害 虫 检 测 实 时 性 的 需
注 意 力 机 制 的 网 络 结 构 对 特 征 的 提 取 能 力 和 聚 焦 能
求 。 在 微 小 害 虫 和 与 背 景 相 似 的 害 虫 检 测 方 面 改 进
力 。 改 进 的 算 法 使 用 Wise-IoU 损 失 函 数 具 有 更 多 地
后 的 模 型 有 明 显 优 势 , 如 图 13 所 示 。
关 注 普 通 质 量 的 样 本 , 进 而 提 高 网 络 模 型 的 泛 化 能
力 和 整 体 性 能 。 相 比 原 YOLOv8 模 型 在 模 型 参 数 量
没 有 增 加 , 没 有 损 失 检 测 速 度 的 前 提 下 ,Preci ‐
sion 、Recall 、mAP@0.5 和 mAP@0.5 ∶0.95 评 价 指
标 分 别 提 升 2.6% 、3.6% 、2.4% 和 7.2% 。
研 究 对 比 了 YOLOv5s , YOLOv8n-CBAM 、
YOLOv8n-BiFPN 和 YOLOv8-GSCONV 等 YOLO 系
a. YOLOv8 b. YOLOv8-Extend 列 改 进 算 法 , 消 融 实 验 发 现 , 本 实 验 提 出 的 YO ‐
图 13   YOLOv8 模 型 改 进 前 后 实 采 数 据 检 测 结 果
LOv8n-Extend 改 进 算 法 表 现 最 佳 。 选 择 了 NVIDIA
Fig. 13 Real data detection results before and after improve ‐
公 司 生 产 的 JETSON ORIN NX 16GB 边 缘 计 算 设 备
ment of YOLOv8 model
进 行 部 署 , 改 进 前 后 的 模 型 运 行 在 边 缘 计 算 均 通 过
TensorRT 加 速 后 相 比 mAP@0.5 提 升 4.6% ,FPS 从
将 采 集 的 视 频 数 据 按 照 每 秒 抽 取 一 帧 并 剔 除 没
62.8 下 降 到 57.6 帧 因 为 模 型 复 杂 度 稍 高 略 有 下 降 ,
有 害 虫 的 数 据 保 存 。 通 过 人 工 分 类 把 目 标 在 图 像 画
但 满 足 实 时 性 检 测 要 求 。 通 过 改 进 算 法 , 能 够 有 效
面 中 大 小 、 前 后 景 差 异 、 检 测 目 标 数 量 和 干 扰 项 综
在 田 间 农 作 物 场 景 中 实 时 进 行 害 虫 检 测 , 验 证 了 该
合 分 类 分 为 简 单 (330 张 ) 、 中 等 (420 张 ) 和 困 难
算 法 在 实 际 用 于 生 产 中 的 可 行 性 和 有 效 性 。
(220 张 ) 3 种 类 型 。 在 边 缘 端 模 型 移 植 后 经 过 统 计
改 进 前 后 的 检 测 准 确 率 。 结 果 表 明 , 分 类 为 简 单 的
利 益 冲 突 声 明 : 本 研 究 不 存 在 研 究 者 以 及 与 公 开
类 型 准 确 率 相 差 不 大 , 分 类 为 中 等 的 类 型 准 确 率 稍
研 究 成 果 有 关 的 利 益 冲 突 。
高 于 改 进 前 , 分 类 为 困 难 类 型 的 数 据 准 确 率 提 高 了
11.9% , 明 显 高 于 改 进 前 。 如 表 6 所 示 。
参 参 考 考 文 文 献 献 :
表 6 YOLOv8-Extend 模 型 改 进 前 后 实 采 数 据 分 类 检 测
[ 1 ] 李 健, 陈 长 明 . 基 于 计 算 机 视 觉 的 农 作 物 害 虫 自 动 检 测
准 确 率 研 究 综 述[J]. 微 型 电 脑 应 用, 2009, 25(12): 62-64, 78.
LI J, CHEN C M. Research progress on automatic detec ‐
Table 6 The accuracy of YOLOv8-Extend model''s classifica ‐
tion for crop pests based on computer vision[J]. Micro ‐
tion and detection of actual data before and after improvement
computer applications, 2009, 25(12): 62-64, 78.
Methods 简 单 (330 张 ) 中 等 (420 张 ) 困 难 (220 张 ) [ 2 ] 刁 智 华, 王 欢, 宋 寅 卯, 等 . 复 杂 背 景 下 棉 花 病 叶 害 螨 图
像 分 割 方 法[J]. 农 业 工 程 学 报, 2013, 29(5): 147-152.
YOLOv8n 0.986 0.923 0.726
DIAO Z H, WANG H, SONG Y M, et al. Segmentation
YOLOv8n-Extend 0.993 0.955 0.845
method for cotton mite disease image under complex
background[J]. Transactions of the Chinese society of ag ‐
ricultural engineering, 2013, 29(5): 147-152.
4 结 论
[ 3 ] 宋 勇, 陈 兵, 王 琼, 等 . 基 于 无 人 机 多 光 谱 影 像 的 棉 花 黄
萎 病 监 测[J]. 棉 花 学 报, 2023, 35(2): 87-100.
针 对 农 作 物 害 虫 目 标 检 测 具 有 目 标 小 、 背 景 与 SONG Y, CHEN B, WANG Q, et al. Monitoring of cotton 60 智 慧 农 业 ( 中 英 文 ) Smart Agriculture Vol. 6, No. 2
Verticillium wilt based on unmanned aerial vehicle multi ‐ HE Y. Research on object detection algorithm of econom ‐
spectral images[J]. Cotton science, 2023, 35(2): 87-100. ic forestry pests based on improved YOLOv5[D]. Kun ‐
[ 4 ] 张 楠 楠, 张 晓, 白 铁 成, 等 . 基 于 CBAM-YOLO v7 的 自 ming: Yunnan Agricultural University, 2022.
然 环 境 下 棉 叶 病 虫 害 识 别 方 法[J]. 农 业 机 械 学 报, 2023, [19] REZA M T, MEHEDI N, TASNEEM N A, et al. Identifi ‐
54(S1): 239-244. cation of crop consuming insect pest from visual imagery
ZHANG N N, ZHANG X, BAI T C, et al. Identification using transfer learning and data augmentation on deep
method of cotton leaf pests and diseases in natural envi ‐ neural network[C]// 2019 22nd International Conference
ronment based on CBAM-YOLOv7[J]. Transactions of on Computer and Information Technology (ICCIT). Pisca ‐
the Chinese society for agricultural machinery, 2023, 54 taway, New Jersey, USA: IEEE, 2019.
(S1): 239-244. [20] CHEN J W, LIN W J, CHENG H J, et al. A smartphone-
[ 5 ] YUAN Z W, ZHANG J. Feature extraction and image re ‐ based application for scale pest detection using multiple-
trieval based on AlexNet[C]// Proceedings of Eighth Inter ‐ object detection methods[J]. Electronics, 2021, 10(4):
national Conference on Digital Image Processing (ICDIP ID 372.
2016. San Francisco,USA: SPIE, 2016, 10033: 65-69. [21] 魏 陈 浩, 杨 睿, 刘 振 丙, 等 . 具 有 双 层 路 由 注 意 力 的 YO ‐
[ 6 ] HE J, LI S, SHEN J M, et al. Facial expression recogni ‐ LOv8 道 路 场 景 目 标 检 测 方 法[J]. 图 学 学 报, 2023, 44
tion based on VGGNet convolutional neural network[C]// (6): 1104-1111.
2018 Chinese Automation Congress (CAC). Piscataway, WEI C H, YANG R, LIU Z B, et al. YOLOv8 with bi-lev ‐
New Jersey, USA: IEEE, 2018: 4146-4151. el routing attention for road scene object detection[J].
[ 7 ] AL-QIZWINI M, BARJASTEH I, AL-QASSAB H, et al. Journal of graphics, 2023, 44(6): 1104-1111.
Deep learning algorithm for autonomous driving using [22] LI R, WANG R J, XIE C J, et al. A coarse-to-fine network
GoogLeNet[C]// 2017 IEEE Intelligent Vehicles Sympo ‐ for aphid recognition and detection in the field[J]. Biosys ‐
sium (IV). Piscataway, New Jersey, USA: IEEE, 2017: tems engineering, 2019, 187: 39-52.
89-96. [23] LI H L, LI J, WEI H B, et al. Slim-neck by GSConv: A
[ 8 ] TARG S, ALMEIDA D, LYMAN K. Resnet in resnet: better design paradigm of detector architectures for auton ‐
Generalizing residual architectures[EB/OL]. arXiv: omous vehicles[EB/OL]. arXiv: 2206.02424, 2022.
1603.08029, 2016. [24] HAN K, WANG Y H, TIAN Q, et al. GhostNet: more fea ‐
[ 9 ] ZHU Y, NEWSAM S. DenseNet for dense flow[C]// 2017 tures from cheap operations[C]// 2020 IEEE/CVF Confer ‐
IEEE International Conference on Image Processing ence on Computer Vision and Pattern Recognition
(ICIP). New York, USA: ACM, 2017: 790-794. (CVPR). Piscataway, New Jersey, USA: IEEE, 2020:
[10] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: 1577-1586.
Towards real-time object detection with region proposal [25] RAO Y M, ZHAO W L, TANG Y S, et al. HorNet: Effi ‐
networks[J]. IEEE transactions on pattern analysis and cient high-order spatial interactions with recursive gated
machine intelligence, 2017, 39(6): 1137-1149. convolutions [EB/OL]. [2022-07-28]. https://arxiv.org/pdf/
[11] REDMON J, DIVVALA S, GIRSHICK R, et al. You only 2207.14284v2.pdf.
look once: Unified, real-time object detection[C]// 2016 [26] TAN M X, PANG R M, LE Q V. EfficientDet: scalable
IEEE Conference on Computer Vision and Pattern Recog ‐ and efficient object detection[C]// 2020 IEEE/CVF Con ‐
nition (CVPR). Piscataway, New Jersey, USA: IEEE, ference on Computer Vision and Pattern Recognition
2016: 779-788. (CVPR). Piscataway, New Jersey, USA: IEEE, 2020:
[12] REDMON J, FARHADI A. YOLO9000: better, faster, 10778-10787.
stronger[C]// 2017 IEEE Conference on Computer Vision [27] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional
and Pattern Recognition (CVPR). Piscataway, New Jersey, block attention module[C]// European Conference on
USA: IEEE, 2017: 6517-6525. Computer Vision. Berlin, Germany: Springer, 2018: 3-19.
[13] REDMON J, FARHADI A. YOLOv3: An incremental im ‐ [28] TERVEN J R, ESPARZA D M C. A comprehensive
provement[EB/OL]. arXiv: 1804. 02767, 2018. review of YOLO: From YOLOv1 to YOLOv8 and be ‐
[14] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. yond[EB/OL]. arXiv:2304.00501, 2023.
YOLOv4: Optimal speed and accuracy of object de ‐ [29] 高 腾, 张 先 武, 李 柏 . 深 度 学 习 在 安 全 帽 佩 戴 检 测 中 的 应
tection[EB/OL]. arXiv: 2004.10934, 2020. 用 研 究 综 述[J]. 计 算 机 工 程 与 应 用, 2023, 59(6): 13-29.
[15] GE Z, LIU S, WANG F, et al. YOLOX: exceeding YOLO GAO T, ZHANG X W, LI B. Review on application of
series in 2021[EB/OL]. arXiv: 2107. 08430, 2021. deep learning in helmet wearing detection[J]. Computer
[16] 王 建, 徐 闯 . 基 于 YOLOv5s 的 脐 橙 虫 害 检 测 研 究[J]. 工 engineering and applications, 2023, 59(6): 13-29.
业 控 制 计 算 机, 2023, 36(7): 105-106, 109. [30] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized
WANG J, XU C. Research on detection of navel orange intersection over union: A metric and a loss for bounding
pests based on YOLOv5s[J]. Industrial control computer, box regression[C]// 2019 IEEE/CVF Conference on Com ‐
2023, 36(7): 105-106, 109. puter Vision and Pattern Recognition (CVPR). Piscat ‐
[17] FUENTES A, YOON S, KIM S C, et al. A robust deep- away, New Jersey, USA: IEEE, 2019: 658-666.
learning-based detector for real-time tomato plant diseases [31] TONG Z, CHEN Y, XU Z, et al. Wise-IoU: Bound ‐
and pests recognition[J]. Sensors, 2017, 17(9): 2022. ing box regression loss with dynamic focusing mech ‐
[18] 何 颖 . 基 于 改 进 YOLOv5 模 型 的 经 济 林 木 虫 害 目 标 检 测 anism[EB/OL]. arXiv: 2301.10051, 2023.
算 法 研 究[D]. 昆 明: 云 南 农 业 大 学, 2022.Vol. 6, No. 2 张 荣 华 等 : 复 杂 场 景 下 害 虫 目 标 检 测 算 法 : YOLOv8-Extend 61
Crop Pest Target Detection Algorithm in Complex Scenes:
YOLOv8-Extend
1 1 2,3
ZHANG Ronghua , BAI Xue , FAN Jiangchuan
(1. Jinghang Chuangzhi (Beijing) Technology Co. Ltd. , Beijing 102404, China; 2. National Engineering Research Center for Infor ‐
mation Technology in Agriculture, Beijing 100097, China; 3. Beijing Key Laboratory of Digital Plants, Beijing 100097, China )
Abstract:
[Objective]   It is of great significance to improve the efficiency and accuracy of crop pest detection in complex natural environments,
and to change the current reliance on expert manual identification in the agricultural production process. Targeting the problems of
small target size, mimicry with crops, low detection accuracy, and slow algorithm reasoning speed in crop pest detection, a complex
scene crop pest target detection algorithm named YOLOv8-Entend was proposed in this research.
[Methods]   Firstly, the GSConv was introduecd to enhance the model''s receptive field, allowing for global feature aggregation. This
mechanism enables feature aggregation at both node and global levels simultaneously, obtaining local features from neighboring
nodes through neighbor sampling and aggregation operations, enhancing the model''s receptive field and semantic understanding abili ‐
ty. Additionally, some Convs were replaced with lightweight Ghost Convolutions and HorBlock was utilized to capture longer-term
feature dependencies. The recursive gate convolution employed gating mechanisms to remember and transmit previous information,
capturing long-term correlations. Furthermore, Concat was replaced with BiFPN for richer feature fusion. The bidirectional fusion of
depth features from top to bottom and from bottom to top enhances the transmission of feature information acrossed different network
layers. Utilizing the VoVGSCSP module, feature maps of different scales were connected to create longer feature map vectors, increas ‐
ing model diversity and enhancing small object detection. The convolutional block attention module (CBAM) attention mechanism
was introduced to strengthen features of field pests and reduce background weights caused by complexity. Next, the Wise IoU dynam ‐
ic non-monotonic focusing mechanism was implemented to evaluate the quality of anchor boxes using "outlier" instead of IoU. This
mechanism also included a gradient gain allocation strategy, which reduced the competitiveness of high-quality anchor frames and
minimizes harmful gradients from low-quality examples. This approach allowed WIoU to concentrate on anchor boxes of average
quality, improving the network model''s generalization ability and overall performance. Subsequently, the improved YOLOv8-Extend
model was compared with the original YOLOv8 model, YOLOv5, YOLOv8-GSCONV, YOLOv8-BiFPN, and YOLOv8-CBAM to
validate the accuracy and precision of model detection. Finally, the model was deployed on edge devices for inference verification to
confirm its effectiveness in practical application scenarios.
[Results and Discussions]   The results indicated that the improved YOLOv8-Extend model achieved notable improvements in accuracy,
recall, mAP@0.5, and mAP@0.5:0.95 evaluation indices. Specifically, there were increases of 2.6%, 3.6%, 2.4% and 7.2%, respec ‐
tively, showcasing superior detection performance. YOLOv8-Extend and YOLOv8 run respectively on the edge computing device
JETSON ORIN NX 16 GB and were accelerated by TensorRT, mAP@0.5 improved by 4.6%, FPS reached 57.6, meeting real-time de ‐
tection requirements. The YOLOv8-Extend model demonstrated better adaptability in complex agricultural scenarios and exhibited
clear advantages in detecting small pests and pests sharing similar growth environments in practical data collection. The accuracy in
detecting challenging data saw a notable increased of 11.9%. Through algorithm refinement, the model showcased improved capabili ‐
ty in extracting and focusing on features in crop pest target detection, addressing issues such as small targets, similar background tex ‐
tures, and challenging feature extraction.
[Conclusions]   The YOLOv8-Extend model introduced in this study significantly boosts detection accuracy and recognition rates while
upholding high operational efficiency. It is suitable for deployment on edge terminal computing devices to facilitate real-time detec ‐
tion of crop pests, offering technological advancements and methodologies for the advancement of cost-effective terminal-based auto ‐
matic pest recognition systems. This research can serve as a valuable resource and aid in the intelligent detection of other small tar ‐
gets, as well as in optimizing model structures.
Key words: YOLOv8; pest detection; attention mechanism; edge computing; CBAM; BiFPN; VoVGSCSP; GSConv
Foundation items: Beijing Nova Program (Z211100002121065, Z20220484202); National Key Research and Development Program
(2022YFD2002302-02)
Biography: ZHANG Ronghua, E-mail: zhangronghua@pku.org.cn
Corresponding author: FAN Jiangchuan, E-mail: fanjc@nercita.org.cn
( 登 陆 www.smartag.net.cn 免 费 获 取 电 子 版 全 文 )
献花(0)
+1
(本文系智慧农业资...首藏)