• 《中国科学引文数据库(CSCD)》来源期刊
  • 中国科技期刊引证报告(核心版)期刊
  • 《中文核心期刊要目总览》核心期刊
  • RCCSE中国核心学术期刊

面向水稻穗上谷粒原位计数与遮挡还原的轻量级I2I深度学习方法

范圣哲, 贡亮, 杨智宇, 王文杰, 刘成良

范圣哲, 贡亮, 杨智宇, 等. 面向水稻穗上谷粒原位计数与遮挡还原的轻量级I2I深度学习方法[J]. 华南农业大学学报, 2023, 44(1): 74-83. DOI: 10.7671/j.issn.1001-411X.202202008
引用本文: 范圣哲, 贡亮, 杨智宇, 等. 面向水稻穗上谷粒原位计数与遮挡还原的轻量级I2I深度学习方法[J]. 华南农业大学学报, 2023, 44(1): 74-83. DOI: 10.7671/j.issn.1001-411X.202202008
FAN Shengzhe, GONG Liang, YANG Zhiyu, et al. A lightweight I2I deep learning method for on-panicle grain in-situ counting and occluded grains restoration[J]. Journal of South China Agricultural University, 2023, 44(1): 74-83. DOI: 10.7671/j.issn.1001-411X.202202008
Citation: FAN Shengzhe, GONG Liang, YANG Zhiyu, et al. A lightweight I2I deep learning method for on-panicle grain in-situ counting and occluded grains restoration[J]. Journal of South China Agricultural University, 2023, 44(1): 74-83. DOI: 10.7671/j.issn.1001-411X.202202008

面向水稻穗上谷粒原位计数与遮挡还原的轻量级I2I深度学习方法

基金项目: 国家自然科学基金(51775333)
详细信息
    作者简介:

    范圣哲,硕士研究生,主要从事机器视觉和农业机器人研究,E-mail: fanshengzhe@sjtu.edu.cn

    通讯作者:

    贡 亮,副研究员,博士,主要从事农业机器人设计与控制、生物特征图像识别、嵌入式智能计算等研究,E-mail: gongliang_mi@sjtu.edu.cn

  • 中图分类号: S237;S511

A lightweight I2I deep learning method for on-panicle grain in-situ counting and occluded grains restoration

  • 摘要:
    目的 

    为解决传统水稻考种机谷粒表型分析算法在功能和效率上的局限性,针对穗上谷粒原位计数和被遮挡谷粒几何特征还原设计一种基于深度学习的轻量级通用算法框架。

    方法 

    将穗上谷粒原位计数与被遮挡谷粒还原这2个复杂任务分别拆解为2个阶段,将其核心阶段建模为I2I问题。基于MobileNet V3设计1种能够解决I2I问题的轻量级网络架构,并针对2个任务的特点分别设计了数据集图像制作方法,选择合适的优化策略和超参数对其进行训练。训练结束后,使用TensorFlow Lite runtime解释器将模型部署在考种机的树莓派4B开发板上,并进行测试。

    结果 

    该算法在穗上谷粒计数任务中具有良好的准确性、快速性,且具有一定的泛化性能。在被遮挡谷粒的形状还原任务中,该算法所还原的谷粒图像在面积、周长、长度、宽度和颜色分数评价指标中准确率均达到97%以上。

    结论 

    该算法能够有效地完成穗上谷粒计数和被遮挡谷粒的还原任务,且具有轻量级的优点。

    Abstract:
    Objective 

    To address the functional and efficiency limitations of the conventional grain phenotype analysis algorithm of seed analyzers, a deep learning based lightweight general algorithmic framework was designed for two tasks: In-situ counting of on-panicle grains and restoration of occluded grains.

    Method 

    Two complex tasks of on-panicle grains in-situ counting and restoration of occluded grains were decomposed into two stages, and their core stages were modeled as I2I problems. A lightweight network architecture capable of solving the I2I problem was designed based on MobileNet V3, and the data set generation method was designed according to the characteristics of these two tasks. Then the network was trained with appropriate optimization strategies and hyperparameters. After training, the model was deployed and tested with TensorFlow Lite runtime on Raspberry Pi 4B development board.

    Result 

    The algorithm had good accuracy, rapidity and some generalizable performance in the task of on-panicle grain counting. In the task of occluded grains shape restoration, the evaluation accuracy of the restored images in the metrics of area, perimeter, length, width and color score were all over 97%.

    Conclusion 

    The algorithm proposed in this paper can complete the task of on-panicle grain counting and occluded grains restoration effectively, and also has the advantage of being lightweight.

  • 苹果作为一种常见的水果,其质量问题直接关系到消费者的健康和生产者的经济利益。我国是苹果种植大国,苹果采摘、运送、储藏与加工处理是不可忽视的关键环节[1]。然而,由于人工质检的主观性和效率低下,传统的苹果质检方式已经无法满足现代农产品质量的需求[2]。基于机器学习的苹果识别技术应运而生,该方法可以对苹果进行自动识别和分类。李大华等[3]针对自然复杂环境下的苹果重叠问题,利用谱聚类算法进行分割,然后使用随机霍夫变换实现果实的识别和定位,尽管改进后的谱聚类算法在计算量上有所优化,但仍然涉及多步骤的处理,包括均值漂移预分割、稀疏矩阵构建、K-means分类和随机霍夫变换,整体流程较为复杂,对硬件性能要求较高,不适合实时性要求较高的应用场景。王迎超等[4]为了准确快速实现多特征融合的苹果分级,提出了一种基于K-means聚类和改进多层感知器(Multilayer perception, MLP)的苹果分级方法,但特征权重的确定存在主观性,且在不同的应用场景或苹果品种中特征的重要性会有所不同,导致分级准确性下降。宋怡焕等[5]提出基于最小二乘支持向量机(LS-SVM)检测苹果果梗/花萼缺陷,试验中仅使用了 180 幅苹果图像,而训练数据的不足会导致模型的泛化能力受限,对不同环境或苹果品种的误判率较高。上述传统的机器学习算法试验设计过于繁琐,对复杂的特征提取和分类能力不佳,易受外界因素的干扰,难以获得较好的检测结果。随着深度学习技术突飞猛进,以深度学习为基础的目标检测技术在苹果果实检测[6]、病虫害监测[7]、果实成熟度[8]和农业自动化[9-10]等领域发挥着重要的作用。目前,基于深度学习的苹果检测算法依据检测的阶段划分主要有2大类:一类是要先用特征提取器生成一系列可能包含待检物体的预选框,然后利用算法对生成的候选区域进行更精细的检测和分类的两阶段算法,主要有Faster-RCNN[11]和Mask-RCNN[12]算法;另一类为直接预测物体类别和位置的一阶段检测算法,主要有RetinaNet[13]、SSD[14]和YOLO系列[15-17]。两阶段算法计算复杂度高、检测速度较慢,一阶段算法在精度上有所欠缺。两阶段算法由于包含多个阶段和较多的候选框处理,推理速度通常比单阶段算法慢,不适合实时应用。为了进一步提升模型的检测速度和准确度,Tian等[18]提出了一种名为VMF-SSD(基于V空间的多尺度特征融合SSD)的新型苹果叶片病害检测方法;Wang等[19]通过迁移学习构建YOLOv5s检测模型的同时,采用通道修剪算法对模型进行修剪及微调,以实现对苹果果实的快速准确检测。

    目前,国内外目标检测领域对苹果的研究主要集中在自然环境下的苹果识别、苹果采摘机器人以及叶片病虫害识别方面。虽然已有部分研究针对缺陷苹果的检测[20-21],但仍存在上下文信息和多尺度特征融合不充分的问题。针对缺陷苹果识别,本文提出一种基于BiFPN[22]和Triplet注意力机制的YOLOv5s (BTF-YOLOv5s)缺陷苹果识别算法,通过BiFPN结合特征的上采样和下采样路径,联合跨尺度的特征交互,能够更好地传递和融合来自不同尺度的特征信息,提升目标检测性能;同时,学习动态的特征融合权重,根据不同目标的重要性进行灵活调整,增强模型的鲁棒性;在Neck层应用Triplet注意力机制,模型能更好地捕捉图像中的细节和上下文信息,提升目标检测的精度;采用Focal-CIoU调整正负样本之间的损失权重,让模型对难以分类的样本给予更多关注,提升模型的分类性能。

    本研究以YOLOv5s (版本6.2,包含4种不同大小的模型)为基础,网络结构由输入端、骨干网络、颈部网络和输出端4个部分组成。在输入端引入了Mosaic数据增强方法,随机选取4张图像,对它们进行随机放大、缩小等操作后,拼接成一张新的图像,使模型可以在更小的范围内识别目标;骨干网络主要使用了Focus和CSP1_X结构;颈部网络采用FPN+PAN和CSP2_X结构进一步进行特征融合和上采样操作,以提供更高级的语义信息和适应不同尺度图片的能力;输出端采用CIoU_Loss(Complete intersection over union loss)作为损失函数,并使用了非极大值抑制(Non-maximum suppression,NMS)进行后处理。本文提出了一种改进的YOLOv5s算法(BTF-YOLOv5s)用于缺陷苹果识别,首先,加权双向特征金字塔网络(Bidirectional feature pyramid network,BiFPN)替代YOLOv5中的FPN+PAN结构,通过引入可学习的权重学习不同输入特征的重要性;然后,将Triplet注意力机制应用到模型的最后一层,确保在最终输出前对特征进行充分的处理和优化;最后,采用Focal-CIoU损失函数调整损失权重给予缺陷苹果更多的关注,BTF-YOLOv5s算法结构整体框图如图1所示。

    图  1  BTF-YOLOv5s算法结构框图
    Figure  1.  The structure block diagram of BTF-YOLOv5s algorithm

    在目标检测任务中,有效地获取并处理不同尺度的特征信息是一个主要的挑战。传统的特征金字塔网络(FPN)[23]通过自上而下的方式聚合多尺度特征,如图2a所示,但容易受到单向信息流的限制;路径聚合网络(PANet)[24]在此基础上额外添加了一个自下向上的路径聚合网络,如图2b所示。在YOLOv5的Neck结构中,借鉴PANet的思想,高层的特征信息通过FPN+PAN结构进行传递融合。FPN+PAN结构虽然提高了特征传递的效率,但也增加了计算复杂度,尤其是在处理高分辨率输入时,可能导致较高的计算成本和较差的实时性;此外,固定结构导致对不同任务和数据缺乏自适应的能力。

    图  2  特征网络
    Figure  2.  Feature network

    为了解决上述信息流动单一、精度高但参数较多、计算量较大以及简单拼接导致的信息丢失和冗余等问题,本文提出了采用BiFPN替代YOLOv5s中的FPN+PAN结构。BiFPN在PANet和NAS-FPN(图2c)基础上优化了多尺度特征融合方式,结构如图2d所示。

    传统方法在融合具有不同分辨率的特征时,平等地对待所有输入特征,并将它们简单相加。但不同分辨率的输入特征对输出特征的贡献通常是不等的。为了解决这一问题,BiFPN为每个输入特征增加了一个额外的权重,并让网络学习每个输入特征的重要性,具体见式(1)和式(2):

    $$ P_6^{{\mathrm{td}}} = {\mathrm{Conv}}\left[ {\frac{{{w_1}P_6^{{\mathrm{in}}} + {w_2}{\mathrm{Reseize}}\left( {P_7^{{\mathrm{in}}}} \right)}}{{{w_1} + {w_1} + \varepsilon }}} \right], $$ (1)
    $$ P_6^{{\mathrm{out}}} = {\mathrm{Conv}}\left[ {\frac{{w_1^{'}P_6^{{\mathrm{in}}} + w_2^{'}P_6^{{\mathrm{td}}} + w_3^{'}{\mathrm{Reseize}}\left( {P_5^{{\mathrm{out}}}} \right)}}{{w_1^{'} + w_2^{'} + w_3^{'} + \varepsilon }}} \right], $$ (2)

    式中,$ P_6^{{\mathrm{td}}}$为自顶向下路径第6层的中间特征;$ P_6^{{\mathrm{in}}}$为第6层的输入特征; Resize用于分辨率匹配的上采样或下采样运算;$ P_6^{{\mathrm{out}}}$为自底向上路径第6层的输出特征。

    这一改进使得网络能够自适应地调整每个特征图的重要性,从而实现更有效的特征融合。引入BiFPN的YOLOv5s模型通过多尺度特征融合和简化的计算过程,有效地提升了对缺陷苹果检测的准确率;BiFPN通过引入可学习的融合权重优化了不同分辨率特征的重要性,增强了特征复用和多级特征融合路径,使得YOLOv5能够有效地检测出不同大小和形状的苹果缺陷。

    在缺陷苹果检测任务中,模型需要准确地识别和定位图像中的目标(苹果)。图像中存在大量的背景信息以及不同大小的苹果会分散模型的注意力,使得模型难以准确地区分缺陷苹果和背景,引入注意力机制旨在提升模型对关键目标的感知能力。SENet通过简单的操作(全局平均池化和全连接层)自适应地调整特征图中每个通道的重要性,使网络更加集中地关注重要的特征信息,在低计算成本的条件下通过通道注意力机制显著提升网络的表示能力[25];CBAM将通道注意力和空间注意力相结合,能够同时关注重要的通道特征和空间位置;CBAM中的通道注意力方法虽然提供了一定的性能改进,但通道注意力和空间注意力是相互分离和计算的[26]

    Triplet 注意力机制(简称“Triplet”)以一种有效的方式解释了CBAM未考虑到的跨维度的相互作用[27]。如图3所示,Triplet由3个平行的分支构成,其中2个分支分别用来捕获通道$C$维度和空间维度$ W/H $之间的跨通道交互,最后的一个分支用于捕获$ H $$W$的空间依赖关系。在第1个分支中,输入张量C×H×W(通道数$C$、高度$H$和宽度$W$)沿$H$轴逆时针旋转90°,形状变为$W$×$H$×$C$,输入特征先后经过$ Z - {\mathrm{Pool}} $$ K \times K $的标准卷积层、批量归一化层、通过Sigmod激活函数生成空间注意力权重后、再沿H轴顺时针旋转90°保持与输入的形状一致。其中$ Z - {\mathrm{Pool}} $表示为:

    图  3  Triplet注意力结构
    Figure  3.  Triplet attention structure
    $$ Z - {\mathrm{Pool}}(\chi ) = \left[{\mathrm{Max}}{{\mathrm{Pool}}_{0{\mathrm{d}}}}(\chi ),{\mathrm{Avg}}{{\mathrm{Pool}}_{0{\mathrm{d}}}}(\chi )\right]{\text{,}} $$ (3)

    式中,$ 0{\mathrm{d}}$表示发生最大池化和平均池化操作的第0维度。

    第2、第3个分支同理,最后对3个分支输出特征进行平均后聚合在一起,最终输出的张量:

    $$\begin{split} y =& \frac{1}{3}\Biggr\{ \overline {\mathop {{\chi _1}}\limits^ \wedge \sigma \left[ {{\psi _1}\left( {\mathop {\chi _1^*}\limits^ \wedge } \right)} \right]} + \overline {{{\mathop \chi \limits^ \wedge }_2}\sigma \left[ {{\psi _2}\left( {\mathop {\chi _2^*}\limits^ \wedge } \right)} \right]} + \Biggr.\\&\Biggr.\chi \sigma \left[ {{\psi _3}\left( {\mathop {{\chi _3}}\limits^ \wedge } \right)} \right] \Biggr\}{\text{,}} \end{split} $$ (4)

    式中,$ \sigma $代表Sigmod激活函数;$ \psi _1$$ \psi _2$$ \psi _3$表示由核大小$K$定义的标准二维卷积层。

    Triplet通过旋转操作构建各维度间的相关性,再对其进行残差变换,并以极小的计算成本对信息进行编码,在不需要太多可学习参数的前提下建立通道之间的相互依赖关系,有效地捕捉苹果图像中的关键特征。

    在机器学习任务中,常常面临数据集中不同类别的样本数量差异较大的问题,传统的交叉熵损失函数在处理样本不均衡问题时表现不佳,因为它将所有样本的重要性视为相等,继而导致模型在训练过程中更容易偏向于数量多的类别,公式如下:

    $$ {\mathrm{CE}}(p,y) = {\mathrm{CE}}({P_t}) = - \ln ({P_t}) {\text{,}}$$ (5)

    式中,CE是交叉熵(Cross entropy),$p$代表模型预测样本属于类别1的概率(取值范围0~1),$y$表示样本的标签(取值为−1和1)。定义

    $$P_t=\left\{ \begin{array}{ll} {p}, &{{\text{当}} \; y=1{\text{时}}}\\ {1-p},& {{\text{其他}}} \end{array}\right. {\text{。}}$$ (6)

    数据集中正常苹果和缺陷苹果图片数量均为1 600张左右,但标注数量略有差异,分别为4 624和2 039张。为了进一步加强模型对缺陷苹果的检测能力,引入Focal-CIoU损失函数。Focal Loss(FL)在交叉熵损失的基础上进行了改进,引入了平衡因子和聚焦因子,平衡因子用于调整正负样本之间的权重,聚焦因子用于调整难易样本间的损失权重;这样,既能调整正负样本的权重,又能控制难易分类样本的权重。FL表达式[28]为:

    $$ {\mathrm{FL}}({P_t}) = - {\alpha _t}{(1 - {P_t})^\gamma }\ln ({P_t}), $$ (7)

    式中,${\alpha _t}$是超参数(取0.25);$ {(1 - {P_t})^\gamma } $是调节因子,$\gamma $$ \geqslant $0的可调节聚焦参数(取2)。

    CIoU损失函数(LossCIoU)考虑边界框宽高比的尺度信息,在DIoU的基础上进行优化,计算公式[29]如下:

    $$ {\mathrm{DI}}{\text{o}}{\mathrm{U}} = {\mathrm{IoU}} - \frac{{{d^2}}}{{{c^2}}}{\text{,}} $$ (8)
    $$ {\mathrm{Loss}}_{\mathrm{CIoU}} = {\mathrm{IoU}} - {\frac{{{\rho ^2}\left( {b,{b^{gt}}} \right)}}{{{c^2}}}^{}} - \alpha V{\text{,}} $$ (9)

    式中,IoU为交并比(Intersection over Union),即“预测的边框”和“真实的边框”的交集和并集的比值;$ d$为预测框与真实框中心点的长度,$ c$为最小外接矩形的对角线距离,$\rho $代表的是2个中心点之间的欧式距离,$ b、{b^{gt}} $分别代表了预测框和真实框的中心点,$\alpha $是权重函数,$V$用来衡量长宽比的相似度。

    Focal-CIoU损失函数(${\mathrm{L}}{\text{os}}{{\text{s}}_{{\mathrm{Focal}} - {\mathrm{CIoU}}}} $)为:

    $$ {\mathrm{L}}{\text{os}}{{\text{s}}_{{\mathrm{Focal}} - {\mathrm{CIoU}}}} = {\mathrm{Io}}{{\mathrm{U}}^\gamma } \times {\mathrm{Los}}{{\mathrm{s}}_{{\mathrm{CIoU}}}} {\text{。}}$$ (10)

    Focal-CIoU通过调整正负样本的权重和提升边界框回归精度,减少了训练过程中梯度的不稳定性,使模型更关注缺陷苹果,提高了检测性能。

    本研究所用数据集从百度网站和飞桨AI Studio网站上获取,这2个网站提供了丰富的图像资源,包含虫蛀、腐烂、机械损伤和褶皱共4类苹果缺陷图像(图4),数量分别为414、750、148和280张,以确保对于苹果目标的全面覆盖。数据集共3213张(正常苹果1621张、缺陷苹果1592张),训练集和验证集按照9∶1的比例划分,其中,训练集图片2 891张、验证集图片322张。为了增加数据的多样性,通过Python程序对部分数据集进行水平、垂直方向的翻转以及旋转45º操作。构建和处理数据集,确保模型在训练和验证过程中能够充分学习和适应苹果目标的多样性特征,为后续的目标检测提供数据保障。

    图  4  苹果表面缺陷类型
    Figure  4.  Type of apple surface defect

    本试验平台基于Ubuntu 18.04.6的64位操作系统,显卡为GPU(NVIDIA GeForce RTX2080Ti),显存为12 G,使用PyTorch框架构建模型,编程语言为Python,Torch版本为1.10.1。在训练过程中,设置初始学习率为0.01、周期学习率为0.20、动量为0.937、权重衰减系数为0.000 5、批量大小为16。模型评估指标包括准确率(Precision,P)、召回率(Recall,R)、平均精确率均值(Mean average precision,mAP)和F1。TP (True positive)表示模型正确地检测出缺陷苹果的数量;TN (True negative)表示模型正确地排除正常苹果的数量;FP (False positive)表示模型错误地将正常苹果判定为缺陷苹果的数量; R指模型正确检测出的缺陷苹果(TP)占所有真正的缺陷苹果(TP + FN)的比例,表示模型对于真实缺陷苹果的检测能力;AP(Average precision)是衡量目标检测模型在不同召回率下准确性的指标,mAP是所有类别AP的平均,用来评估模型整体性能; F1综合了PR这2个指标,能够更全面地评估模型的性能。

    训练过程中损失值参数的动态变化如图5所示,随着训练轮次递增,损失值经历了急剧下降的阶段,最终趋向于0.025左右的平稳水平。训练损失和验证损失逐渐趋于拟合,意味着模型所学习的训练数据中的模式能够有效泛化到验证数据,表明该模型在面对新数据时具有优异的泛化性能。

    图  5  损失曲线
    Figure  5.  Loss curve

    Triplet插入YOLOv5s结构中的位置(A表示YOLOv5s-BiFPN-Triplet)主要有以下4种方式:1)在网络结构SPPF前面添加,即第9层[A+CIoU+Focal (9)];2)在网络结构最后一层添加,即第24层[A+ CIoU+Focal(24)];3)在网络结构SPPF前面和最后一层添加,即A+CIoU+Focal(9+25);4)替换Backbone中的C3模块,即A+CIoU+Focal。不同插入位置对比试验结果见表1。由表1可见,A+CIoU+Focal(24)比其他4种模型在各个方面均有不错的提升,准确率比YOLOv5s的提高了5.7个百分点,综合分析表明A+ CIoU+Focal(24)是最优的模型。

    表  1  Triplet注意力机制不同插入位置的模型试验结果对比
    Table  1.  Result comparison of Triplet attention mechanism with different insertion position %
    模型1)Model P R mAP F1
    YOLOv5s 75.4 83.6 86.5 79.29
    A+ CIoU+Focal(9) 77.3 81 85.6 79.11
    A+CIoU+Focal(9+25) 80.8 79.9 86.2 80.35
    A+CIoU+Focal 75.9 85.2 87.1 80.28
    A+CIoU+Focal(24) 81.1 85.8 90.0 83.38
     1) A:YOLOv5s-BiFPN-Triplet,括号内数字表示Triplet插入位置。
     1) The number in parentheses indicated the insertion position of Triplet.
    下载: 导出CSV 
    | 显示表格

    以YOLOv5s-BiFPN为基础,逐步添加SE,CBAM、CA和Triplet注意力机制。SE仅考虑通道间的信息,忽略了位置信息;CBAM通过学习的方式自动获取每个特征通道和特征空间的重要程度;而CA不仅考虑通道间的关系,而且考虑方向相关的位置信息。试验结果见表2,由表2可见,BiFPN+CA在准确率和mAP方面优于BiFPN+SE和BiFPN+CBAM;Triplet注意力机制利用三分支结构能够捕获更多的关键信息,建立通道之间的相互依赖关系,试验结果也验证了BiFPN+Triplet是最优模型。

    表  2  BiFPN添加不同注意力机制的模型试验结果对比
    Table  2.  Result comparison of BiFPN with different attention mechanism %
    模型ModelPRmAP
    BiFPN+SE76.183.187.0
    BiFPN+CBAM77.581.587.6
    BiFPN+CA78.681.388.1
    BiFPN+Triplet79.383.288.4
    下载: 导出CSV 
    | 显示表格

    为了验证各个模块的作用,以YOLOv5s为基础,进行逐步添加和替换,结果见表3。从表3中可以看出,与初始的YOLOv5s模型相比,单独添加BiFPN、Triplet或Focal-CIoU模块的模型准确率、召回率和mAP均有一定的提升。同时添加2种模块时,取得的效果更佳,添加BiFPN+Triplet的模型mPA比单独添加BiFPN的提高了0.4个百分点、准确率比单独添加Triplet的提高2.9个百分点;添加Triplet+Focal-CIoU的模型准确率和mAP比单独添加Triplet的分别提高1.1和0.3个百分点;添加BiFPN+Focal-CIoU的模型准确率和mAP比单独添加Focal-CIoU的分别提高1.7和1.0个百分点。当三者同时添加时,提高了模型对缺陷苹果的感知能力,与YOLOv5s模型相比,准确率、召回率和mAP分别提高5.7、2.2和3.5个百分点。

    表  3  消融试验结果
    Table  3.  The result of ablation test %
    BiFPNTripletFocal-CIoUPRmAP
    75.483.686.5
    80.384.388.0
    76.486.189.3
    78.483.089.8
    79.383.288.4
    77.584.589.6
    80.184.088.9
    81.185.890.0
    下载: 导出CSV 
    | 显示表格

    为了验证Focal-CIoU损失函数的优越性,本文设计了YOLOv5s-BiFPN-Triplet+损失函数的消融试验,结果见表4。由表4可知,A+ CIoU+Focal与次优模型A+ SIoU相比,准确率提高了1个百分点、召回率和mAP提高0.2个百分点、F1提高0.62个百分点;虽然A+ WIoU的准确率与A+ CIoU+Focal相同,但召回率、mAP和F1均低于A+ CIoU+Focal。综合准确率、召回率、mAP和F1等指标, A+ CIoU+Focal是最优模型。

    表  4  Focal-CIoU与其他损失函数对比
    Table  4.  Comparison of Focal-CIoU with other loss functions %
    模型1)Model P R mAP F1
    A 79.3 83.2 88.4 81.20
    A+ DIoU 79.1 84.8 89.2 81.85
    A+ DIoU+Focal 79.4 84.3 89.6 81.78
    A+ SIoU 80.1 85.6 89.8 82.76
    A+ SIoU+Focal 77.9 85.3 88.5 81.43
    A+ EIoU 78.7 84.3 88.7 81.40
    A+ EIoU+Focal 80.7 80.0 88.1 80.35
    A+ WIoU 81.1 79.4 88.2 80.24
    A+CIoU+Focal 81.1 85.8 90.0 83.38
     1) A:YOLOv5s-BiFPN-Triplet.
    下载: 导出CSV 
    | 显示表格

    为了证明本文提出模型(BTF-YOLOv5s)的有效性,与当前主流的目标检测模型进行对比(表5)。由表5可见,与SSD相比,BTF-YOLOv5s的准确率提高了4.8个百分点、召回率和mAP分别提高了4.1和5.7个百分点,模型大小大幅度减小;与YOLOv3相比,BTF-YOLOv5s的准确率提高近10个百分点,模型小了近8倍;与YOLOv4相比,BTF-YOLOv5s虽然准确率低了3.1个百分点,但召回率和mAP分别提升近20和13个百分点,模型大小减少了17倍;与YOLOv5s、YOLOv7和YOLOv8s相比,BTF-YOLOv5s在准确率、召回率和mAP方面均有提升;YOLOv8n和YOLOv9的准确率相较于BTF-YOLOv5s各提高0.6和4.9个百分点,但二者召回率过低; F1显示BTF-YOLOv5s是最优的。综合分析,BTF-YOLOv5s显著优于大多数目标检测模型,更具有优势。图6直观地展示了SSD、YOLOv3、YOLOv5s等模型与BTF-YOLOv5s的mAP比较,在训练轮次逐步增加的过程中,BTF-YOLOv5s的mAP最终稳定在90%左右,明显优于其他模型。

    表  5  BTF-YOLOv5与其他模型的对比
    Table  5.  Comparison of BTF-YOLOv5 with other models
    模型
    Model
    P/% R/% mAP/% 模型大小/MB
    Model size
    F1/% 参数
    Parameter
    GFLOPs1)
    SSD 76.3 81.7 84.3 95.5 78.91 2.49×107 31.4
    YOLOv3 71.8 83.8 86.5 123.5 77.34 3.30×107 78.1
    YOLOv4 84.2 65.6 76.6 256.3 73.75 6.50×107 142.3
    YOLOv5s 75.4 83.6 86.5 14.4 79.29 7.03×106 16.0
    YOLOv7 79.6 83.1 87.1 142.1 81.31 3.72×107 105.1
    YOLOv8n 81.7 76.6 87.4 6.2 79.07 3.01×106 8.2
    YOLOv8s 73.6 83.0 87.2 22.5 78.02 1.11×107 28.6
    YOLOv9 86.0 78.8 89.7 102.8 82.24 5.10×107 238.9
    BTF-YOLOv5s 81.1 85.8 90.0 14.7 83.38 7.17×106 16.7
     1) GFLOPs:每秒10亿次的浮点运算数。
     1) GFLOPs: Giga floating-point operations per second.
    下载: 导出CSV 
    | 显示表格
    图  6  不同模型的mAP值对比
    Figure  6.  The comparison of mAP values of different models

    本模型的应用场景之一即苹果采摘机器人在采摘过程中的分拣,故选择缺陷苹果所处的自然环境下的场景以及摆放不规整的场景。如图7所示,其中,第1行图像为原始图像、第2行图像为YOLOv5s检测图、第3行图像为BTF-YOLOv5s检测图;在图7的第1列中,BTF-YOLOv5s能够有效检测出正常苹果与缺陷苹果,准确率比YOLOv5s有显著提升;在第2列中对于像素更少的瑕疵斑点,YOLOv5s模型不仅出现了误检,而且准确率也低于BTF-YOLOv5s;在第3列中,BTF-YOLOv5s模型的检测效果明显优于YOLOv5s模型。

    图  7  不同模型的检测结果对比
    Figure  7.  Comparison of test results of different models

    为了实现对瑕疵苹果的快速准确检测,本文提出基于BiFPN和Triplet注意力机制的YOLOv5s缺陷苹果识别算法。通过加权双向特征金字塔网络(BiFPN)来学习不同的输入特征;采用Triplet注意力机增强模型对目标之间的关联和上下文信息的表示能力;采用Focal-CIoU损失函数,在计算损失时调整损失权重,给予目标物体更多的关注。注意力机制的应用使模型更加关注目标,在4种位置的插入对比中,YOLOv5s网络结构最后一层的插入位置表现最为优越,与在网络结构SPPF前面和最后一层添加相比,准确率、召回率和mAP分别提高了0.3、5.9和3.8个百分点;BiFPN与SE、CBAM、CA、Triplet注意力机制两两组合,验证了BiFPN+Triplet的优越性;相较于BiFPN+CA,准确率、召回率和mAP分别提升了0.7、1.9和0.3个百分点。消融试验表明,以YOLOv5s为基础,同时添加3种模块的准确率、召回率和mAP分别提高了5.7、2.2和3.5个百分点,提升效果显著。以YOLOv5s-BiFPN-Triplet为基础,Focal-CIoU的准确率比次优损失函数SIoU高1个百分点;准确率、召回率和mAP比主流的YOLOv7算法提高了1.5、2.7和2.9个百分点,同时,模型大小从142.1 MB减小到14.7 MB,显著降低了内存占用,在计算资源受限的环境中,为部署目标检测系统提供了有力支持。YOLOv8n和YOLOv9的准确率虽略高于BTF-YOLOv5s,但均面临召回率过低的问题,而YOLOv8s的准确率只有73.6%。在应用场景的对比试验中,BTF-YOLOv5s也表现出较好的优越性。

  • 图  1   谷粒计数网络训练数据

    Figure  1.   Training data of grain counting network

    图  2   经分块后的图像块样本

    Figure  2.   Image block samples after slicing

    图  3   遮挡还原图像样本示例

    Figure  3.   Samples of occlusion restoration images

    图  4   用于谷粒分割的MobileNet V3网络

    Figure  4.   MobileNet V3 network used for grain segmentation

    图  5   2种学习率衰减策略

    Figure  5.   Two strategies of learning rate decay

    图  6   遮挡谷粒还原的网络架构

    Figure  6.   Network structure for occluded grain restoration

    图  7   损失(a)和交并比(b)的可视化

    Figure  7.   Visualization of loss (a) and IoU (b)

    图  8   6组遮挡还原图像样本

    每组图片中,左:输入图片,中:标签图片,右:预测图片

    Figure  8.   Samples of six sets of occlusion restoration image

    In each group of pictures, the left is the input picture, the middle is the labeled picture, the right is the predicted picture

    图  9   穗上谷粒计数结果的可视化

    Figure  9.   Visualization of on-panicle grain counting results

    图  10   谷粒计数结果及其局部放大图像

    Figure  10.   Grain counting result and its local magnification image

    图  11   新采集样本的计数结果

    Figure  11.   Counting results on newly collected samples

    图  12   域偏移数据集下的谷粒计数结果及其局部放大图像

    Figure  12.   Grain counting result and its local magnification image under domain shift data set

    图  13   遮挡还原结果示例

    Figure  13.   Example of occlusion restoration result

    表  1   不同切片尺寸下算法的准确率对比

    Table  1   Accuracy comparison of algorithms for different slicing sizes

    长度/像素 Length 宽度/像素 Width 平均准确率/% Mean accuracy
    780 588 91.56
    748 564 92.28
    715 539 94.53
    650 490 96.81
    682 514 95.66
    620 467 96.73
    566 426 94.25
    下载: 导出CSV

    表  2   遮挡还原模型的平均准确率对比

    Table  2   Comparison of average accuracy of occlusion restoring model %

    指标 Index 文献[31]算法 Algorithm in reference [31] 本文算法 Algorithm in this paper
    面积 Area 91.66 99.76
    周长 Perimeter 96.64 97.90
    长度 Length 99.92 99.55
    宽度 Width 96.70 98.11
    颜色分数 Color score 93.17 97.86
    下载: 导出CSV
  • [1]

    ZHANG Q. Strategies for developing green super rice[J]. Proceedings of the National Academy of Sciences of the United States of America, 2007, 104(42): 16402-16409. doi: 10.1073/pnas.0708013104

    [2]

    CHENG S H, CAO L Y, ZHUANG J Y, et al. Super hybrid rice breeding in China: Achievements and prospects[J]. Journal of Integrative Plant Biology, 2007, 49(6): 805-810. doi: 10.1111/j.1744-7909.2007.00514.x

    [3]

    TANABATA T, SHIBAYA T, HORI K, et al. SmartGrain: High-throughput phenotyping software for measuring seed shape through image analysis[J]. Plant physiology, 2012, 160(4): 1871-1880. doi: 10.1104/pp.112.205120

    [4]

    KNECHT A C, CAMPBELL M T, CAPREZ A, et al. Image Harvest: An open-source platform for high-throughput plant image processing and analysis[J]. Journal of Experimental Botany, 2016, 67(11): 3587-3599. doi: 10.1093/jxb/erw176

    [5]

    CHEN Y T, LIU X, YANG M H. Multi-instance object segmentation with occlusion handling[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015.

    [6]

    DOLLÁR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: A benchmark[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009.

    [7] 李秀智, 李家豪, 张祥银, 等. 基于深度学习的机器人最优抓取姿态检测方法[J]. 仪器仪表学报, 2020, 41(5): 108-117. doi: 10.19650/j.cnki.cjsi.J2006162
    [8] 甘海明, 岳学军, 洪添胜, 等. 基于深度学习的龙眼叶片叶绿素含量预测的高光谱反演模型[J]. 华南农业大学学报, 2018, 39(3): 102-110. doi: 10.7671/j.issn.1001-411X.2018.03.016
    [9] 史红栩, 李修华, 李民赞, 等. 基于深度学习的香蕉病害远程诊断系统[J]. 华南农业大学学报, 2020, 41(6): 92-99. doi: 10.7671/j.issn.1001-411X.202004027
    [10]

    HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016

    [11]

    REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017.

    [12]

    LIU C, CHEN L C, SCHROFF F, et al. Auto-DeepLab: Hierarchical neural architecture search for semantic image segmentation[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. Long beach: IEEE, 2019.

    [13]

    ASHA C, NARASIMHADHAN A. Vehicle counting for traffic management system using YOLO and correlation filter[C]//2018 IEEE International Conference on Electronics, Computing and Communication Technologies. Bangalore: IEEE, 2018.

    [14]

    OLTEAN G, FLOREA C, ORGHIDAN R, et al. Towards real time vehicle counting using yolo-tiny and fast motion estimation[C]//2019 IEEE International Symposium for Design and Technology in Electronic Packaging. Cluj-Napoca: IEEE, 2019.

    [15]

    RAD R M, SAEEDI P, AU J, et al. Blastomere cell counting and centroid localization in microscopic images of human embryo[C]//2018 IEEE International Workshop on Multimedia Signal Processing. Vancouver: IEEE, 2018.

    [16]

    CHEN J, FAN Y, WANG T, et al. Automatic segmentation and counting of aphid nymphs on leaves using convolutional neural networks[J]. Agronomy, 2018, 8(8): 129. doi: 10.3390/agronomy8080129.

    [17]

    FALK T, MAI D, BENSCH R, et al. U-Net: Deep learning for cell counting, detection, and morphometry[J]. Nature methods, 2019, 16(1): 67-70. doi: 10.1038/s41592-018-0261-2

    [18]

    CHAUDHURY S, ROY H. Can fully convolutional networks perform well for general image restoration problems?[C]//2017 IEEE International Conference on Machine Vision Applications. Nagoya: IEEE, 2017.

    [19]

    XIONG R, LIU G, QU Y, et al. Depth map inpainting using a fully convolutional network[C]//2019 IEEE International Conference on Robotics and Biomimetics. Dali: IEEE, 2019.

    [20]

    KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. doi: 10.1145/3065386

    [21]

    SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. arXiv: 1409.1556 (2014-09-04) [2022-02-12]. https://doi.org/10.48550/arXiv.1409.1556.

    [22]

    HOWARD A G, ZHU M, CHEN B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[EB/OL]. arXiv: 1704.04861 (2017-04-17) [2022-02-12]. https://doi.org/10.48550/arXiv.1704.04861.

    [23]

    SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4510-4520.

    [24]

    HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[C]//2019 IEEE International Conference on Computer Vision. Seoul: IEEE, 2019.

    [25]

    YANG T J, HOWARD A, CHEN B, et al. Netadapt: Platform-aware neural network adaptation for mobile applications[EB/OL]. arXiv: 1804.03230 (2018-04-09) [2022-02-12]. https://doi.org/10.48550/arXiv.1804.03230.

    [26]

    VANSCHOREN J. Meta-learning: A survey[EB/OL]. arXiv: 1810.03548 (2018-10-08) [2022-02-12]. https://doi.org/10.48550/arXiv.1810.03548.

    [27]

    CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. arXiv: 1706.05587 (2017-06-17) [2022-02-12]. https://doi.org/10.48550/arXiv.1706.05587.

    [28]

    RAMACHANDRAN P, ZOPH B, LE Q V. Searching for activation functions[EB/OL]. arXiv: 1710.05941 (2017-10-16) [2022-02-12]. https://doi.org/10.48550/arXiv.1710.05941.

    [29]

    KINGMA D P, BA J. Adam: A method for stochastic optimization[EB/OL]. arXiv: 1412.6980 (2014-12-22) [2022-02-12]. https://doi.org/10.48550/arXiv.1412.6980.

    [30]

    LOSHCHILOV I, HUTTER F. SGDR: Stochastic gradient descent with warm restarts[EB/OL]. arXiv: 1608.03983 (2016-08-13) [2022-02-12]. https://doi.org/10.48550/arXiv.1608.03983.

    [31] 马志宏. 基于深度学习的水稻粒穗复杂性状图像分析方法[D]. 上海: 上海交通大学, 2018.
    [32]

    GONG L, LIN K, WANG T, et al. Image-based on-panicle rice [Oryza sativa L.] grain counting with a prior edge wavelet correction model[J]. Agronomy, 2018, 8(6): 91. doi: 10.3390/agronomy8060091.

    [33]

    AL-TAM F, ADAM H, DOS ANJOS A, et al. P-TRAP: A panicle trait phenotyping tool[J]. BMC Plant Biology, 2013, 13: 122. doi: 10.1186/1471-2229-13-122.

    [34]

    GANIN Y, LEMPITSKY V. Unsupervised domain adaptation by backpropagation[C/OL]//Proceedings of the 32nd International Conference on Machine Learning. PMLR, 2015, 37: 1180-1189. [2022-02-08]. http://proceedings.mlr.press/v37/ganin15.html.

    [35]

    ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[EB/OL].arXiv: 1611.07004 (2016-11-21) [2022-02-12]. https://doi.org/10.48550/arXiv.1611.07004.

图(13)  /  表(2)
计量
  • 文章访问数:  143
  • HTML全文浏览量:  8
  • PDF下载量:  414
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-02-11
  • 网络出版日期:  2023-05-17
  • 刊出日期:  2023-01-09

目录

/

返回文章
返回