Recognition of mango skin defect based on semantic segmentation
-
摘要:目的
运用语义分割技术自动识别芒果及其表皮缺陷,实现芒果的质量评估及分选,为芒果质量快速无损检测提供参考。
方法采集自然环境下的多场景芒果表皮缺陷图像用于模型的训练与测试,将联合上采样金字塔(Joint pyramid upsampling,JPU)结构替换DeepLabV3+中空洞空间卷积池化金字塔(Atrous spatial pyramid pooling,ASPP),将Atrous-ResNet模型替换DeepLabV3+中Xception模型,采用类别像素准确率(Class pixel accuracy,CPA)、平均像素准确率(Mean pixel accuracy,MPA)、平均交并比 (Mean intersection over union,MIoU)作为模型的精度评价指标。
结果采用JPU模块替换ASPP模块,在ResNet网络中运用扩张卷积有利于增大模型的感受野,总体上预测的边界更加平滑,且对细小缺陷的识别更精确;与SegNet、LinkNet算法的对比验证表明,Atrous-ResNet模型具备更高的精度,CPA小幅提升,MPA提升3.79个百分点,MIoU提升4.57个百分点,Atrous-ResNet模型具有更好的识别效果。
结论基于语义分割的方法应用于芒果表皮缺陷识别是可行的,Atrous-ResNet模型较SegNet以及LinkNet算法比较具有更高的识别精度。
-
关键词:
- 语义分割 /
- DeepLabV3+ /
- 联合上采样金字塔 /
- 缺陷检测 /
- 芒果表皮
Abstract:ObjectiveThe semantic segmentation technology was used to automatically identify mango and its skin defects, to realize the quality evaluation and sorting of mango and provide a reference for the rapid and nondestructive testing of mango quality.
MethodMango skin defect images in multi-scene of natural environment were collected for model training and testing. Atrous spatial pyramid pooling (ASPP) in DeepLabV3+ was replaced by joint pyramid upsampling (JPU) structure, and Xception model in DeepLabV3+ was replaced by Atrous-ResNet model. Class pixel accuracy (CPA), mean pixel accuracy (MPA) and mean intersection over union (MIoU) were used as the accuracy evaluation indexes of each model.
ResultJPU module was used to replace ASPP module, and Atrous convolution was applied to ResNet network which was conductive to increase the receptive field of the model. In general, the predicted boundary was smoother, and the identification of small defects was more accurate. The comparison with SegNet and LinkNet algorithms showed that Atrous-ResNet model had higher accuracy, with CPA slightly improved, MPA was up 3.79 percent point and MIoU was up 4.57 percent. Atrous-ResNet model had better identification effects.
ConclusionThe method based on semantic segmentation is feasible for mango skin defect recognition. Compared with SegNet and LinkNet algorithms, Atrous-ResNet model has higher recognition accuracy.
-
Keywords:
- Semantic segmentation /
- DeepLabV3+ /
- Joint pyramid upsampling /
- Defect recognition /
- Mango skin
-
柑橘是国内生产的主要水果[1-2]。在传统柑橘果园管理过程中,存在作业效率低、管理粗放、施肥施药过量以及人员作业存在风险等问题,导致果园收益降低、农药残留污染,不利于农业经济和绿色农业的发展。智慧农业是农业信息化发展从数字化到网络化再到智能化的高级阶段[3]。智慧果园精准管控是实现果园智能化精准管理、增效减施、减少环境与人员危害的重要途径。近年来,柑橘果园智能化管理的研究主要以柑橘病虫害为研究对象,通过光谱、深度学习等技术快速获取果园病虫害信息,实现果树病虫害级别快速定量化[4-8]。在柑橘生产阶段的研究中,现有的研究主要针对柑橘果实和花,使用目标检测、语义分割等方法从模型轻量化、多尺度特征提取等多个方面改进模型,获取果实和花的准确统计数据和定位信息,为果园估产、自动采摘提供技术支持[9-12]。这些研究主要集中于果园管理中的果实识别、产量预测、常见病虫害监测等问题,关于柑橘新梢智能管理方面的研究鲜见报道。新梢作为柑橘植株的重要组成部分,在柑橘生产过程中有着极其重要的作用。健壮的秋梢将发育为结果母枝,代表着下一年的产量;而过多的夏梢会抢夺柑橘果实的营养造成果实膨胀期发育迟缓。研究表明,新梢与柑橘潜叶蛾、木虱的发生具有较强的相关性[13-14]。药物控梢作为主要的控梢方式,容易因施药不当造成果实花皮、大量落果、树体黄化、树势衰退等现象[15]。当前新梢管控多以人工巡园和种植经验为主,通过进入果园内部查看新梢抽发量和生长阶段判断新梢管控作业节点。这种方式容易受主观因素的影响存在判断偏差,而且果园面积较大时会出现生长阶段判断不准确的现象;另外,大面积果园中因不同区域的水肥或者果树长势差异导致新梢抽发情况不同,人工巡园很难兼顾果园全部区域,而且新梢一年抽发多次,人工消耗巨大,不利于大面积果园的新梢管控。因此,使用计算机视觉技术结合农业物联网对新梢图像进行识别,精准识别出各个新梢的当前生长阶段,实现自动化和智能化的新梢监测,这对于提高柑橘产量、品质以及减少劳动力消耗具有重要意义。
柑橘新梢识别难度主要在于目标颜色与植株背景颜色相近,且随着新梢生长,其形态、颜色逐渐接近正常枝叶。Li等[16]使用RGB-D相机结合YOLOV3目标检测算法检测茶叶“一尖两叶”区,对茶叶嫩芽的检测精度达到了93.1%。Xu等[17]使用YOLOV3识别图像中的茶蕾,并对识别后的区域使用DenseNet201网络进一步分类,剔除错误的识别结果,可以使整体识别分类精度提高至95.71%。袁加红等[18]采用三基色以及组合因子对图像进行灰度化处理 ,利用维纳滤波和梯度增强技术对处理的图像进行滤波去噪 ,采用大津法和迭代法分割图像获取二值图像,并基于二值化图像提取茶叶新梢的质心,获取茶叶新梢的具体位置。Fang等[19]使用坐标注意力机制(Coordinate attention, CA)以及Do-Conv卷积改进的YOLOV4-LITE对生姜嫩芽检测,确定新梢生长方向,改进后的模型识别精度达到98.73%,计算量降低至8.74 G。Scarlett等[20]提取图像中目标与其余物体的像素区分阈值,并进行图像切分,通过无监督的特征选择和聚类方法对葡萄新梢进行识别,识别精度达到86.83%,可为葡萄早期产量估计提供支持。上述研究中,针对新梢(嫩芽)的问题采用多种方法提高识别精度,但均存在对数据采集设备要求高、数据预处理要求高、方法复杂度高或者需要多次处理以及处理时间长等问题,不利于实时性要求高的农业应用和模型边缘化部署。针对新梢检测和识别的难题,为兼顾AI模型的边缘化部署和实时解析,在仅使用深度学习模型的前提下需要进一步提高模型的特征提取与区分能力。本研究在轻量化的YOLOX-Nano识别网络基础上,通过使用多种注意力机制和多元化数据集提升算法对目标与背景的区分能力,从而实现柑橘新梢智能检测和梢期的智能识别。
1. 材料与方法
1.1 数据采集与预处理
本文所需柑橘新梢图像主要采集于广东省惠州市博罗县,使用手机在距离目标20~100 cm的位置进行拍摄,包括晴天、阴天、小雨等日常自然环境情况,共获得3 000×4 000像素图片1 096张。在此基础上,加入田间摄像头和网络上的新梢图像123张,共计1 219张原始图像。通过裁剪和筛选最终获得608×608像素的有效图像1 681张。根据柑橘新梢生长管控中对抽梢量、秋梢壮梢、冬梢防冻害促转绿的实际需求,以及新梢不同生长阶段的特征,将新梢分为萌芽期、生长期和展叶期,如图1所示。使用LabelImg图像标注工具对数据集进行标注,标注数据以PASCAL VOC的格式存储在XML文件中。
为保证数据集的独立性,对数据集按照8∶1∶1比例进行训练集、验证集、测试集的切分,获得训练集图像1 345张、验证集图像168张、测试集图像168张。使用Imgaug数据扩充工具包对训练集进行扩充,扩充方法选用镜像、边缘检测、像素填充以及随机大小缩放等,并进行随机组合,通过筛选最终获得图像5 440张。
1.2 基于多注意力机制的柑橘梢期检测与识别模型
注意力机制可以使模型选择性地集中于部分信息,是模型的一种资源分配方案,可以有效地解决信息过载,同时在有效的计算资源下,使模型处理更重要的信息[21]。标准卷积中无法实现对通道的相关性进行建模,所有通道处于平等地位,造成一些重要信息表达不够明显,注意力机制在深度学习模型中重新分配了信息的权重,通过迭代训练可以使重要的信息获得较高的权重,实现网络性能的提升。在农业环境应用中容易出现小目标、局部遮挡、背景复杂等问题,引入注意力机制可以在一定程度上改进模型性能[22-24]。不同的注意力机制模块有着不同的作用,常见的通道注意力机制(Squeeze-and-excitation attention,SE)使用全局池化获得1×1×C(C为通道数),并使用2个全连接层和1个激活函数进行非线性处理,便于处理通道间的复杂相关性,最终获得1×1×C的通道权重与特征图层匹配[25]。由于使用全局池,SE将全局信息压缩为通道权重,可以很好地确定不同通道间的重要性,但这种方式将不同通道的信息同等对待,忽略了通道内部特征的局域性。在较深位置,特征信息已被高度抽象到通道中,位置效果明显;但在网络初始阶段,特征较为具体、位置特征明显的图层中SE的作用有限。针对SE存在的缺陷,CA沿特征图层的宽、高2个维度进行池化和卷积操作,从而获得特征编码,并在通道的2个方向上进行聚合。与SE仅简单地重新分配通道的权重相比,CA可以实现沿一个空间方向捕获远程依赖关系、沿另一个空间方向保留精确位置信息,使模型更准确地定位并识别目标区域。Hou等[26]试验证明,在ImageNet分类任务和COCO目标检测任务中, CA模型的精度比SE模型分别提升了0.9%和0.8%,有效地提高了网络模型对信息的保存能力。SE 和CA的计算过程如图2所示。
本研究采用YOLOX的轻量化版本YOLOX-Nano作为基础网络,目标是实现对柑橘新梢的精准定位与梢期阶段的精准识别、实现边缘端智能和终端智能,使智能识别模型部署不依赖远程传输的果园环境。YOLOX-Nano网络仅使用超参数Depth和Width控制CSPLayer中残差块的个数以及特征图的维度,Depth取值0.33、Width取值0.25。为进一步提高模型对柑橘新梢检测的性能,本研究对YOLOX-Nano网络进行了优化改良。由于轻量化后模型的通道数量减少,对通道进行权重分配使得重要的通道作用更加明显,并保证通道保存重要的目标空间和特征信息。本文在YOLOX-Nano网络中的Focus模块、SPP模块以及PAFPN 模块分别引入了注意力机制。由于Focus模块存在于网络的头部,直接面向原始图像,图像中存在丰富的空间位置信息和特征信息,因此如何保存精确的位置信息并捕获远程依赖关系对于网络特征提取十分重要。本文结合注意力机制的特点,选用CA对Focus模块进行改进,在Focus模块对图像进行间隔采样后添加注意力模块,将原始图像中的位置信息保留到扩充通道中,使Focus网络的特征保存能力进一步增强,如图3所示。
在神经网络模型中,深层的特征图层中包含更多的语义特征,位置信息已被高度抽象化为语义信息。YOLOX-Nano在深层网络中使用SPP模块增大模型感受野,使用PAFPN模块实现特征融合,获取显著的上下文特征。由于深层网络通道主要保存抽象的语义信息,单个通道变成保存信息的独立体。因此,本研究在SPP模块和PAFPN模块使用SE对拼接后的通道重新分配通道权重,确定通道重要性。如图4和图5所示,在SPP和PAFPN模块中加入SE的位置,其中,在SPP模块添加1处SE,PAFPN模块则加入了4处SE。
1.3 多元化预训练数据集构建
Yosinski等[27]通过试验证明深度学习模型能够学习物体的通用特征,相比于参数随机初始化,预训练模型参数更加合理,在训练中能加快模型的收敛,提高模型性能;另一方面,在数据集较少的情况下,使用预训练模型对提升精度也有一定帮助。
本文的研究对象为柑橘新梢,VOC和COCO数据集中的样本主要是生活场景中的物体,这与柑橘果园场景有明显的区别,预训练提取特征存在差异。因此,在训练过程增加了在实验室研究基础上建立的果园场景图像数据集作为预训练数据集。自建的果园数据集图像背景与柑橘新梢十分相似,其中,柑橘青果、荔枝新梢与柑橘新梢具有相似特征。因此,使用其作为预训练数据集模型进行参数初始化有利于学习目标与背景间的特征差异,使模型在特征提取过程中更明显地区分目标与背景。如图6所示,数据集中主要包括桃、苹果、梨、柑橘(青果)、柑橘(黄果)、荔枝新梢等目标,对应的数据集样本分别为332、46、333、1 584、128和328张。
2. 试验验证与结果
2.1 建模环境设置
本研究使用Pytorch1.7深度学习框架,显卡为RTX3060 显存12 G,底层使用CUDA11.0作为并行计算框架。在训练策略方面,Batch Size为16,除预训练数据集对比试验外,均使用COCO预训练数据集进行迁移学习训练,对训练数据集迭代训练共80次,初始学习率为1×10−3 ,学习衰减率均为0.92。为验证模型改进的可行性以及对柑橘新梢检测和梢期识别的有效性,本研究中设计了多个对比方案:1)当前改进模型与YOLOV4-lite系列以及原版YOLOX-Nano在模型检测精度、模型参数量、模型计算量、推理时间的差异;2)不同注意力机制改进方案对柑橘新梢检测的精度、模型参数量与计算量的影响;3)使用果园数据集与使用VOC、 COCO数据集以及其他随机参数初始化方法在检测精度上的差异。
2.2 模型评价与试验对比
针对本研究中的模型目标检测与分类任务,本文选用常用的平均精度(Average precision,AP)、 各类别AP的平均值(Mean average precision,mAP)和漏检率(Miss rate,MR)对数值作为模型性能评价指标。同时考虑到本研究内容为多类别的识别与检测,为综合判断模型性能,针对MR−2评价指标进行多类别求平均,获得mMR−2。各评价指标计算如下所示:
$$ {P=}\dfrac{\text{TP}}{\text{TP}+\text{FP}}{\text{,}} $$ (1) $$ {R=}\dfrac{\text{TP}}{\text{TP}+\text{FN}}\text{,} $$ (2) $$ \text{AP=}{\displaystyle\int }_{\text{0}}^{\text{1}}{P}\left({R}\right){{\rm{d}}R}\text{,} $$ (3) $$ \text{}\text{mAP=}\dfrac{\text{1}}{{C}}\displaystyle\sum _{\text{0}}^{{C}}{{\rm{AP}}}{\text{,}} $$ (4) 式中,P为准确率,R为召回率,TP为正确检测出的样本数量,FP为误检的样本数量,FN为漏检的样本数量,C为类别数量。
MR−2用来量化MR-FPPI曲线,MR、FPPI为互斥指标,当模型检测阈值较低时,模型检测出的目标较多,漏检较少但误检增加;阈值升高时则误检降低,漏检增加,通过设置不同的检测阈值来获取MR-FPPI曲线。MR−2计算方式较为复杂,以FPPI值作为横坐标,以lg(MR)值作为纵坐标,在[0.01,1.00]的范围内随机获取9个FPPI值,获取其对应的纵坐标值并求平均值。MR−2越小表示模型性能越好,其计算过程如下所示:
$$ \text{MR}=\text{1}-{R}{\text{,}} $$ (5) $$ \text{FPPI}=\dfrac{\text{FP}}{{N}}\text{,} $$ (6) $$ {\text{MR}}^{-\text{2}}=\dfrac{\text{1}}{\text{9}}\displaystyle\sum \delta\left(\text{FPPI}\right)\text{,} $$ (7) $$ {\text{mMR}}^{-\text{2}}=\dfrac{\text{1}}{{C}}\displaystyle\sum _{0}^{{C}}{\text{MR}}^{-\text{2}}\text{,} $$ (8) 式中,MR为漏检率,FPPI为图像平均误检率,N为图片数量,
$ \delta\text{(FPPI)} $ 表示FPPI与lg(MR)的映射关系,C为类别数量。2.3 不同注意力机制组合方案对比
本文采用YOLOX-Nano作为基础对比网络,在该网络上,分别在Focus、SPP以及PAFPN模块使用不同的注意力机制组合进行改进,训练了多组对比模型,其中,Focus+CA、SPP+SE、PAFPN+SE是本文提出的最终改进方案。模型识别结果(表1和图7)表明,在相同的训练条件下,相比于不同的注意力组合方案,本文提出的在Focus中添加CA、在SPP和PAFPN中添加SE的改进方案与原始YOLOX-Nano 相比,mAP提高4.39%、mMR−2下降0.086;在萌芽期、生长期和展叶期均获得较好的识别效果,而未引入注意力机制的YOLOX-Nano则表现出梢期识别效果的差异性,因此,本文提出的注意力机制引入方案同时改善了梢期阶段识别效果的平衡性。
表 1 不同改进方案检测结果对比Table 1. Comparison of detection results using different improvement scheme方案1)Scheme 萌芽期 Germination stage 生长期 Growth stage 展叶期 Leaf-expansion stage mAP/% mMR−2 AP/% MR−2 AP/% MR−2 AP/% MR−2 1 84.88 0.37 86.67 0.41 78.77 0.46 82.44 0.413 2 86.24 0.34 82.53 0.38 80.05 0.47 82.94 0.397 3 85.00 0.36 83.71 0.39 81.38 0.42 83.03 0.390 4 87.50 0.32 82.98 0.38 83.70 0.40 84.73 0.367 5 87.96 0.30 86.84 0.32 85.90 0.36 86.83 0.327 1) 1: YOLOX-Nano; 2: Focus+SE, SPP+SE; 3: Focus+CA, SPP+CA; 4: Focus+CA, SPP+SE; 5: Focus+CA, SPP+SE, PAFPN+SE 如图8a、8b所示,YOLOX-Nano网络对边缘位置不完整的新梢存在漏检现象,而改进后的YOLOX-Nano则完整地检测出图像中的新梢目标。为更好地解释模型的性能提升,本文使用网络最终输出结果计算图像的类激活图(Class activate map,CAM)。CAM将模型的关注区域以热力图的形式可视化,图中热力值越高表明关注程度越高。如图8c、8d所示,注意力机制改进后的YOLOX-Nano实现了资源的重新分配,提高了模型对特征的提取能力,对边缘或者特征不明显的区域关注仍能有效提取特征,使目标区域的关注度提高,从而避免了目标的漏检。此外,如图9所示,改进后的YOLOX-Nano模型关注点集中于主要目标区域,避免了因特征图中类激活点分散造成的单个目标局部重复检测的问题。
2.4 不同网络模型的综合性能对比
为验证改进后的YOLOX-Nano网络模型的综合性能,本研究建立与YOLOV4轻量化版本的对比试验,使用Torchsummary、Torchstat工具对网络模型进行参数量和计算量分析。表2数据表明,相同训练条件下针对本研究数据集,使用注意力机制改进后的YOLOX-Nano模型参数量仅为YOLOV4- MobileNetV3的9.82%,但模型的mAP提升6.58%,mMR−2下降0.033。在仅比原版YOLOX-Nano增加0.01G计算量的情况下,模型mAP提升4.39%、mMR−2下降0.086,模型综合性能更优。对于农业应用场景,更小的参数量和更少的计算量意味着更少的部署成本,因此改进后的模型对于农业应用具有明显的优势。
表 2 不同网络模型性能对比Table 2. Performance comparison of different backbone network网络模型1)Network model 参数量/MB Parameters t/s 计算量/G FLOPs mAP/ % mMR−2 1 43.16 0.042 7.56 80.25 0.360 2 42.01 0.052 6.98 80.83 0.373 3 4.23 0.036 1.11 82.44 0.413 4 4.24 0.037 1.12 86.83 0.327 1) 1: YOLOV4-MobileNetV3; 2: YOLOV4-GhostNet; 3: YOLOX-Nano; 4: Improved YOLOX-Nano 2.5 不同预训练数据集效果对比
为使模型初始化参数更具有合理性,本文在改进模型的基础上使用果园数据集以及VOC、COCO数据集进行预训练,选取最优模型作为基准模型训练柑橘新梢数据,训练超参数同“2.1”,训练Loss曲线如图10所示。Loss曲线中3种不同预训练模型均具有明显的收敛趋势,但使用果园数据集预训练模型在收敛过程中更加平滑,波动较小,训练集与验证集收敛较为同步、合理。在模型识别精度方面如表3数据所示,使用果园数据集作为预训练数据集后,训练模型的识别精度有明显的提升,mAP比VOC和COCO数据集分别提高了2.76%和1.24%,mMR−2分别下降了0.036和0.020。
表 3 不同参数初始化方法效果对比Table 3. Effect comparison of different parameter initialization method参数初始化方法 Parameter initialization method 萌芽期 Germination stage 生长期 Growth stage 展叶期 Leaf-expansion stage mAP/% mMR−2 AP/% MR−2 AP/% MR−2 AP/% MR−2 Kaiming 初始化 Kaiming_init 41.68 0.76 46.94 0.83 36.09 0.85 41.57 0.813 正交初始化 Orthogonal_init 44.69 0.79 45.12 0.80 37.52 0.83 42.44 0.807 正态分布初始化 Normal_init 80.06 0.45 72.70 0.57 71.17 0.60 74.64 0.540 VOC数据集 VOC dataset 87.36 0.32 85.37 0.32 83.19 0.39 85.31 0.343 COCO数据集 COCO dataset 87.96 0.30 86.84 0.32 85.90 0.36 86.83 0.327 果园数据集 Orchard dataset 87.42 0.28 87.19 0.31 89.58 0.33 88.07 0.307 为揭示不同参数初始化方式对模型性能影响的内部原因,使用“2.3”中的CAM可视化技术,对不同模型的最终输出进行可视化。如图11所示,使用正态分布初始化和Kaiming初始化在关注目标特征的同时,存在对图像中的其他与目标相似区域关注的现象,而正交初始化对目标关注较弱,不利于其他复杂情况下的目标检测。比较3种预训练数据集发现, COCO和果园数据集预训练参数关注点更集中在新梢的主要部分,但是相比于果园数据集预训练参数,COCO对于新梢的关注较弱;VOC和果园数据集预训练参数均对新梢主要部分表现出较强的关注度,但VOC数据集预训练参数仅关注新梢外侧叶片,未将关注点集中在新梢主要区域;相比于随机初始化,使用预训练数据集后的训练参数可以有效地抑制对非目标区域的关注,且关注点更集中、与目标的主要部分关注值更高。
根据CAM热力图可视化数据,以模型对目标区域的关注强弱为首要评价依据、关注区域的集中程度为次要判断依据,对模型进行评价。可以得出参数初始化(mAP、mMR−2)的优先顺序为:果园数据集(88.07%、0.307)、COCO数据集(86.83%、0.327)、VOC数据集(85.31%、0.343)、正态分布初始化(74.64%、0.540)、Kaiming初始化(41.57%、0.807)、正交初始化(42.44%、0.813),与模型的识别性能基本一致。表明预训练模型的主要作用是在训练初期保证模型具有合适的初始参数,以便提取数据的准确特征、保证网络优化的正确性。试验结果证明,使用果园数据集训练的预训练模型参数对于本研究中的新梢数据集的特征提取更为合理,最终实现训练模型最优。
由于果园数据集中包含有柑橘、荔枝、苹果等多种作物,且柑橘果实与新梢同属柑橘果园场景。因此,为验证数据集中不同作物是否有利于提升模型性能,在使用全部果园数据集预训练以外,仅使用果园数据集中的柑橘果园图像部分进行预训练,对比两者对模型的性能影响。结果(表4)表明,仅使用柑橘果园图像,对模型性能提升具有正向作用,但并未达到使用全部果园数据集的效果,mAP为87.14%,相比于使用全部果园数据集下降了0.93%。这是因为预训练数据集中图像数量的减少造成了特征多样性降低。深度学习中,数据集的大小是影响模型性能的一个主要因素,庞大的数据集包含特征更为全面,且更有利于学习和巩固当前场景下的目标与背景特征。本研究结果表明,柑橘果园场景对模型性能提升的作用较大;增加数据集的数量,有利于丰富当前场景下果园数据特征,巩固预训练过程中模型学习到的特征。
表 4 果园内部数据集效果分析Table 4. The effect analysis of orchard dataset预训练数据集 Pretrain dataset 萌芽期 Germination stage 生长期 Growth stage 展叶期 Leaf-expansion stage mAP/% mMR−2 AP/% MR−2 AP/% MR−2 AP/% MR−2 果园数据集 Orchard dataset 87.42 0.28 87.19 0.31 89.58 0.33 88.07 0.307 柑橘果园数据集 Citrus orchard dataset 89.12 0.31 85.41 0.33 86.89 0.38 87.14 0.340 柑橘果园与VOC混合数据集 Citrus orchards and VOC mixed dataset 88.36 0.33 85.98 0.33 86.61 0.34 86.98 0.330 3. 结论
本文基于智慧果园对柑橘长势智能监测的应用背景,研究了柑橘新梢检测和梢期识别的轻量型网络,并部署于果园边缘端和终端设备实现实时感知,从而指导果园进行精准化作业决策。结论如下:1)采用YOLOX-Nano作为基础网络,使用多种注意力机制改进网络的Focus模块、SPP模块以及PAFPN模块,能更有效地提取柑橘新梢的特征信息,在保证模型具有较少参数的基础上,提高了模型的识别分类精度,改进的模型对新梢检测的mAP比原模型提升了4.39%;2)通过构建多元果园预训练数据集,对模型进行迁移学习,模型更精确地区分目标与背景,mAP比VOC、COCO数据集模型分别提高了2.76%和1.24%;3)通过多个模型对比,在相同训练条件下,与YOLOV4_lite系列网络模型相比,本文提出的基于注意力机制的YOLOX-Nano神经网络的改进模型在模型的参数量、计算量以及识别精度方面更具有优势,改进后的模型参数仅为4.24 MB,降低了对部署平台的计算能力要求,为智慧果园柑橘生长精准管控提供了良好的技术支持。
-
图 2 联合上采样金字塔结构
a表示3个特征图作为输入参数;b表示上采样后的特征图并行经过不同膨胀率和分离卷积后再融合;c表示经过卷积生成最终的特征图
Figure 2. The structure of joint pyramid upsampling
a represents the three feature maps as input parameters, b represents the upsampled feature maps undergoing parallel operations of different expansion rates and separate convolution followed by concat, c represents the final feature map generated by convolution
表 1 DeepLabV3+与Atrous-ResNet模型的评价指标比较
Table 1 Comparison of evaluation indexes between DeepLabV3+ and Atrous-ResNet model
% 模型 Model 类别像素准确率 Class pixel accuracy 平均像素准确率 Mean pixel accuracy 平均交并比 Mean intersection over union 芒果 Mango 缺陷 Defect 茎梗 Stalk DeepLabV3+ 92.03 91.29 88.74 90.69 89.56 Atrous-ResNet 94.16 95.32 93.95 94.48 94.13 表 2 不同算法的评价指标的比较
Table 2 Comparison of evaluation indexes of different algorithms
% 模型 Model 类别像素准确率 Class pixel accuracy 平均像素准确率 Mean pixel accuracy 平均交并比 Mean intersection over union 芒果 Mango 缺陷 Defect 茎梗 Stalk LinkNet 82.72 81.17 78.94 80.94 77.37 SegNet 80.49 77.14 75.68 77.77 72.69 Atrous-ResNet 94.27 94.58 93.03 93.96 92.65 -
[1] DEEPA M, PUSHPA B, UDAYKUMAR K. Physicochemical properties, nutritional and antinutritional composition of pulp and peel of three mango varieties[J]. International Journal of Educational Science and Research, 2017, 7(3): 81-94.
[2] KANGD, WANGY, FANY, et al. Research and development of Camellia oleifera fruit sheller and sorting machine[J]. Earth and Environmental Science, 2018, 108: 042051. doi: 10.1088/1755-1315/108/4/042051.
[3] SIHOMBING P, TOMMY F, SEMBIRING S, et al. The Citrus fruit sorting device automatically based on color method by using tcs320 color sensor and arduino uno microcontroller[J]. Journal of Physics: Conference Series, 2019, 1235: 012064. doi: 10.1088/1742-6596/1235/1/012064.
[4] 邓继忠, 任高生, 兰玉彬, 等. 基于可见光波段的无人机超低空遥感图像处理[J]. 华南农业大学学报, 2016, 37(6): 16-22. doi: 10.7671/j.issn.1001-411X.2016.06.003 [5] 戴泽翰, 郑正, 黄莉舒, 等. 基于深度卷积神经网络的柑橘黄龙病症状识别[J]. 华南农业大学学报, 2020, 41(4): 111-119. doi: 10.7671/j.issn.1001-411X.201909031 [6] 赵德安, 吴任迪, 刘晓洋, 等. 基于YOLO深度卷积神经网络的复杂背景下机器人采摘苹果定位[J]. 农业工程学报, 2019, 35(3): 164-173. doi: 10.11975/j.issn.1002-6819.2019.03.021 [7] 刘小刚, 范诚, 李加念, 等. 基于卷积神经网络的草莓识别方法[J]. 农业机械学报, 2020, 51(2): 237-244. doi: 10.6041/j.issn.1000-1298.2020.02.026 [8] XING S L, LEE M. Classification accuracy improvement for small-size Citrus pests and diseases using bridge connections in deep neural networks[J]. Sensors, 2020, 20(17): 4992. doi: 10.3390/s20174992.
[9] SELVARAJ M G, VERGARA A, RUIZ H, et al. AI-powered banana diseases and pest detection[J]. Plant Methods, 2019, 15(1): 92. doi: 10.1186/s13007-018-0385-5
[10] PATEL K K, KAR A, KHAN M A. Common external defect detection of mangoes using color computer vision[J]. Journal of the Institution of Engineers: Series A, 2019, 100(4): 559-568. doi: 10.1007/s40030-019-00396-6
[11] 刘平, 朱衍俊, 张同勋, 等. 自然环境下贴叠葡萄串的识别与图像分割算法[J]. 农业工程学报, 2020, 36(6): 161-169. doi: 10.11975/j.issn.1002-6819.2020.06.019 [12] 李江波, 彭彦昆, 黄文倩, 等. 桃子表面缺陷分水岭分割方法研究[J]. 农业机械学报, 2014, 45(8): 288-293. doi: 10.6041/j.issn.1000-1298.2014.08.046 [13] 张德军, 周学成, 杨旭东. 基于图像处理和深度迁移学习的芒果果实病状识别[J]. 华南农业大学学报, 2021, 42(4): 113-124. doi: 10.7671/j.issn.1001-411X.202011002 [14] 袁培森, 黎薇, 任守纲, 等. 基于卷积神经网络的菊花花型和品种识别[J]. 农业工程学报, 2018, 34(5): 152-158. doi: 10.11975/j.issn.1002-6819.2018.05.020 [15] 尚增强, 杨东福, 马质璞. 基于深度卷积神经网络的大豆叶片多种病害分类识别[J]. 大豆科学, 2021, 40(5): 662-668. [16] 程曦, 吴云志, 张友华, 等. 基于深度卷积神经网络的储粮害虫图像识别[J]. 中国农学通报, 2018, 34(1): 154-158. doi: 10.11924/j.issn.1000-6850.casb16110146 [17] JHURIA M, KUMAR A, BORSE R. Image processing for smart farming: Detection of disease and fruit grading[C]//IEEE 20th International Conference on Image Information Processing. Shimla, India: IEEE, 2013: 521-526.
[18] BASAVARAJ T, BHAVANA S. Banana plant disease detection and grading using image processing[J]. International Journal of Engineering Science and Computing, 2016: 6512-6516.
[19] SAHU D, POTDAR M. Defect identification and maturity detection of mango fruits using image analysis[J]. American Journal of Artificial Intelligence, 2017, 1(1): 5-14.
[20] HUANG X Y, LÜ R Q, WANG S, et al. Integration of computer vision and colorimetric sensor array for nondestructive detection of mango quality[J]. Journal of Food Process Engineering, 2018, 41(8): 1-9.
[21] SUDARJAT, KUSUMIYATI, HASANUDDIN, et al. Rapid and non-destructive detection of insect infestations on intact mango by means of near infrared spectroscopy[J]. IPO Conference Series: Earth and Environmental Science, 2019, 365(1): 012037. doi: 10.1088/1755-1315/365/1/012037.
[22] KESTUR R, MEDURI A, NARASIPURA O. MangoNet: A deep semantic segmentation architecture for a method to detect and count mangoes in an open orchard[J]. Engineering Applications of Artificial Intelligence, 2018, 77: 59-69.
[23] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. Proceedings of the IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. doi: 10.1109/TPAMI.2016.2572683
[24] CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 1800-1807
[25] WU H K, ZHANG J G, HUANG K Q, et al. FastFCN: Rethinking dilated convolution in the backbone for semantic segmentation[EB/OL]. ArXiv preprint arXiv, 2019: 1903.11816. (2019-03-28)[2022-03-20]. https://ariv.org/abs/1903.11816.
[26] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision ECCV. Cham: Springer, 2018: 833-851
[27] CHAURASIA A, CULURCIELLO E. LinkNet: Exploiting encoder representations for efficient semantic segmentation[J]. IEEE Visual Communications and Image Processing (VCIP), 2017: 1-4. doi: 10.1109/VCIP.2017.8305148.
[28] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. Proceedings of the IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. doi: 10.1109/TPAMI.2016.2644615
-
期刊类型引用(0)
其他类型引用(1)